Cours de probabilités, master 1

Transcription

Cours de probabilités, master 1
Cours de probabilités, master 1
Yves Coudène
19 janvier 2015
2
Table des matières
Introduction
5
Notations
6
1 Formalisme de Kolmogorov
1.1 Le cas discret : Ω fini ou dénombrable .
1.2 Le cas continu : Ω = R ou Rd . . . . .
1.3 Le cas des espaces produits . . . . . . .
1.4 Exercices . . . . . . . . . . . . . . . . .
.
.
.
.
7
7
8
9
11
.
.
.
.
.
.
13
13
13
15
16
19
21
.
.
.
.
23
23
24
25
28
.
.
.
.
29
29
30
36
40
5 Convergence de suites de variables aléatoires
5.1 Les différents types de convergence. . . . . . . . . . . . . . . . . .
5.2 Fonction caractéristique et transformée de Fourier . . . . . . . . .
5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . .
41
41
43
45
.
.
.
.
2 Variables aléatoires
2.1 Définition d’une variable aléatoire . . . .
2.2 Espérance et variance . . . . . . . . . . .
2.3 Inégalités . . . . . . . . . . . . . . . . .
2.4 Loi d’une variable aléatoire . . . . . . . .
2.5 Loi d’un multiplet de variables aléatoires
2.6 Exercices . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Indépendance
3.1 Indépendance d’événements et de variables aléatoires
3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . .
3.3 Loi d’un multiplet de variables indépendantes . . . .
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .
4 Loi
4.1
4.2
4.3
4.4
des grands nombres
Loi faible des grands nombres
Loi forte des grands nombres .
Illustration numérique . . . .
Exercices . . . . . . . . . . . .
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
TABLE DES MATIÈRES
5.4
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Théorème de la limite centrée
6.1 Fonction caractéristique de la loi normale
6.2 Théorème de la limite centrée . . . . . .
6.3 Illustration numérique . . . . . . . . . .
6.4 Exercices . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
.
.
.
.
53
53
54
56
61
7 Espérance conditionnelle
7.1 Définition de la notion d’espérance conditionnelle . . .
7.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Propriétés de l’espérance conditionnelle . . . . . . . . .
7.4 Conditionnement relativement à une variable aléatoire
7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
66
69
74
8 Théorie des martingales
8.1 La notion de martingale . . . . . . . . . . .
8.2 Convergence des martingales . . . . . . . . .
8.3 Séries de variables aléatoires indépendantes
8.4 Convergence des espérances conditionnelles .
8.5 Temps d’arrêt . . . . . . . . . . . . . . . . .
8.6 Illustration par une marche aléatoire . . . .
8.7 Exercices . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
78
80
83
86
87
90
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Rappels d’intégration
A.1 Théorèmes de convergence . . . . . .
A.2 Intégrales dépendant d’un paramètre
A.3 Intégrales multiples . . . . . . . . . .
A.4 Espaces Lp . . . . . . . . . . . . . . .
A.5 Inégalités . . . . . . . . . . . . . . .
A.6 Formule d’inversion de Fourier . . . .
A.7 Exercices . . . . . . . . . . . . . . . .
A.8 Contre-exemples . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
93
94
94
95
98
99
B Formulaire
B.1 Loi d’une variable aléatoire . . . . .
B.2 Inégalités . . . . . . . . . . . . . .
B.3 Couples de variables aléatoires . . .
B.4 Convergence de variables aléatoires
B.5 Théorèmes limites . . . . . . . . . .
B.6 Espérance conditionnelle . . . . . .
B.7 Martingales . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
103
104
104
105
106
C Références
.
.
.
.
.
.
.
107
Introduction
Ces notes proviennent d’un cours de Master première année donné à l’université
de Brest sur la période 2011-2014. Le cours était composé de douze séances de
deux heures et portait sur les théorèmes de convergence en théorie des probabilités. La frappe du texte a bénéficié de l’aide de Sabine Chanthara, je l’en remercie
vivement.
Ce cours est destiné à des étudiants ayant déjà suivi un cours d’intégrale de
Lebesgue. Une annexe en fin d’ouvrage rappelle les résultats d’intégration qui
sont utilisés dans le corps de ce texte. Il est aussi important d’être familier avec
les bases de la théorie hilbertienne que nous appliquons à l’espace L2 à plusieurs
reprises, par exemple pour définir la notion d’espérance conditionnelle. Enfin, un
minimum de familiarité avec la théorie des probabilités discrètes, comme on peut
la voir au lycée, est fortement conseillé.
On s’est concentré sur les théorèmes de convergence classiques, essentiellement
dans le cadre indépendant : loi faible et forte des grands nombres, théorème de
la limite centrée, convergence des martingales bornées dans L2 , théorème des
trois séries, loi du 0-1 de Kolmogorov. Un résumé des théorèmes et des formules
présentés dans le cours se trouve en annexe.
Le texte est organisé de façon à parvenir assez rapidement à la preuve de la loi
forte des grands nombres, au chapitre 4, qui est faite pour des variables de carré
intégrable. Le cas intégrable est traité plus tard, dans le chapitre concernant les
martingales, comme corollaire des théorèmes de convergence pour ces martingales.
Le second objectif est le théorème de la limite centrée, atteint au chapitre 6. Il
faut pour cela étudier en détail les différents types de convergence et les relations
qui s’établissent entre eux. On termine par la notion de martingale, qui permet
de démontrer quelques résultats classiques de convergence, comme le théorème
des trois séries et la loi du 0-1 de Kolmogorov. La théorie des martingales et des
temps d’arrêt est illustrée par une marche aléatoire symétrique sur l’espace des
entiers.
La théorie des chaı̂nes de Markov n’est pas abordée dans ce texte. De même,
on ne parle pas de sous et de sur-martingales, et la notion de convergence étroite
est étudiée pour des mesures de probabilité définies sur R uniquement, ce qui
permet quelques simplifications dans les preuves.
5
6
TABLE DES MATIÈRES
Notations
Les ensembles des nombres entiers, entiers relatifs, rationnels, réels et complexes
sont notés respectivement N, Z, Q, R, C.
On travaille en genéral sur un espace probabilisé (Ω, T , P ).
1A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction indicatrice de A
B(x, r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boule ouverte de centre x de rayon r
C ∞ . . . . . . . . . . . . . . . . . . . . . . . . . ensemble des fonctions indéfiniment différentiables
Cov(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . covariance de X et Y
δω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de Dirac au point ω
E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance de X
E(X | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance conditionnelle de X sachant F
F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
FX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de répartition
Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .espace des classes de fonctions Lp
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite supérieure
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .limite inférieure
µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure
N∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nombres entiers non nuls
Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ensemble de résultats
◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . composition
ø . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ensemble vide
P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de probabilité
PX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi de la variable aléatoire X
P(X,Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi du couple (X, Y )
P (A | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . probabilité conditionnelle de A sachant F
P ⊗ Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .produit des probabilités P et Q
p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . presque partout
Sn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . somme de X1 à Xn
σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . écart-type de X
T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
T1 ⊗ T2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des tribus T1 et T2
m ∧ n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .minimum de m et n
V (X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance de X
X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variable aléatoire
hX, Y i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit scalaire dans L2
kXkp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . norme Lp de X
Chapitre 1
Formalisme de Kolmogorov
Nous désignons par épreuve une expérience ou une observation réalisée dans
des conditions bien définies (protocole expérimental) reproductible, et dont le
résultat est l’un des éléments d’un ensemble déterminé (univers). Le but de la
théorie des probabilités est d’associer à certains sous-ensembles de cet univers,
appelés événements, un nombre réel compris entre 0 et 1, qui reflète notre degré
de confiance dans la réalisation de l’événement une fois que l’épreuve a eu lieu.
La théorie moderne des probabilités est formalisée par Kolmogorov en 1933, en
se basant sur la théorie de la mesure. La notion clef est celle d’espace probabilisé.
Définition 1 Un espace probabilisé (Ω, T , P ) est la donnée :
– d’un ensemble Ω appelé univers, dont les éléments sont appelés résultats,
– d’une tribu T de parties de Ω, dont les éléments sont appelés événements,
– d’une mesure P définie sur la tribu T , qui satisfait P (Ω) = 1.
Commençons par décrire trois exemples importants d’espaces probabilisés.
1.1
Le cas discret : Ω fini ou dénombrable
Pour T , on prend l’ensemble des parties de Ω : T = P(Ω). Se donner une probabilité P : T → [0, 1] revient à se donner une famille de nombres réels pω , ω ∈ Ω,
qui satisfait
– 0 ≤ pω ≤ 1 pour tout ω ∈ Ω,
–
X
pω = 1.
ω∈Ω
La correspondance entre P et les pω est donnée par
pω = P ({ω}),
P (A) =
X
ω∈A
7
pω .
8
CHAPITRE 1. FORMALISME DE KOLMOGOROV
Notons δω la mesure de Dirac au point ω :
∀A ∈ T , δω (A) =
si ω ∈ A
sinon
1
0
X
On peut exprimer la probabilité P comme une somme de Dirac : P =
pω δω .
ω∈Ω
On a alors, pour g : Ω → R mesurable, positif ou P -intégrable,
Z
Ω
g dP =
X
pω g(ω).
ω∈Ω
Exemples
• Loi uniforme sur Ω = {1, 2, ..., n} :
pω = 1/n,
P (A) =
#A
.
#Ω
Le lancé d’un dé à 6 faces bien équilibré est modélisé par un tel espace probabilisé
( n = 6).
• Loi binomiale de paramètres n ∈ N∗ , p ∈ [0, 1], sur Ω = {0, ..., n} :
pk = P ({k}) = Cnk pk (1 − p)n−k
pour k ∈ {0, ..., n}.
pk est la probabilité d’obtenir k succès exactement au cours de n tirages indépendants, sachant que la probabilité de succès lors d’un tirage est égale à p.
• Loi de Poisson sur Ω = N de paramètre λ > 0 :
pk = P ({k}) =
1.2
λk −λ
e pour k ∈ N.
k!
Le cas continu : Ω = R ou Rd
Ici T est la tribu engendrée par les intervalles de R ou les rectangles de Rd . Ses
éléments sont appelés boréliens. On peut définir une mesure de probabilité sur Ω
à partir d’une densité f : Ω → R+ satisfaisant les conditions suivantes :
– f est borélienne,
– ∀ω ∈ Ω, f (ω) ≥ 0,
R
– Ω f dλ = 1.
On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité P
associée à la densité f est donnée par
P (A) =
Z
A
f dλ =
Z
A
f (x)dx.
1.3. LE CAS DES ESPACES PRODUITS
9
On a alors pour toute fonction mesurable g : Ω → R positive ou P -intégrable,
Z
Ω
g dP =
Z
Ω
g(x)f (x) dx.
Exemples
– Probabilité uniforme sur [a, b], avec a, b ∈ R , a < b :
f=
1
1[a,b]
b−a
– Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 :
f (x) = √
(x−m)2
1
e− 2σ2
2πσ 2
Elle est dite centrée si m = 0 et σ = 1.
– Probabilité exponentielle de paramètre l > 0 :
f (x) = l elx 1R+ (x)
1.3
Le cas des espaces produits
On s’intéresse à une épreuve modélisée par un espace probabilisé (Ω, T , P ) et on
veut répéter cette épreuve plusieurs fois de manière indépendante, disons n fois,
n ∈ N∗ . Pour cela, on considère :
• l’univers Ωn = Ω × Ω × ... × Ω, ses éléments sont des multiplets (ω1 , ω2 , ..., ωn ) ∈
Ωn . L’élément ω1 est le résultat obtenu lors de la première épreuve, ω2 lors de la
seconde épreuve etc.
• La tribu produit T ⊗ T ⊗ ...T = T ⊗n . C’est la tribu engendrée par les parties
de Ωn de la forme A1 × A2 × ... × An , avec Ai ∈ T pour tout i.
• Dans le cas indépendant, la mesure produit P ⊗ ... ⊗ P sur cette tribu. Cette
mesure P ⊗n est l’unique mesure vérifiant
P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An )
pour tout A1 , ..., An ∈ T .
On va chercher à étudier le comportement asymptotique d’une répétition d’épreuves, effectuées de manière indépendante, quand n tend vers l’infini. Pour cela,
nous introduisons un nouvel espace probabilisé.
• L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω.
10
CHAPITRE 1. FORMALISME DE KOLMOGOROV
• On se place sur la tribu produit T ⊗N . C’est la tribu de parties de ΩN engendrée
par les cylindres de la forme
CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai }
avec n ∈ N et A0 , ..., An ∈ T .
• Dans le cas indépendant, on considère sur T ⊗N la mesure produit P ⊗N , caractérisée de la façon suivante :
Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il existe
une unique mesure de probabilité sur T ⊗N , notée P ⊗N , qui satisfait
P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An )
pour tout n ∈ N et A0 , ..., An ∈ T .
L’exemple le plus simple est donné par la répétition un nombre arbitrairement
grand de fois du lancer d’une pièce de monnaie. L’univers est donné par l’ensemble
de toutes les suites de pile ou face : {pile, f ace}N . Cet ensemble est muni de la
tribu engendrée par tous les sous-ensembles de la forme
{(ωi )i∈N | ω0 ∈ A0 , ..., ωm ∈ Am }
avec m ∈ N et Ai ∈ {pile, f ace} pour i allant de 0 à m. Si la pièce est bien
équilibrée, on peut prendre comme probabilité le produit P ⊗N , où P ({f ace}) =
P ({pile}) = 1/2.
11
1.4. EXERCICES
1.4
Exercices
exercice 1
Soit (An )n∈N une suite d’événements deux à deux disjoints sur un espace probabilisé (Ω, T , P ). Montrer que lim P (An ) = 0.
n→∞
exercice 2
Soit A1 , ..., An des événements tels que P (Ak ) > 1 − n1 pour tout k de 1 à n.
Montrer qu’il existe un résultat ω ∈ Ω qui appartient à tous les Ak .
Soit (Ak )k∈N une suite d’événements. Montrer que si P (Ak ) ne converge pas vers
0, alors il existe un résultat qui appartient à une infinité de Ak .
exercice 3
Soit c > 0 et A1 , ..., An ⊂ Ω des événements tels que P (Ai ) ≥ c pour tout i.
Montrer qu’il existe deux indices j, k distincts tels que
P (Aj ∩ Ak ) ≥
Indication : s’intéresser à l’intégrale de (
P
nc2 − c
.
n−1
1Ai )2 et utiliser une inégalité fameuse.
exercice 4
Soit P une mesure de probabilité définie sur la tribu des boréliens de Rd et B(x, r)
la boule euclidienne de rayon r centrée en x ∈ Rd .
– Montrer que P (B(0, r)) converge vers 1 quand r tend vers l’infini.
– Soit r0 ≥ 0 et xn ∈ Rd une suite telle que kxn k −−−−→ ∞. Montrer que
n→∞
P (B(xn , r0 )) −−−−→ 0.
n→∞
exercice 5
Parmi ces fonctions, quelles sont celles qui sont des densités de probabilité ?
f (x) =
1 1
π 1+x2
f (x) = 21 e−|x|
f (x) = e−x 1[0,∞[ (x)
f (x) = x2 1[0,1] (x)
f (x) = sin(x) 1[0,3π/2] (x)
f (x) = (1 + cos(x)) 1[0,π] (x)
exercice 6
Pour tout borélien A ⊂ R, on pose
1
µ(A) = √
2 π
Z
A
2
e−x dx + 1A (0)/2
– Montrer que µ est une mesure de probabilité.
On vérifiera en particulier qu’elle est bien σ-additive.
R
– Soit f : R → R une fonction borélienne bornée. Donner une formule pour f dµ.
12
CHAPITRE 1. FORMALISME DE KOLMOGOROV
Chapitre 2
Variables aléatoires
En pratique, on s’intéresse à certaines quantités numériques attachées aux résultats obtenus à l’issue de notre épreuve. Pour modéliser cela, on introduit la notion
de variable aléatoire.
2.1
Définition d’une variable aléatoire
Définition 2 Soit (Ω, T , P ) un espace probabilisé. Par définition, une variable
aléatoire X : Ω → R est une fonction mesurable définie sur Ω, à valeurs réelles :
pour tout intervalle I ⊂ R, l’image réciproque X −1 (I) de cet intervalle est dans
T.
Pour A ⊂ R borélien, on pose
X −1 (A)
= {ω ∈ Ω | X(ω) ∈ A} = (X ∈ A)
−1
X ([a, b]) = (a ≤ X ≤ b)
X −1 ([a, ∞[) = (a ≤ X) = (X ≥ a)
On a alors
P (X −1(A)) = P (X ∈ A).
C’est la probabilité d’obtenir, à l’issue de l’épreuve, un résultat pour lequel la
valeur de X est dans A. La quantité P (X ∈ A) est bien définie dès que A est
borélien car l’image réciproque d’un borélien par une application mesurable est
mesurable (c’est-à-dire est dans T ).
2.2
Espérance et variance
R
Définition 3 Une variable aléatoire X est dite intégrable si Ω |X| dP < +∞.
Dans ce cas l’intégrale de X est bien définie, c’est l’espérance de X.
E(X) =
Z
13
Ω
X dP.
14
CHAPITRE 2. VARIABLES ALÉATOIRES
R
La variable aléatoire X est dite de carré intégrable si Ω X 2 dP < +∞.
Dans ce cas X est intégrable et on définit la variance de X par la formule
V (X) = E (X − E(X))2 .
On remarque qu’une variable aléatoire de carré intégrable est intégrable en intégrant l’inégalité 2X ≤ 1 + X 2 . On peut aussi faire appel à l’inégalité de CauchySchwarz : pour toutes variables aléatoires X, Y : Ω → R,
Z
Ω
|XY | dP ≤
sZ
Ω
X 2 dP
sZ
Ω
Y 2 dP .
En prenant Y = 1 dans cette formule, on obtient la majoration E(|X|) ≤
Développons le carré qui apparaı̂t dans la définition de la variance.
q
E(X 2 ).
E (X − E(X))2 = E X 2 − 2XE(X) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 .
Nous avons obtenu la formule suivante, très utile pour calculer V (X) :
Proposition 1 V (X) = E(X 2 ) − E(X)2 .
X
Dans le cas discret, la variable aléatoire X est intégrable si
pω |X(ω)| < +∞
ω∈Ω
et dans ce cas
X
E(X) =
pω X(ω).
ω∈Ω
Dans le cas continu, en notant f la densité de P , la variable aléatoire X est
R
intégrable si Rd |X(ω)|f (ω)dω < +∞ et dans ce cas
E(X) =
Z
Rd
X(ω)f (ω)dω.
Propriétés :
Soit λ ∈ R et X, Y deux variables aléatoires intégrables.
– E(λX + Y ) = λE(X) + E(Y ).
(linéarité)
– Si X ≤ Y , c’est-à-dire si pour tout ω ∈ Ω, X(ω) ≤ Y (ω), alors
E(X) ≤ E(Y ).
(monotonie)
– Pour tout événement A ∈ T , P (A) = E(1A ).
– Soit (Xn ) une suite de variables aléatoires qui converge de manière croissante
vers X : pour presque tout ω ∈ Ω, (Xn (ω))n∈N est croissante et Xn (ω) → X(ω).
Alors
E(Xn ) −−−−→ E(X).
n→∞
15
2.3. INÉGALITÉS
– Soit (Xn ) une suite de variable aléatoires qui converge vers X presque partout.
On suppose qu’il existe Y intégrable telle que |Xn | ≤ Y pour tout n ∈ N. Alors
E(Xn ) −−−−→ E(X).
n→∞
– V (λX) = λ2 V (X).
– V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
en notant
Cov(X, Y ) = E(XY ) − E(X)E(Y )
la covariance de X, Y qui est bien définie dès que X, Y sont de carrés intégrables.
Ces propriétés sont des conséquences immédiates des définitions. Les deux
théorèmes de passage à la limite découlent du théorème de convergence croissante et du théorème de convergence dominée.
2.3
Inégalités
On s’intéresse maintenant à deux inégalités classiques qui donnent quelques informations sur la manière dont les valeurs d’une variable aléatoire se répartissent.
Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabilisé, Y :
Ω → R+ une variable aléatoire positive. Alors, pour tout λ > 0,
P (Y ≥ λ) ≤
E(Y )
.
λ
Preuve
On a l’inégalité λ1(Y ≥λ) ≤ Y ce qui donne, par monotonie,
E(λ1(Y ≥λ) ) ≤ E(Y ).
On conclut en remarquant que
E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ).
Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un espace
probabilisé, X : Ω → R une variable aléatoire de carré intégrable. Alors, pour
tout t > 0,
V (X)
P (|X − E(X)| ≥ t) ≤
.
t2
16
CHAPITRE 2. VARIABLES ALÉATOIRES
Cette inégalité peut se récrire à l’aide de l’écart-type σ(X) =
suit :
1
P X∈
/ ] E(X) − tσ(X), E(X) + tσ(X) [ ≤ 2
t
q
V (X) comme
Application
Si X est de carré intégrable, la probabilité d’obtenir à l’issue de l’épreuve une
valeur à plus de 10 fois l’écart-type de l’espérance est inférieure à 1/100.
Preuve
L’égalité de Bienaymé-Tchebichev se déduit de l’inégalité de Markov en prenant
Y = (X − E(X))2 et λ = t2 dans cette inégalité. On a alors
P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t),
E((X − E(X))2 )
V (X)
E(Y )
=
=
.
2
λ
t
t2
La formule est démontrée.
2.4
Loi d’une variable aléatoire
À chaque variable aléatoire X définie sur un espace probabilisé (Ω, T , P ), on peut
associer une probabilité PX qui rend compte de la distribution de ses valeurs, en
procédant de la façon suivante.
Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable
aléatoire. La loi de X est la probabilité définie sur la tribu des boréliens de R par
la formule :
PX (A) = P (X ∈ A) = P (X −1(A))
pour tout A ⊂ R borélien.
La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe un
ensemble fini ou dénombrable D ⊂ R tel que PX (D) = 1. Indiçons ses éléments
par un ensemble I ⊂ N : D = {xi }x∈I . On est presque sûr d’obtenir un résultat
qui se trouve dans cet ensemble de valeurs {xi }i∈I et on peut écrire
PX =
X
pxi δxi
i∈I
où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi .
17
2.4. LOI D’UNE VARIABLE ALÉATOIRE
La variable aléatoire X est dite continue si PX est une loi continue, auquel cas
sa densité est notée fX . C’est une fonction borélienne positive dont l’intégrale
vaut un. On a alors
PX (A) = P (X ∈ A) =
Z
A
fX (x) dx
pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien sûr
nulle pour tout x ∈ R.
L’espérance et la variance d’une variable aléatoire peuvent s’exprimer en fonction de sa loi uniquement. En conséquence, deux variables qui ont même loi ont
même espérance et même variance.
Proposition 2 Si X est intégrable,
E(X) =
Z
x dPX (x).
R
Si X est de carré intégrable,
V (X) =
Z
R
(x − E(X))2 dPX (x).
Cette proposition se déduit de la formule de transfert.
Proposition 3 (formule de transfert) Soit g : R → R borélienne, positive
ou PX -intégrable. Alors
Z
Ω
g(X) dP =
Z
R
g(x) dPX (x).
Preuve de la formule de transfert
– C’est vrai pour g = 1A , A borélien de R :
Z
Z
1A (X) dP = P (X ∈ A) = P (X −1(A)),
1A (x) dPX (x) = PX (A) = P (X ∈ A).
– C’est vrai pour les combinaisons linéaires de fonctions indicatrices g =
par linéarité de l’intégrale.
P
c i 1A i
– Une combinaison linéaire de fonctions indicatrices s’appelle une fonction étagée.
Toute fonction positive mesurable peut être approchée de manière croissante par
une suite de fonctions étagées. Pour g ≥ 0, borélienne, on prend gn → g , gn
étagées, et on passe à la limite
Z
gn (X) dP −−−−→
n→∞
Z
g(X) dP
18
CHAPITRE 2. VARIABLES ALÉATOIRES
Z
gn (x) dPX (x) −−−−→
n→∞
Z
g(x) dPX (x)
en appliquant le théorème de convergence croissante, si bien que
R
g(x) dPX (x).
R
g(X) dP =
– Pour g intégrable, on écrit g comme la différence de deux fonctions positives
intégrables et on utilise la linéarité de l’intégrale pour conclure.
Exemple
Si X est variable aléatoire obéissant à une loi exponentielle de paramètre l > 0 ,
PX est associée à la densité fX (x) = le−lx 1R+ (x) et on a :
PX ([a, b]) = P (X ∈ [a, b]) =
Z
[a,b]
fX (x) dx =
Z
b
a
lelx dx
dès que 0 ≤ a ≤ b.
Il est parfois plus pratique de travailler avec des fonctions plutôt qu’avec des
lois de probabilité. Ceci nous amène à la notion de fonction de répartition.
Définition 5 La fonction de répartition de X est définie par
FX (x) = P (X ≤ x).
On a alors l’égalité, pour tout a, b ∈ R,
P (X ∈ ]a, b]) = FX (b) − FX (a).
Comme une mesure de probabilité définie sur la tribu des boréliens de R est uniquement déterminée par ses valeurs sur les intervalles, la fonction de répartition
caractérise la loi de X de manière unique : si deux variables aléatoires ont même
fonction de répartition, elles ont même loi.
FX = FY ⇔ PX = PY .
La fonction de répartition possède les propriétés suivantes :
– elle est croissante, à valeur dans l’intervalle [0, 1],
– lim FX (x) = 0,
x→−∞
lim FX (x) = 1,
x→+∞
– elle est continue à droite et possède une limite à gauche en tout point,
– l’ensemble des points de discontinuité de FX est composé des x ∈ R tels que
P (X = x) > 0, il est donc dénombrable.
2.5. LOI D’UN MULTIPLET DE VARIABLES ALÉATOIRES
2.5
19
Loi d’un multiplet de variables aléatoires
Les considérations précédentes se généralisent à des couples et des multiplets de
variables aléatoires. Soient X1 , ...Xn des variables aléatoires à valeurs réelles. On
peut considérer ces variables comme une unique variable aléatoire à valeurs dans
Rn .
(X1 , X2 , ..., Xn ) : Ω → Rn .
On pose, pour A borélien de Rn et A1 , ..., An des boréliens de R,
((X1 , ..., Xn ) ∈ A) = {ω ∈ Ω | (X1 (ω), X2(ω), ..., Xn (ω)) ∈ A},
(X1 ∈ A1 , ..., Xn ∈ An ) = ((X1 , ..., Xn ) ∈ A1 × ... × An )
= {ω
\∈ Ω | X1 (ω) ∈ A1 , ..., Xn (ω) ∈ An }
(Xi ∈ Ai ).
=
1≤i≤n
Définition 6 Soit (Ω, T , P ) un espace probabilisé, X1 , ..., Xn des variables aléatoires. La loi du multiplet (X1 , ..., Xn ) est la mesure de probabilité définie sur la
tribu des boréliens de Rn par la formule :
P(X1 ,...,Xn) (A) = P ((X1 , ..., Xn ) ∈ A) = P ({ω ∈ Ω | (X1 (ω), ..., Xn(ω)) ∈ A})
pour tout A ⊂ Rn borélien.
La loi du multiplet est discrète si la loi de P(X1 ,...,Xn) est discrète : il existe
un ensemble fini ou dénombrable D ⊂ Rn tel que P(X1 ,...,Xn) (D) = 1. Elle est
dite continue si P(X1 ,...,Xn) est une loi continue, auquel cas sa densité est notée
fX1 ,...,Xn . Cette densité est une fonction borélienne, définie de Rn dans R+ , positive, d’intégrale 1, et nous avons la relation
P ((X1 , ..., Xn ) ∈ A) = P(X1 ,...,Xn) (A) =
Z
A
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxn .
La formule de transfert se généralise à n variables.
Proposition 4 (Formule de transfert) Soit g : Rn → R borélienne, positive
ou P(X1 ,...,Xn) -intégrable. Alors
Z
Ω
g(X1 , ..., Xn ) dP =
Z
Rn
g(x1 , ..., xn ) dPX1 ,...,Xn (x1 , ..., xn ).
La preuve est similaire à celle faite précédemment dans le cas d’une variable, on
procède en approchant g par une fonction étagée.
Les lois individuelles des Xi peuvent se déduire de la loi du multiplet en remarquant que
P (Xi ∈ A) = P (X1 ∈ Ω, ..., Xi−1 ∈ Ω, Xi ∈ A, Xi+1 ∈ Ω, ..., Xn ∈ Ω)
= P(X1 ,...,Xn) (Ω × ... × Ω × A × Ω × ... × Ω).
20
CHAPITRE 2. VARIABLES ALÉATOIRES
On dit que les lois PXi sont les lois marginales de la distribution (X1 , ..., Xn ).
Dans le cas continu, la densité des Xi se déduisent de celle du multiplet grâce
à la formule suivante :
PXi (I) =
Z Z
I
Rn−1
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn ) dxi
où I est un intervalle ou un borélien de R, si bien que
fXi (xi ) =
Z
Rn−1
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn .
21
2.6. EXERCICES
2.6
Exercices
exercice 1
Soit X une variable aléatoire strictement positive telle que X et 1/X sont intégrables.
Montrer que E(X)E(1/X) ≥ 1.
exercice 2
Soit X une variable aléatoire de carré intégrable. Montrer que pour tout c ∈ R,
V (X) ≤ E((X − c)2 ).
Soit a, b ∈ R. Montrer que
P (X ≥ a) ≤
E((X + b)2 )
(a + b)2
En déduire l’inégalité de Cantelli, valide pour tout t > 0 :
P X − E(X) ≥ t σ(X) ≤
1
.
1 + t2
exercice 3
Soit X une variable aléatoire telle que 0 ≤ X ≤ 1. Montrer que V (X) ≤ 1/4.
À quelle condition a-t-on égalité ?
exercice 4
Soit X une variable aléatoire satisfaisant P (X = x) = 0 pour tout x ∈ R et FX
sa fonction de répartition. Montrer que la variable aléatoire FX (X) obéit à la loi
uniforme sur ]0, 1[.
Étant donnée une variable aléatoire Y de loi uniforme sur ]0, 1[ et ν une mesure
de probabilité sur la tribu des boréliens de R, construire une variable aléatoire
X de loi ν en composant Y par une fonction bien choisie.
exercice 5
Soit X une variable aléatoire intégrable. Montrer les assertions suivantes.
– lim
Z
N →∞ (|X|>N )
|X| dP = 0.
– Pour tout ε > 0, il existe δ > 0 tel que pour tout A ∈ T ,
P (A) ≤ δ implique
Z
A
|X| dP ≤ ε.
exercice 6
Soit X une variable aléatoire réelle positive, de fonction de répartition FX . Montrer que pour 0 < p < ∞,
E(X p ) =
Z
0
∞
p tp−1 P (X > t) dt =
Z
0
∞
p tp−1 (1 − FX (t)) dt.
Soit X1 , X2 , ...Xn des variables aléatoires indépendantes de loi uniforme sur [0, 1].
Calculez E(min(X1 , X2 , ...Xn )) et E(max(X1 , X2 , ...Xn )).
22
CHAPITRE 2. VARIABLES ALÉATOIRES
Chapitre 3
Indépendance
On a vu comment modéliser une épreuve répétée un nombre fini ou infini de fois
de manière indépendante, en prenant pour univers un espace produit et pour
probabilité une probabilité produit. On va préciser cette notion d’indépendance
en l’appliquant à des événements, des tribus ou des variables aléatoires.
3.1
Indépendance d’événements et de variables
aléatoires
On commence par définir la notion d’événements indépendants.
Définition 7 Soit (Ω, T , P ) un espace probabilisé. Deux événements A, B ∈ T
sont dits indépendants entre eux si
P (A ∩ B) = P (A)P (B).
Soit (Ai )i∈I une famille d’événements. Ces événements sont dits indépendants
dans leur ensemble si
∀S ⊂ I fini, P
\
i∈S
Ai =
Y
P (Ai ).
i∈S
Exemple
Pour une famille de trois événements {A1 , A2 , A3 }, I = {1, 2, 3},
S = {1}
P (A1 ) = P (A1 )
S = {2}
P (A2 ) = P (A2 )
S = {3}
P (A3 ) = P (A3 )
S = {1, 2}
P (A1 ∩ A2 ) = P (A1 )P (A2 )
S = {1, 3}
P (A1 ∩ A3 ) = P (A1 )P (A3 )
S = {2, 3}
P (A2 ∩ A3 ) = P (A2 )P (A3 )
S = {1, 2, 3}
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )
sont les conditions à vérifier pour avoir l’indépendance de A1 , A2 et A3 dans leur
ensemble.
23
24
CHAPITRE 3. INDÉPENDANCE
Définition 8 Deux variables aléatoires X, Y : Ω → R sont indépendantes entre
elles si pour tous boréliens A, B ⊂ R, les événements (X ∈ A) et (Y ∈ B) sont
indépendants entre eux :
P (X ∈ A) ∩ (Y ∈ B) = P (X ∈ A) P (Y ∈ B).
Soit (Xi )i∈I une famille de variables aléatoires. Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et (Ai )i∈S des boréliens de R,
les événements (Xi ∈ Ai ) sont indépendants dans leur ensemble :
P
\
i∈S
(Xi ∈ Ai ) =
Y
i∈S
P (Xi ∈ Ai ).
Introduisons les notations suivantes pour alléger les formules :
(X ∈ A, Y ∈ B) = (X ∈ A) ∩ (Y ∈ B)
= {ω ∈ Ω | X(ω) ∈ A et Y (ω) ∈ B}
Xi ∈ Ai , i ∈ S =
\
i∈S
(Xi ∈ Ai )
(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = (X1 ∈ A1 ) ∩ (X2 ∈ A2 )... ∩ (Xn ∈ An )
Définition 9 Deux tribus T1 ⊂ T , T2 ⊂ T sont indépendantes entre elles si pour
tout A ∈ T1 et B ∈ T2 , A et B sont indépendants entre eux.
Soit (Ti )i∈I une famille de tribus incluses dans T . Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et toute famille (Ai )i∈S satisfaisant Ai ∈ Ti pour tout i ∈ S, les événements Ai sont indépendants dans leur
ensemble :
\
Y
P
Ai =
P (Ai ).
i∈S
3.2
i∈S
Lemme de Borel-Cantelli
Voici une première application de la notion d’indépendance d’événements.
Lemme 1 (Borel-Cantelli) Soit (Ω, T , P ) un espace probabilisé et (Ai )i∈N une
suite d’événements.
Si
X
i∈N
Si
X
P (Ai ) < +∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de Ai .
P (Ai ) = +∞, et si les Ai sont indépendants dans leur ensemble, alors
i∈N
presque tout ω ∈ Ω appartient à une infinité de Ai .
On définit la limite supérieure de la suite d’ensembles Ai comme suit :
lim Ai =
i∈N
\ [
N ∈N
i≥N
Ai = {ω ∈ Ω | ω appartient à une infinité de Ai }.
25
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES
Le lemme se reformule alors de la façon suivante :
X
i∈N
X
P (Ai ) < +∞ implique P lim Ai = 0.
i∈N
P (Ai ) = +∞ et (Ai )i∈N indépendants implique P lim Ai = 1.
i∈N
i∈N
Preuve du lemme
X
Nous avons la relation #{i ∈ N | ω ∈ Ai } =
1Ai (ω). Intégrons cette égalité :
i∈N
Z
#{i ∈ N | ω ∈ Ai } dP (ω) =
Z X
1Ai dP =
i∈N
XZ
1Ai dP =
X
P (Ai ) < +∞.
i∈N
i∈N
La fonction ω 7→ #{i ∈ N | ω ∈ Ai } est intégrable, donc finie presque partout ;
pour presque tout ω ∈ Ω, #{i ∈ N | ω ∈ Ai } < +∞.
Supposons à présent les (Ai ) indépendants et M, N ∈ N, N ≤ M.
P
M
\
Aci =
i=N
M
Y
P (Aci ) =
i=N
M
Y
i=N
(1 − P (Ai )) ≤ e−
d’après la majoration 1 − x ≤ e−x , valide
pour tout x ∈ R. Nous avons donc
P
M
\
i=N
Aci ≤ e−
PM
i=N
PM
i=N
P (Ai )
2
1.5
P (Ai )
1
0.5
et en passant à la limite sur M,
P
\
i≥N
Ceci entraı̂ne P (
0
Aci = 0.
[ \
-1
-0.5
0
0.5
1
1.5
2
-0.5
Aci ) = 0 puis en passant au complémentaire,
N ∈N i≥N
P (lim Ai ) = P
\ [
N ∈N i≥N
3.3
Ai = 1.
Loi d’un multiplet de variables indépendantes
Calculons l’espérance d’un produit de variables aléatoires indépendantes.
Proposition 5 Soit (Ω, T , P ) un espace probabilisé, X, Y : Ω → R deux variables aléatoires. On se donne f, g : R → R des fonctions boréliennes telles que
26
CHAPITRE 3. INDÉPENDANCE
f (X) et g(Y ) soient intégrables. On suppose X et Y indépendantes entre elles.
Alors
E(f (X)g(Y )) = E(f (X))E(g(Y )).
Ceci se généralise à un nombre quelconque de variables aléatoires (Xi )i=1...n indépendantes entre elles :
E
n
Y
fi (Xi ) =
i=1
n
Y
E(fi (Xi ))
i=1
où les fi : R → R sont des fonctions boréliennes telles que les fi (Xi ) sont
intégrables.
Preuve
Si f et g sont des fonctions indicatrices, f = 1A , g = 1B ,
E(f (X)g(Y )) =
=
=
=
=
=
E(1A (X)1B (Y )) = E(1(X∈A) 1(Y ∈B) )
E(1(X∈A)∩(Y ∈B) ) = E(1(X∈A, Y ∈B) )
P (X ∈ A, Y ∈ B)
P (X ∈ A)P (Y ∈ B) par indépendance,
E(1A (X))E(1B (Y ))
E(f (X))E(g(Y )).
On procède ensuite comme pour la preuve de la formule de transfert : on vérifie
la formule pour les fonctions étagées, par linéarité, puis on vérifie la formule pour
f, g ≥ 0 en les approchant de manière croissante par des fonctions étagées, et
enfin pourf, g intégrables en les écrivant comme différence de fonctions positives
intégrables.
Le cas d’un nombre quelconque de variables indépendantes s’en déduit de la
même façon. Rappelons que la covariance de deux variables aléatoires est égale à
l’espérance du produit des variables moins le produit des espérances. On obtient
le corollaire suivant :
Corollaire 1 Soit X1 ,..., Xn des variables aléatoires de carré intégrable, indépendantes entre elles. Alors
Cov(Xi , Xj ) = 0 si i 6= j,
V
n
X
i=1
Xi =
n
X
V (Xi ).
i=1
Complément
On montre que la loi d’un couple ou d’un multiplet de variables aléatoires indépendantes entre elles est égale au produit des lois de chacune des variables aléatoires.
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES
27
Proposition 6 Soit X, Y deux variables aléatoires indépendantes entre elles.
Alors
P(X,Y ) = PX ⊗ PY ,
E(h(X, Y )) =
Z
Ω
h(X, Y ) dP =
Z
R2
h(x, y) dPX (x) dPY (y)
pour toute fonction h : R2 → R borélienne, positive ou P(X,Y ) -intégrable.
Soit X1 ,..., Xn des variables aléatoires indépendantes entre elles. Alors
P(X1 ,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn ,
E(h(X1 , ..., Xn )) =
Z
Rn
h(x1 , ..., xn ) dPX1 (x1 )...dPXn (xn )
pour toute fonction h : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable.
La preuve se ramène à celle de la proposition précédente en utilisant le fait
que toute fonction borélienne bornée h : R2 → R peut s’approcher en norme
L1 (R2 , P(X,Y ) + PX ⊗ PY ) par une combinaison linéaire de fonctions de la forme
(x, y) 7→ f (x)g(y), avec f et g boréliennes bornées. On généralise ensuite aux
fonctions boréliennes positives en utilisant le théorème de convergence croissante
puis aux fonctions intégrables. Le raisonnement est le même pour un multiplet
de variables aléatoires.
28
3.4
CHAPITRE 3. INDÉPENDANCE
Exercices
exercice 1
Soit X une variable aléatoire intégrable. Montrer que si X est indépendante
d’elle-même, elle est constante p.s. : il existe un réel C tel que P (X = C) = 1.
exercice 2
Soit An , n ∈ N, des événements. Montrer que
lim P (An ) ≤ P limAn .
lim 1An = 1limAn ,
exercice 3
Soit X une variable aléatoire ; la tribu associée à X est définie par
TX = {X −1 (A) | A ⊂ R borélien}.
Montrer que deux variables aléatoires X et Y sont indépendantes si et seulement
si TX et TY sont indépendantes.
exercice 4
Montrer que si X et Y sont deux variables aléatoires indépendantes de densités
fX et fY , le couple (X, Y ) admet pour densité la fonction (x, y) 7→ fX (x)fY (y).
exercice 5
Soient X et Y deux variables aléatoires indépendantes. On suppose que X admet
une densité fX . Montrer que la somme X + Y admet aussi une densité qui est
égale à
Z
fX (t − y) dPY (y).
fX+Y (t) =
R
Montrer que si X et Y admettent des densités fX et fY , la densité de X + Y est
R
égale à la convolée de fX et fY : fX+Y (t) = R fX (t − y) fY (y) dy.
exercice 6
Soit X1 , ...Xn des variables aléatoires centrées, indépendantes entre elles, de cubes
P
P
intégrables. On pose Sn = nk=1 Xk . Montrer que E(Sn3 ) = nk=1 Xk3 .
exercice 7
Soient (Xi )i∈N une suite de variables aléatoires indépendantes. On suppose que
PXi = PXj pour i, j ∈ N et P (Xk = x) = 0 pour x ∈ R et k ∈ N. On pose
An = {ω ∈ Ω | ∀ k < n, Xk (ω) < Xn (ω)}.
Si An est réalisé, on dit qu’on a obtenu un record à l’étape n.
– Montrer que P (Xi = Xj ) = 0 si i 6= j.
– Montrer que les An sont indépendants entre eux et que P (An ) = n1 .
– En déduire que presque sûrement, on observe une infinité de records.
Chapitre 4
Loi des grands nombres
On va s’intéresser au comportement asymptotique d’une suite de variables aléatoires. On se donne un espace probabilisé (Ω, T , P ) et pour chaque entier n ∈ N
une variable aléatoire Xn : Ω → R.
Définition 10 La suite de variables aléatoires (Xi )i∈N est dite identiquement
distribuée si tous les Xi ont même loi :
∀i, j ∈ N, PXi = PXj .
En d’autres termes, pour tout borélien A ⊂ R,
P (Xi ∈ A) = P (Xj ∈ A)
et pour toute f : R → R borélienne positive ou intégrable par rapport à PX0 ,
E(f (Xi )) = E(f (Xj )).
En particulier, E(Xi ) = E(Xj ) si les Xi sont intégrables, E(Xi2 ) = E(Xj2 ) et
V (Xi ) = V (Xj ) si les Xi sont de carrés intégrables.
4.1
Loi faible des grands nombres
Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées (v.a i.i.d). On pose
Sn =
n
X
Xi = X1 + X2 + ... + Xn .
i=1
n (ω)
Pour ω ∈ Ω, la quantité Snn (ω) = X1 (ω)+X2 (ω)+...+X
est la moyenne empirique
n
calculée sur l’échantillon donné par le résultat ω ∈ Ω. On cherche à étudier le
comportement asymptotique de la moyenne Snn .
29
30
CHAPITRE 4. LOI DES GRANDS NOMBRES
Théorème 4 (loi faible des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées, de carrés
intégrables. Alors pour tout ε > 0,
S
n
P − E(X0 ) > ε −−−−→ 0.
n→∞
n
La preuve du théorème repose sur le lemme suivant :
Lemme 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes, identiquement distribuées. Alors E(Sn ) = nE(X0 ), V (Sn ) = nV (X0 ).
Preuve du lemme
E(Sn ) = E(X1 + X2 + ... + Xn ) = E(X1 ) + E(X2 ) + ... + E(Xn ) par linéarité.
V (Sn ) = V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) + 2
où Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).
P
i<j
Cov(Xi , Xj ),
La covariance de deux variables aléatoires est nulle dans le cas indépendant. D’où
V (Sn ) = V (X1 ) + ... + V (Xn ) = n V (X0 ).
Preuve du théorème
D’après le lemme,
E(Sn /n) = E(X0 ),
V (Sn /n) = V (X0 )/n,
√
σ(Sn /n) = σ(X0 )/ n.
On applique alors l’inégalité de Bienaymé-Tchebichev :
S
n
P n
− E(
V (S /n)
Sn σ(X0 )2
n
) > ε ≤
=
−−
−−→ 0.
n→∞
n
ε2
nε2
Remarque On peut montrer que la loi faible des grands nombres est encore
vraie pour des variables aléatoires indépendantes, identiquement distribuées, intégrables.
4.2
Loi forte des grands nombres
Théorème 5 (loi forte des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires intégrables, indépendantes entre elles, identiquement distribuées
P
et Sn = ni=1 Xi . Alors pour presque tout ω ∈ Ω ,
Sn
(ω) −−−−→ E(X0 ).
n→∞
n
31
4.2. LOI FORTE DES GRANDS NOMBRES
En d’autres termes, l’ensemble {ω ∈ Ω |
dont la probabilité vaut 1.
Sn
(ω) −−−−→ E(X0 )}
n
n→∞
est un ensemble
Vocabulaire On dit qu’une propriété est vraie presque sûrement si elle est satisfaite pour presque tout ω ∈ Ω. Nous utiliserons dans la suite l’abréviation p.s.
pour le terme presque sûrement.
Énonçons un premier corollaire de la loi forte des grands nombres, qui sera
démontré dans la suite. Ce corollaire montre que la probabilité d’un événement
est presque sûrement égale à la limite du nombre de fois où il est réalisé sur le
nombre total de fois où l’épreuve est répétée, lorsque le nombre de répétitions
tend vers l’infini.
Corollaire 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées et soit A un borélien de R. Alors
#{i ≤ n | Xi (ω) ∈ A}
−−
−−→ P (X0 ∈ A)
n→∞
n
presque sûrement.
Illustrons la loi forte des grands nombres sur un exemple avant de la démontrer.
Exemple
On lance une pièce de monnaie bien équilibrée un grand nombre de fois de manière
indépendante. Pour modéliser ces épreuves, on commence par considérer la probabilité P̃ définie sur P({pile, f ace}) par P̃ ({f ace}) = P̃ ({pile}) = 1/2 et on
pose :
– Ω = {pile, f ace}N ,
– T = P({pile, f ace})⊗N ,
– P = P̃ ⊗N .
Les éléments de Ω sont des suites infinies de pile ou face.
On définit maintenant une variable aléatoire X : {pile, f ace} → R par X(pile) =
0, X(f ace) = 1 et on pose pour tout i ∈ N :
Xi ((ωk )k∈N ) = X(ωi ) =
1 si ωi = pile
0 si ωi = f ace
Soit ω = (ωk )k∈N ∈ Ω. L’élément ωk de la suite ω est le résultat obtenu au k ième
lancer. La quantité Xk (ω) vaut 1 si ce résultat est face, 0 si il est égal à pile.
Définissons également
Sn
X1 (ω) + ... + Xn (ω)
X(ω1 ) + X(ω2 ) + ... + X(ωn )
(ω) =
=
.
n
n
n
C’est la moyenne des valeurs prises par X au cours des n premières épreuves.
C’est le nombre moyen de fois où Face a été obtenu au cours des n premiers
lancers.
32
CHAPITRE 4. LOI DES GRANDS NOMBRES
Proposition 7 Les variables aléatoires Xi sont indépendantes dans leur ensemble, identiquement distribuées, intégrables.
Preuve
P (X0 ∈ A0 , ..., Xn ∈ An ) = P̃ ⊗N ({ω ∈ Ω | X(ω0 ) ∈ A0 , ..., X(ωn ) ∈ An })
= P̃ ⊗N (CX −1 (A0 ),...,X −1(An ) )
=
n
Y
P̃ (X −1 (Ai )).
i=0
De plus, P (X0 ∈ A0 ) = P (CX −1 (A0 ) ) = P̃ (X −1 (A0 )). Nous avons également
P (Xi ∈ Ai ) =
=
=
=
=
P ({ω ∈ Ω | ωi ∈ X −1 (Ai )})
P (CΩ,...,Ω,X −1(Ai ) )
P̃ ⊗N(CΩ,...,Ω,X −1(Ai ) )
P̃ (Ω)...P̃ (Ω)P̃ (X −1 (Ai ))
P̃ (X −1 (Ai ))
D’où P (X0 ∈ A0 , ..., Xn ∈ An ) = P (X0 ∈ A0 )...P (Xn ∈ An ) pour tout n ∈ N.
On vient de démontrer que les Xi sont indépendants.
On a aussi vu que P (Xi ∈ A) = P̃ (X −1 (A)). La loi PXi ne dépend donc pas de i
et PXi = PXj pour tout i, j. Ceci termine la démonstration de la proposition.
Dans notre exemple, nous avons PXi = 21 (δ0 + δ1 ) ce qui implique l’égalité
E(X1 ) =
Z
R
x dPX1 (x) = 0 × 1/2 + 1 × 1/2 = 1/2.
On peut maintenant appliquer la loi forte des grands nombres : pour presque tout
ω ∈ Ω,
#{i ≤ n | ωi = f ace}
−−−−→ 1/2
n→∞
n
ou encore
n
o
1
−
−
→
1/2
= 1.
P̃ ⊗N (ωi )i∈N ∈ {pile, f ace}N | #{i ≤ n | ωi = f ace} −−
n→∞
n
La fréquence d’apparition de face au cours d’une infinité de lancers est égale à
1/2 presque sûrement, lorsque la pièce est bien équilibrée.
Nous allons démontrer la loi forte des grands nombres à partir du lemme suivant :
Lemme 3 Soit (Yi ) une suite de variables aléatoires. Si pour tout ε > 0,
∞
X
i=1
P (|Yi | > ε) < ∞
alors la suite (Yi )i∈N converge presque sûrement vers 0 :
pour presque tout ω ∈ Ω,
Yi (ω) −−−−→ 0.
i→∞
4.2. LOI FORTE DES GRANDS NOMBRES
33
Le lemme montre que P ({ω ∈ Ω | Yi (ω) −−−−→ 0}) = 1.
i→∞
Preuve du lemme
On applique le lemme de Borel-Cantelli. La quantité ε étant fixée, on pose
Ai = (|Yi | > ε).
P
Comme P (Ai ) < ∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de
Ai . Notons par Cε cet ensemble. Nous avons P (Cε ) = 1.
∀ω ∈ Cε , ∃N ∈ N, ∀n ≥ N, ω ∈
/ An et |Yn (ω)| < ε.
On prend ε = 1/k, k ∈ N∗ et on considère l’intersection des C1/k .
C=
\
C1/k ,
P (C) = 1.
k∈N∗
Pour tout ω ∈ C et tout k ∈ N∗ , le point ω est dans C1/k , si bien qu’il existe
N ∈ N tel que pour tout n ≥ N, |Yn (ω)| < 1/k. Ceci montre que lim Yn (ω) = 0,
n→∞
comme souhaité.
Preuve de la loi forte des grands nombres
Pour simplifier, nous allons supposer que les Xi sont de carré intégrable dans la
preuve. On donnera une preuve dans le cas intégrable plus tard, dans le chapitre
consacré à la convergence de séries de variables aléatoires.
Nous avons, pour tout i, E(Xi ) = E(X1 ). Quitte à remplacer les Xi par Xi −
E(Xi ), on peut supposer E(Xi ) = 0. On dit qu’on centre les variables aléatoires.
On veut montrer que Snn converge presque sûrement vers 0. Essayons d’appliquer
le lemme précédent. Rappelons l’égalité E( Sii ) = E(X1 ) = 0.
S V (S /i)
V (X1 )
i
i
P > ε ≤
=
i
ε2
i ε2
∞
X
n=1
S i
>ε
P i
X
S 2 i 2
≤
par Bienaymé-Tchebichev.
∞
1
V (X1 ) X
= +∞.
2
ε
i=1 i
La condition du lemme, avec Yi = Si /i, n’est pas vérifiée. Remplaçons i par i2 :
S
Yi = ii22 . Nous avons maintenant
i
P
P i
>ε ≤
V (X1 ) X 1
.
2
ε
i i
La série i12 est convergente (sa limite vaut π 2 /6). Le lemme précédent donne la
S
convergence de la suite ii22 :
Si2
−−−−→ 0
i2 i→∞
p.s.
34
CHAPITRE 4. LOI DES GRANDS NOMBRES
Pour chaque n ∈ N∗ , on prend i ∈ N √le plus grand possible, tel que i2 ≤ n.
L’entier i est égal à la partie entière de n et on a les encadrements :
i2 ≤ n ≤ (i + 1)2 − 1,
Sn =
i2 ≤ n ≤ i2 + 2i,
n
X
2
Xk =
k=1
S n
n
i
X
Xk +
k=1
S 2 i +
2
≤
i
√
0 ≤ n − i2 ≤ 2i ≤ 2 n.
n
X
Xk
k=i2 +1
n
1 X
Xk .
n k=i2 +1
Pour majorer le dernier terme, on raisonne comme précédemment :
!
n
n
X
1 X
1
2 V (X1 )
n − i2
P
Xk > ε ≤ 2 2 V
.
Xk ≤ 2 2 V (X1 ) ≤ 3/2
n k=i2 +1
nε
nε
n
ε2
k=i2 +1
La série
P
1
n3/2
est convergente. D’après le lemme,
n
1 X
Xk −−−−→ 0
i→∞
n k=i2 +1
p.s.
Le résultat est démontré.
Preuve du corollaire
On applique la loi des grands nombres à la suite (1A ◦ Xi ).
E(1A ◦ X1 ) = E(1X −1 (A) ) = E(1(X1 ∈A) ) = P (X1 ∈ A).
1
n
Sn
1X
1
=
1A (Xk (ω)) = #{k ∈ {1, ..., n} | Xk (ω) ∈ A}
n
n k=1
n
Cette quantité converge vers E(1A ◦ X1 ) d’après la loi forte des grands nombres.
Complément
Donnons une généralisation aisée de la loi des grands nombres qui s’avère utile
en pratique.
Proposition 8 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées. Soit m ∈ N∗ et f : Rm → R une fonction qui est
P(X1 ,...,Xm) -intégrable. Alors pour presque tout ω ∈ Ω,
N
1 X
f (Xk , ..., Xk+m−1 ) −−−−→ E(f (X1 , ..., Xm )).
N →∞
N k=1
35
4.2. LOI FORTE DES GRANDS NOMBRES
Preuve
On pose Yk = f (Xk , ...Xk+m−1 ) ; les variables Yk ne sont pas indépendantes dans
leur ensemble. Par contre, les variables Y1 , Ym+1 , Y2m+1 , Y3m+1 ... sont indépendantes entre elles. Plus généralement, pour chaque r ∈ {1, ..., m}, les variables
(Ymk+r )k∈N sont intégrables, indépendantes et identiquement distribuées. On peut
donc appliquer la loi des grands nombres à ces m suites de variables aléatoires et
faire la somme des résultats, ce qui donne
mn
m
X
1X
Yk −−−−→
E(Yi ).
n→∞
n k=1
i=1
Comme les variables Xi sont indépendantes identiquement distribuées, nous avons
R
E(Yi ) = E(f (Xi , ..., Xm+i−1 )) = R f (x1 , ..., xm ) dPXi (x1 )...dPXm+i−1 (xm )
=
f (x1 , ..., xm ) dPX1 (x1 )...dPX1 (xm )
= E(f (X1 , ..., Xm )).
Ceci montre le résultat pour N multiple de m. Si N n’est pas multiple de m, on
peut l’écrire sous la forme N = mn + i avec 0 < i < m. On remarque alors que
chacun des termes Ymn+i /n converge vers 0 presque sûrement quand n tend vers
l’infini, d’après la loi des grands nombres :
n
X
n − 1 1 n−1
Ymn+i 1 X
=
Ymk+i −
Ymk+i −−−−→ E(Yi ) − E(Yi ) = 0.
n→∞
n
n k=1
n
n − 1 k=1
La proposition s’ensuit.
Application
On revient à l’exemple de pile ou face. Prenons
– Ω = {pile, face}⊗N ,
– T = P({pile, face})⊗N ,
– P = ( 21 δpile + 21 δf ace )⊗N .
D’après la loi des grands nombres,
1
1
#{k ∈ {1, ..., n} | ωk = f ace} −−−−→
n→∞
n
2
pour presque tout ω ∈ Ω.
En particulier, pour presque tout ω ∈ Ω, face apparaı̂t une infinité de fois dans la
suite Ω. Soit (a1 , ..., am ) ∈ {pile, f ace}m . Prenons f = 1{(a1 ,...,am)} . Nous obtenons
E(f (X1 , ..., Xm )) = P (X1 = a1 , ..., Xm = am )
= P (X1 = a1 )...P (Xn = am )
= 1/2m.
36
CHAPITRE 4. LOI DES GRANDS NOMBRES
Appliquons la proposition précédente.
1
1
#{k ∈ {1, ..., n} | (ωk , ..., ωk+m−1 ) = (a1 , ..., am )} −−−−→ m p.s.
n→∞ 2
n
Notons par Ω(a1 ,...,am) l’ensemble des ω ∈ Ω pour lesquels on a cette convergence.
Cet ensemble est de probabilité 1. On en déduit
P
\
\
m∈N∗ (a1 ,...,am )∈{pile,f ace}m
Ω(a1 ,...,am) = 1
Presque tout ω ∈ Ω appartient à tous les Ω(a1 ,...,am) . Cela signifie que dans presque
toute suite ω ∈ Ω, tous les mots (a1 , ..., am ) apparaissent une infinité de fois dans
la suite ω avec fréquence 1/2m , pour tout m ∈ N∗ .
4.3
Illustration numérique
Pour illustrer la loi des grands nombres, on considère plusieurs suites numériques,
chacune consistant en mille chiffres obtenus de plusieurs façons.
La première a été obtenue en lançant mille fois un dé à dix faces.
9
0
7
6
1
3
9
1
6
5
1
9
5
0
3
1
8
6
8
3
8
7
0
1
2
3
8
2
9
6
5
9
9
0
3
7
4
6
1
8
7
4
0
3
2
9
3
8
1
2
4
9
1
4
3
2
1
5
0
2
9
6
1
9
4
7
8
8
1
0
2
0
3
6
7
0
3
9
8
0
1
7
9
5
3
7
5
8
3
9
6
2
0
7
7
0
1
9
8
3
6
3
8
6
6
4
5
2
1
2
2
0
1
7
7
1
3
6
5
07195535784992102510127330048080104635643112613277
60253370520040446582273287202454964251060455589123
14658403228676939400824895557805458285668455707010
36658934273243541786038200065107168643136855285740
76079838316958557190903288695159609196578777924861
25238482302773470337694269961537648365779868125424
72833211867012011187724228546934680589558020249827
52682924838992331531538655796668993817284434717033
63363770560318893260304325365517406339397982702148
43469379600499246127875102622335428427940885511253
15945488704499450024160185760765216686835250151698
07953779077260810545709190679594122819054332016053
43874509773142256208446793582069591398295534817669
00866805445751385073444135898053722773518657599238
89658234574692703913076451170825777013536742159577
19079737095497673616541864589023496340392506392105
7656373237561356720507209316694679109441467880686
7
5
9
9
9
9
3
2
8
1
0
8
5
7
9
2
5
9
3
7
2
8
1
1
6
2
8
3
2
7
0
7
La seconde est obtenue en utilisant un ordinateur et un générateur de nombres
aléatoires.
0
4
9
8
1
8
5
0
4
6
8
9
3
7
6
6
0
8
9
2
8
2
9
7
8
0
0
4
9
1
9
9
4
1
4
1
7
6
4
0
5
4
7
2
7
6
8
7
1
3
0
8
7
1
3
5
5
5
3
0
8
5
1
9
9
4
2
2
3
5
7
7
7
9
6
9
2
3
5
0
1
1
6
4
6
7
3
6
5
2
1
2
6
5
9
1
1
4
2
0
3
3
0
4
8
5
7
6
6
0
3
7
0
4
8
1
6
3
3
24592033294113072055009313425642463292168997476190
77267238897625707122976490684065302293384854139192
11397466600327680402779174058748690387597709752501
25059823435107768209518057889837034466213544751592
96817113492421921923840639504736194034314431873600
60584226532439043455300579734169799238925012559236
62061213722328986841721798524656340464293346098822
51840808482435025872404021592385467879066595396687
21762789994979875954905548833577698111700049957468
22972303303753357773391974551636647343300820036885
69727168283391699730986204781767202822204930136335
84437364228724886016021614322705702333811808553020
65315580534744055220030588691391259941562092607300
91143118429907218938624903376109882540701521511774
30091407194844714177277059194319510975738921377904
22721077246682417815472143525538002064919575074911
9878675571367879838239809354806954174212966077024
2
7
6
9
7
5
4
1
0
7
9
8
7
6
5
5
2
6
2
3
3
6
4
3
9
1
5
8
9
3
6
6
4.3. ILLUSTRATION NUMÉRIQUE
37
La troisième est constituée des mille premières décimales de π.
1
4
4
5
3
4
5
9
8
3
7
2
1
8
0
6
1
4
5
7
5
1
1
9
5
5
9
6
1
1
3
8
1
9
1
9
0
9
6
2
0
9
7
5
6
4
2
7
2
7
5
5
2
9
6
5
7
3
1
5
2
9
6
1
2
5
1
7
9
3
3
4
2
3
6
9
2
2
4
8
2
9
3
7
7
2
0
8
4
7
7
0
5
7
4
0
4
9
7
3
7
8
6
7
4
6
1
2
0
3
2
7
5
4
0
8
4
6
1
53589793238462643383279502884197169399375105820974
81640628620899862803482534211706798214808651328230
46095505822317253594081284811174502841027019385211
22948954930381964428810975665933446128475648233786
20190914564856692346034861045432664821339360726024
45870066063155881748815209209628292540917153643678
11330530548820466521384146951941511609433057270365
09218611738193261179310511854807446237996274956735
48912279381830119491298336733624406566430860213949
37190702179860943702770539217176293176752384674818
13200056812714526356082778577134275778960917363717
09012249534301465495853710507922796892589235420199
21960864034418159813629774771309960518707211349999
04995105973173281609631859502445945534690830264252
46850352619311881710100031378387528865875332083814
69147303598253490428755468731159562863882353787593
8577805321712268066130019278766111959092164201989
9
6
0
7
9
9
7
1
4
4
8
5
9
2
2
7
4
6
5
8
1
2
5
8
6
6
7
6
9
3
0
5
La quatrième est obtenue en conservant les cinq derniers chiffres de deux cents
numéros de téléphone successifs d’un annuaire téléphonique.
4
3
4
9
0
9
5
4
2
7
5
3
5
5
1
5
0
1
0
0
8
7
4
8
9
1
6
7
8
5
7
0
9
6
0
8
5
0
3
1
5
4
7
2
8
4
8
7
5
1
0
1
0
9
5
9
5
0
0
5
9
5
5
2
5
6
6
1
4
2
6
7
7
4
4
1
9
5
6
3
0
7
3
0
9
9
0
1
6
9
5
7
1
2
9
5
3
0
3
6
0
2
1
5
9
5
8
8
9
5
3
3
9
5
4
1
5
4
0
40157016237489617851229127535103544941913308790788
91525179198338901696427991309520468231697440533929
02708577775484231826460352117856492509675856651369
94106851138596548584589557409855100072855942558990
52980290409851009383738406459144938515956159162856
25821722509842771150086545908277157578642452501556
74345971059895928535931542068592273922794045590959
38958262875495859206683645900357302018765684685437
98450996988564428995441515273448995874061928395268
64580395803359356020818912959386853855043680319642
61305058575675897194589895625406985434567945926379
53449803437743893673356867830528579245956086593815
11019075755014997404514391064952639924575974482821
34731300920899735436854378989209892993686614102505
87439114153085468595378433265882223289236284318927
99794869822055448157631761858165894376857761372853
8958553782665752532830679143755719593059587659128
4
1
1
5
7
9
4
5
4
3
2
4
3
7
5
2
2
9
7
5
6
1
8
6
5
9
6
1
8
4
8
4
La cinquième s’obtient en concaténant les nombres entiers dans l’ordre croissant
en partant de un.
1
3
4
9
5
3
1
4
9
2
3
5
2
2
1
3
1
2
5
6
4
1
5
5
1
4
1
2
3
7
2
2
3
3
3
3
5
9
1
1
5
7
1
4
3
2
3
9
3
2
5
4
6
6
5
6
3
1
5
9
2
4
5
2
3
1
3
2
5
3
6
9
1
6
5
1
5
1
2
4
7
2
3
3
3
6
7
6
6
1
1
6
7
1
5
3
2
4
9
3
3
5
7
3
7
9
7
3
1
6
9
2
5
5
2
4
1
3
3
89101112131415161718192021222324252627282930313233
83940414243444546474849505152535455565758596061626
68697071727374757677787980818283848586878889909192
79899100101102103104105106107108109110111112113114
11811912012112212312412512612712812913013113213313
71381391401411421431441451461471481491501511521531
57158159160161162163164165166167168169170171172173
17717817918018118218318418518618718818919019119219
61971981992002012022032042052062072082092102112122
16217218219220221222223224225226227228229230231232
23623723823924024124224324424524624724824925025125
52562572582592602612622632642652662672682692702712
75276277278279280281282283284285286287288289290291
29529629729829930030130230330430530630730830931031
43153163173183193203213223233243253263273283293303
34335336337338339340341342343344345346347348349350
3543553563573583593603613623633643653663673683693
3
3
9
1
4
5
1
3
1
2
2
7
2
1
3
3
4
6
3
1
1
4
7
1
3
3
2
2
9
3
1
5
La sixième est obtenue en concaténant le nombre d’habitants de chacune des communes de l’Ain, ordonnées par ordre alphabétique (2012, Abergement-Clémenciat
→ Vonnas) et en conservant les mille premiers chiffres.
38
7
4
8
9
6
5
0
5
1
7
1
1
2
2
8
1
0
9
1
4
4
1
2
1
1
5
5
3
2
1
7
5
2
8
CHAPITRE 4. LOI DES GRANDS NOMBRES
1
2
4
5
4
2
2
3
1
8
6
6
0
8
1
4
2
2
1
1
6
2
1
6
0
4
3
4
9
0
0
5
3
3
3
8
4
1
0
8
7
0
8
6
2
1
5
1
0
8
9
9
7
7
1
8
1
5
1
7
1
2
1
1
8
6
1
2
1
5
4
2
1
9
4
4
5
2
1
2
0
1
1
0
2
47961660116255775834710873933191653566497422432211
31593211890289056868089238453259119369298350544281
75527146435562748319302962309953134214612793724999
48809525932176274271748148544863020101224421191145
24807096448367373682899421933353321416675166730650
15971591679551381465147217714311872093120109452795
61531224250122887109867962551427527213843791766204
58734427422488698821226395476192910272211181799189
42242943325890536520121474201968460810049591491097
21761999806119536214208174069853146051150119174238
71111033532552189203696011792671081271302156627231
73155538881011581263034406432682109431219932257132
26165024596406741315133124875168822147392215592742
65483411246668247671724539101003351324621066253374
63865325481542128951544138263230536591167371237164
14417885059038678013854545024321641734272223151702
2743240765915781802766814833711898444299597760114
4
7
1
1
9
5
2
3
9
3
1
1
0
7
3
8
0
3
4
8
8
7
8
8
1
2
4
6
0
5
1
8
La dernière est “faite maison”. On a demandé à une personne de réciter mille
chiffres successivement sans réfléchir. Voilà le résultat.
1
4
2
0
4
2
0
4
4
2
5
7
9
1
1
1
1
4
5
5
3
5
9
2
2
3
1
1
9
3
9
2
0
4
2
0
2
5
4
5
5
7
2
4
1
6
4
6
5
4
2
9
1
8
4
2
7
5
4
1
2
1
9
1
7
4
2
4
5
5
9
2
2
8
4
5
0
4
2
8
1
5
3
1
5
7
9
5
3
1
4
3
6
5
3
1
1
1
1
5
7
2
8
4
6
5
4
1
0
2
9
4
3
2
4
2
2
2
3
41601453332878452444442145541240000000001002003004
57859167404044055678814579147953325245425444224425
75421157240130402469514523425102456798552425456514
42456891051456105012014524142798312142412439114512
98749784251298576421140101425414169999105241424524
60145333287842568974212454487823335410614875924101
21689107154501412451220152016201720182019202458101
14987414521002504142524987652145210421255215169879
05420000000000142979542179854312042175024154979411
44503210214424518952114987241924951298567192495261
14567891042123412598764142434445464748494104246801
45211000241521721019876543210979598952415251002416
25132186754123456799114250524215794215205224125415
24152456871024527141245298752125179879152452168910
16248444200704251792421789125432102803203802648567
41257941521496798475214142515149762152421524945521
4241268934672416522416242592324165003472164219671
0
4
5
1
1
4
0
7
4
4
3
2
2
1
8
4
1
4
2
2
4
2
5
5
7
2
5
8
5
1
9
2
Le tableau qui suit donne, pour chacune des suites qui viennent d’être présentées,
le nombre d’occurrences de chacun des dix chiffres dans la suite ainsi que de
quelques nombres à deux chiffres pris au hasard : 00, 11, 32, 66, 69 et 77.
0
1
2
3
4
5
6
7
8
9
00
11
32
66
69
77
1
104
89
98
107
86
112
100
108
99
97
10
8
11
11
12
16
2
107
94
108
106
99
92
87
112
89
106
12
10
9
11
9
13
3
93
116
103
102
93
97
94
95
101
106
7
16
9
11
6
9
4
85
82
80
87
96
164
80
83
113
130
8
6
4
4
8
8
5
66
177
177
148
77
77
77
67
67
67
3
25
25
5
5
4
6
73
171
132
95
104
93
83
83
84
82
5
25
16
10
5
3
7
92
161
167
39
183
131
45
61
51
70
26
13
10
0
4
0
1
2
3
4
dé à dix faces
générateur de nombres aléatoires
décimales de π
numéros de téléphone
5
6
7
nombres entiers par ordre croissant
nombre d’habitants par commune
récitation
4.3. ILLUSTRATION NUMÉRIQUE
39
Pour les trois premières suites, les occurrences sont proches des valeurs asymptotiques produites par une suite indépendante identiquement distribuée. Chaque
chiffre apparaı̂t avec une fréquence proche du dixième, tandis que les mots de
deux lettres ont une fréquence proche du centième. On n’est pas surpris que les
deux premières suites se comportent conformément à la loi des grands nombres.
La question reste ouverte de démontrer qu’il en va vraiment de même pour la
troisième suite constituée par les décimales de π. On ne sait même pas si tous les
chiffres apparaissent une infinité de fois dans le développement décimal de π.
Les chiffres 5 et 9 sont sur-représentés dans la quatrième suite, sans qu’il soit
possible d’en déterminer la raison. On pourrait s’attendre à ce que l’annuaire
produise des valeurs aléatoires uniformément distribuées mais cet exemple ne
permet pas de confirmer cette intuition. Il faudrait une analyse plus fine pour
déterminer si c’est l’échantillon qui est particulier ou si un ordre se cache derrière
la répartition des numéros.
La cinquième suite présente des disparités importantes, avec le chiffre 1 très
largement représenté tandis que le 0 est peu fréquent. On n’est pas surpris que
le chiffre 1 apparaisse souvent dans la liste des premiers entiers naturels. Le
nombre dont les décimales sont obtenues en faisant la liste de tous les entiers par
ordre croissant s’appelle la constante de Champernowne. On peut montrer que la
fréquence de chacun des chiffres finit par converger vers un dixième, contrairement à ce que pourrait laisser penser les premiers termes de la suite. De manière
étonnante, on peut même montrer que la constante de Champernowne est un
nombre normal : pour tout entier n > 0, tous les mots constitués de n chiffres
apparaissent dans la suite de ses décimales avec une fréquence égale à 10−n .
La sixième suite présente aussi des variations importantes avec le chiffre 1 qui
apparaı̂t le plus fréquemment. Ce phénomène est parfois observé quand on étudie
des données statistiques concernant des populations humaines et provient de la
croissance exponentielle de ces populations. Il est relié à la loi de Benford. Cette
loi est bien vérifiée par le nombre d’habitants des trente six mille communes de
France et on l’observe déjà sur l’échantillon que nous avons considéré.
Finalement, la septième suite est loin d’être uniformément répartie, avec le
chiffre 3 sous-représenté tandis que le 4 revient fréquemment. Elle montre à quel
point il est difficile pour un être humain de simuler le hasard. L’absence de certains
mots de longueur deux est typique dans ce genre d’expérimentation et permet de
repérer aisément les suites qui sont le produit d’une intervention humaine plutôt
que d’un procédé aléatoire.
40
4.4
CHAPITRE 4. LOI DES GRANDS NOMBRES
Exercices
Dans les exercices qui suivent, (Xn )n∈N est une suite de variables aléatoires inP
dépendantes identiquement distribuées et Sn = nk=1 Xk .
exercice 1
Xn
On suppose les (Xn ) intégrables. Montrer que
−−−−→ 0 p.s.
n n→∞
p.s.
Si de plus l’espérance des Xk est strictement positive, alors Sn −−−−→ +∞.
n→∞
exercice 2
On suppose les (Xn ) de carrés intégrables. Montrer que les suites suivantes
convergent presque sûrement vers une limite qu’on calculera.
n
1X
Xk2 ,
n k=1
n
1X
Xk Xk+1,
n k=1
X
2
Xi Xj ,
n(n − 1) 1≤i<j≤n
Pn
k=1 Xk
.
2
k=1 Xk
Pn
exercice 3
1
p.s.
Soit x ∈ R. Montrer la convergence #{1 ≤ k ≤ n | Xk (ω) ≤ x} −−−−→ FX0 (x).
n→∞
n
exercice 4
Soit f : [0, 1] → R continue. Montrer que la suite
un =
Z
1
0
...
Z
1
0
f
x
1
+ ... + xn dx1 ...dxn
n
admet une limite que l’on précisera.
exercice 5
P
Soit (pk )k=1..r des nombres réels strictement positifs tels que pk = 1. On suppose
que la loi des Xn est donnée par P (Xi = k) = pk . On considère les variables
aléatoires Πn (ω) = pX1 (ω) pX2 (ω) ...pXn (ω) . Montrer que
r
X
1
ln(Πn ) −−−−→
pk ln(pk ) p.s.
n→∞
n
k=1
exercice 6
On suppose les Xn centrés de carrés intégrables. En inspectant la preuve de la
loi forte des grands nombres, montrer qu’on peut trouver α > 0 tel que
Sn
p.s.
−−−−→ 0.
1−α
n→∞
n
Montrer l’égalité
n X
Xk
1
1
1 Sk +
=
−
Sn .
k
k
k
+
1
n
+
1
k=1
k=1
n
X
En déduire que la série
P
Xk
k
converge presque sûrement.
Chapitre 5
Convergence de suites de
variables aléatoires
5.1
Les différents types de convergence.
Les résultats précédents font appel à différentes notions de convergence. On va
préciser ces notions et étudier les relations qu’elles entretiennent entre elles. Rappelons la définition des normes Lp , p ≥ 1.
Soit (Ω, T , P ) un espace probabilisé. Pour p ∈ [1, +∞[, la norme Lp de la variable
aléatoire Y : Ω → R est définie par
kY kp = (
Z
|Y |p dP )1/p .
La norme L∞ de Y est définie par
kY k∞ = inf{C > 0 | ∃ Ω′ tel que P (Ω′ ) = 1 et |Y (ω)| ≤ C pour tout ω ∈ Ω′ }
Définition 11 Soient Yn , Y des variables aléatoires définies sur (Ω, T , P ) et p ∈
[1, +∞].
– La suite Yn converge en norme Lp vers Y si
kYn − Y kp −−−−→ 0.
n→∞
– La suite Yn converge en probabilité vers Y si
∀ ε > 0,
P (|Yn − Y | > ε) −−−−→ 0.
n→∞
– La suite Yn converge presque sûrement vers Y si
pour presque tout ω ∈ Ω, Yn (ω) −−−−→ Y (ω).
n→∞
– La suite Yn converge en loi vers Y si
pour toute fonction f : R → R continue bornée,
41
Z
f dPYn −−−−→
n→∞
Z
f dPY .
42CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
Proposition 9 Soient p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. On a les implications
CV L∞ ⇒ CV Lq ⇒ CV Lp ⇒ CV L1 ⇒ CV en proba ⇒ CV en loi.
CV L∞ ⇒ CV p.s. ⇒ CV en proba.
CV L∞ ⇒ CV en proba ⇒ CV p.s. d’une sous-suite.
Remarque
La convergence L2 implique la convergence en probabilité. C’est comme cela
que nous avons démontré la loi faible des grands nombres. Celle-ci affirme que Snn
converge vers E(X0 ) en probabilité, si les (Xi ) sont indépendantes, identiquement
distribuées. On avait obtenu ce résultat en montrant que V ( Snn ) −−−−→ 0. D’après
n→∞
la relation suivante, cela est équivalent à la convergence L2 :
V
S
2 2
S
S
S 2 Sn
n n
n
n
=E −E
=E − E(X0 ) = − E(X0 ) .
2
n
n
n
n
n
Démonstration de la proposition
• CV Lq ⇒ CV Lp si p ≤ q.
Démontrons l’égalité
kY kp ≤ kY kq
en utilisant l’inégalité de Hölder : pour tout p, q ≥ 1 tels que 1/p + 1/q = 1,
Z
|Y Z| dP ≤ kY kp kZkq .
On prend Y constant égal à 1 dans cette inégalité, auquel cas kY kp = 1 et
kZk1 ≤ kZkq . Ceci démontre le résultat pour p = 1. Pour p général, on remplace
q par q/p et Z par Y p , ce qui donne :
Z
Y p dP ≤
Z
Y pq/p dP
p/q
,
kY kp ≤ kY kq .
• CV L∞ ⇒ CV Lp .
On a pour presque tout ω ∈ Ω, |Y (ω)| ≤ kY k∞ . En intégrant, on obtient
kY
kpp
=
Z
p
|Y (ω)| dP (ω) ≤
Z
kY kp∞ dP = kY kp∞ .
• CV L1 ⇒ CV en proba
L1
C’est une conséquence de l’inégalité de Markov. Si Yn −−−−→ Y ,
n→∞
P (|Yn − Y | > ε) ≤
kYn − Y k1
E(|Yn − Y |)
=
−−−−→ 0
n→∞
ε
ε
5.2. FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE FOURIER43
• CV L∞ ⇒ CV p.s.
L∞
Si Yn −−−−→ Y , il existe Ω′ ⊂ Ω de probabilité 1 tel que
n→∞
sup |Yn (ω) − Y (ω)| −−−−→ 0.
n→∞
ω∈Ω′
On en déduit, pour tout ω ∈ Ω′ , Yn (ω) −−−−→ Y (ω).
n→∞
• CV en proba ⇒ CV p.s. d’une sous-suite
Nous savons que pour tout ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞
Pour tout k ∈ N, on peut donc trouver nk ∈ N aussi grand qu’on veut, tel que
P (|Ynk − Y | > 1/k) ≤ 1/2k . On a alors
∞
X
k=0
P (|Ynk − Y | > 1/k) < ∞
On applique le lemme de Borel-Cantelli : pour presque tout ω ∈ Ω, hormis pour
un nombre fini d’indices k, |Ynk (ω) − Y (ω)| < 1/k. La suite Ynk converge vers Y
presque sûrement.
• CV p.s. ⇒ CV en proba
Nous avons les deux conditions suivantes :
– 1(|Yn −Y |>ε) (ω) −−−−→ 0 pour presque tout ω ∈ Ω car |Yn (ω) − Y (ω)| −−−−→ 0.
n→∞
n→∞
– |1(|Yn −Y |>ε) | ≤ 1Ω et 1Ω est intégrable, ne dépend pas de n.
On peut appliquer le théorème de convergence dominée :
lim P (|Yn − Y | > ε) = lim
n→∞
n→∞
Z
1(|Yn −Y |>ε) dP =
Z
lim 1(|Yn −Y |>ε) dP = 0
n→∞
L’implication CV en proba ⇒ CV en loi sera démontrée dans la suite.
5.2
Fonction caractéristique et transformée de
Fourier
Pour étudier plus en détail la convergence en loi, on va utiliser la notion de fonction caractéristique d’une variable aléatoire et de transformée de Fourier d’une
mesure de probabilité.
Définition 12 La fonction caractéristique d’une variable aléatoire Y : Ω → R
est définie par
ϕY (t) = E(eitY ) =
Z
Ω
eitY dP =
Z
R
eity dPY (y).
44CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
La transformée de Fourier d’une mesure de probabilité µ définie sur la tribu des
boréliens de R est définie par
b
µ(t)
=
Z
eitx dµ(x).
R
On a donc l’égalité ϕY (t) = PbY (t).
Propriétés
– |ϕY (t)| ≤ 1 pour tout t ∈ R,
– ϕY (0) = 1,
– t 7→ ϕY (t) est continue sur R,
– si Y est intégrable, alors t 7→ ϕY (t) est dérivable et ϕ′Y (0) = iE(Y ),
– si Y est de carré intégrable, t 7→ ϕY (t) est de classe C 2 et ϕ′′Y (0) = −E(Y 2 ).
La continuité et la dérivabilité découlent des théorèmes de continuité et de dérivabilité sous le signe intégrable. Par exemple, si X est intégrable, on a la majoration
ce qui implique ϕ′Y (t) =
d
dt
∂ itY e = |iY eitY | ≤ |Y |
∂t
R
Ω
eitY dP =
R
∂ itY
Ω ∂t e
dP =
R
Ω
iY eitY dP.
La loi d’une variable aléatoire est complètement caractérisée par sa fonction
caractéristique.
Proposition 10 Deux variables aléatoires qui ont même fonction caractéristique
ont même loi : ϕX = ϕY implique PX = PY .
Ce théorème est admis et ne sera pas utilisé dans la suite. On passe maintenant
à quelques calculs explicites de fonctions caractéristiques.
Cas discret
La variable aléatoire Y prend un nombre fini ou dénombrable de valeurs yk , k ∈ I,
avec I = {1, ..., n} ou I = N.
ϕY (t) = E(eitY ) =
X
eityk P (Y = yk ).
k∈I
• Loi de Bernoulli de paramètre p ∈ [0, 1]
Si Y obéit à une telle loi, P (Y = 0) = 1 − p, P (Y = 1) = p. On a alors
ϕY (t) = eit×0 P (Y = 0) + eit×1 P (Y = 1),
ϕY (t) = 1 − p + peit .
• Loi uniforme sur {1, ..., n} , n ∈ N∗
45
5.3. CONVERGENCE EN LOI
Si Y obéit à une telle loi, P (Y = k) = 1/n pour k ∈ {1, ..., n}, ce qui implique
Pn−1 it k
P
P
(e ) .
ϕY (t) = nk=1 eitk P (Y = k) = nk=1 n1 (eit )k = n1 eit k=0
ϕY (t) =
1 it 1 − eitn
e
n
1 − eit
si t ∈
/ 2πZ.
Cas continu
La variable aléatoire Y est associée à la densité fY : R → R+ si bien que
R
P (Y ∈ A) = A fY (y) dy.
ϕY (t) = E(eitY ) =
• Loi uniforme sur [a, b], a < b.
ϕY (t) =
R
R
1
eity b−a
1[a,b] (y) dy =
Z
eity dPY (y) =
1 R b ity
e
b−a a
ϕY (t) =
dy =
eitb − eita
it (b − a)
Z
eity fY (y) dy.
1 eity b
[ ] .
b−a it a
si t 6= 0.
• Loi exponentielle de paramètre l > 0
ϕY (t) =
R
R
eity le−ly 1R (y) dy =
R +∞
0
le(it−l)y dy = [le(it−l)y /(it − l)]+∞
0 .
ϕY (t) =
l
.
l − it
Remarque on utilise parfois à la place de la fonction caractéristique la notion
de fonction génératrice.
Définition 13 On considère l’ensemble des z ∈ C pour lesquels la fonction z Y
est intégrable. La fonction génératrice d’une variable aléatoire Y est définie sur
cet ensemble par l’expression
z 7→ E(z Y )
Attention, elle n’est pas forcément définie pour tout z ∈ C, la fonction z 7→ z Y
n’étant pas forcément intégrable. Lorsque z = eit , elle est bien intégrable et on
retrouve la fonction caractéristique de la variable Y .
5.3
Convergence en loi
Rappelons que Yn converge en loi vers Y si pour toute fonction f : R → R
continue bornée,
Z
Z
f dPYn −−−−→ f dPY .
n→∞
46CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
Définition 14 Soit µn et µ des mesures de probabilité définies sur la tribu des
boréliens de R. Nous dirons que µn converge étroitement
vers µ si pour toute
Z
R
fonction f : R → R continue bornée, f dµn −−−−→ f dµ.
n→∞
La suite Yn converge en loi vers Y si et seulement si PYn converge étroitement
vers PY . On va relier la convergence en loi à la convergence simple des fonctions
caractéristiques, dans le but de démontrer le théorème de la limite centrée.
Théorème 6 Soit µ, µn , n ∈ N, des mesures de probabilité définies sur la tribu
des boréliens de R. Les propriétés suivantes sont équivalentes :
–
–
–
Z
Z
Z
f dµn −−−−→
n→∞
f dµn −−−−→
n→∞
f dµn −−
−−→
n→∞
Z
Z
Z
f dµ pour toute fonction f continue bornée,
f dµ pour toute fonction f C ∞ à support compact,
f dµ pour toute fonction f de la forme eitx , t ∈ R.
Le premier point correspond à la convergence étroite des µn vers µ. Le dernier
point correspond à la convergence des transformées de Fourier des µn . On en
déduit le corollaire suivant.
Corollaire 3 Soit µ, µn des mesures de probabilité définies sur la tribu des boréb
liens de R. Si pour tout t ∈ R , µb n (t) −−−−→ µ(t)
, alors µn converge vers µ
n→∞
étroitement.
Soit (Yn ) une suite de variables aléatoires. Si pour tout t ∈ R, ϕYn (t) −−−−→ ϕY (t),
n→∞
alors Yn converge vers Y en loi.
Rappelons que f : R → R est à support compact s’il existe A > 0 tel que f est
nulle hors de [−A, A]. Un exemple de fonction C ∞ à support compact est donné
par
− 1
f (x) = e 1−x2 1[−1,1] (x).
0.5
0.4
0.3
0.2
0.1
0
-1
-0.1 0
-0.5
0.5
1
Pour démontrer le théorème, nous allons avoir besoin de la formule d’inversion
de Fourier. Soit f : R → R une fonction intégrable par rapport à la mesure de
Lebesgue. Sa transformée de Fourier est définie par
fb(t)
=
Z
e−itx f (x) dx.
R
On montre que cette fonction est continue en appliquant le théorème de continuité
sous le signe intégral.
47
5.3. CONVERGENCE EN LOI
Théorème 7 (formule d’inversion de Fourier) Soit f une fonction C ∞ à
support compact. Alors
f (x) =
1
2π
Z
R
eitx fb(t) dt
pour tout x ∈ R.
La preuve du théorème est donnée en annexe, sous des hypothèses un peu plus
générales. La formule d’inversion de Fourier implique la relation suivante entre µ
et sa transformée de Fourier.
Corollaire 4 Soit µ une mesure de probabilité définie sur la tribu des boréliens
de R et f : R → R une fonction C ∞ à support compact. Alors
Z
Z
1
f (x) dµ(x) =
2π
b
fb(t) µ(t)
dt.
Preuve du corollaire
Z
f (x) dµ(x) =
R
Z
R
1
2π
Z
eitx fb(t) dt dµ(x)
R
Z Z
1
eitx fb(t) dµ(x) dt
2π R R
Z
Z
1
itx
b
f (t)
=
e dµ(x) dt
2π R
R
Z
1
fb(t) µb n (t) dt.
=
2π R
=
Ici on a utilisé le théorème de Fubini pour intervertir les deux intégrales. Pour
RR
justifier l’emploi de ce théorème, remarquons que l’intégrale R2 |eitx fb(t)| dµ(x) dt
est finie :
Z Z
R R
|eitx fb(t)| dµ(x) dt =
Z
dµ(x)
R
Z
|fb(t)| dt =
R
La preuve est terminée.
R
Z
R
|fb(t)| dt < ∞.
R
On commence par démontrer que f dµn −→ f dµ pour toute f C ∞ à support
b
compact si µb n (t) −→ µ(t)
pour tout t ∈ R.
D’après le corollaire précédent,
Z
f (x) dµn (x) =
Z
1
2π
Z
Z
fb(t) µb n (t) dt,
1
b
fb(t) µ(t)
dt.
2π
Il suffit d’appliquer le théorème de convergence dominée pour conclure :
Z
f (x) dµ(x) =
fb(t) µb n (t) dt −−−−→
n→∞
Z
b
fb(t) µ(t)
dt.
48CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
b
L’emploi du théorème de convergence dominée est justifié ici car µb n (t) −−−−→ µ(t)
n→∞
pour tout t ∈ R par hypothèse et fb µb n est majorée par fb qui est intégrable.
R
R
On cherche à présent à démontrer que si f dµn −→ f dµ pour toute fonction
∞
C à support compact, il en va de même pour toute fonction continue bornée.
Lemme 4 Pour tout ε > 0, il existe A > 0 tel que pour tout n ∈ N,
µn ([−A, A]) ≥ 1 − ε.
Une suite de mesures de probabilité qui vérifie cette propriété est dite tendue.
Preuve du lemme
Soit g une fonction C ∞ telle que
1
• 0 ≤ g ≤ 1,
• g = 1 sur [−A + 1, A − 1],
• g = 0 sur [−A, A]c .
0
Fixons ε > 0. Comme µ([−A + 1, A − 1]) −−−−→ µ(R) = 1, on peut choisir A0 tel
A→∞
que µ[−A0 + 1, A0 − 1] > 1 − ε.
µn ([−A0 , A0 ]) ≥
Z
gdµn −−−−→
n→∞
Z
gdµ ≥ µ([−A0 + 1, A0 − 1]) > 1 − ε.
On peut donc trouver n0 ∈ N tel que pour tout n ≥ n0 , µn ([−A0 , A0 ]) ≥ 1 − ε.
De plus, pour chaque k ∈ {0, ..., n0 }, on peut trouver un ensemble Ak tel que
µk ([−Ak , Ak ]) ≥ 1 − ε. Pour tout A supérieur à max{A0 , ..., An0 }, on a
∀n ∈ N,
µn ([−A, A]) ≥ 1 − ε.
Le lemme est démontré.
Soit f continue bornée. Sur [−A−2, A+2] , on peut approcher f uniformément
par une fonction C ∞ en faisant appel au théorème de Stone-Weierstraß ou en
convolant avec une fonction C ∞ . Cette approximation peut être prolongée en
une fonction C ∞ à support compact définie sur R tout entier en la multipliant
par une fonction de classe C ∞ , comprise entre 0 et 1, qui vaut 1 sur [−A, A] et 0
hors de [−A − 1, A + 1]. Pour tout ε > 0 on peut donc trouver f˜ C ∞ à support
compact telle que
sup |f (x) − f˜(x)| < ε.
x∈[−A,A]
49
5.3. CONVERGENCE EN LOI
R
R
On veut montrer que | f dµn − f dµ| est inférieur à ε pour tout n suffisamment
grand. On décompose comme suit :
Z
f dµn −
Z
f dµ ≤
Z
f dµn −
Z
Z
f˜dµn + f˜dµn −
Z
Z
f˜dµ + f˜dµ −
Z
f dµ R
˜ dµn −→ R f˜ dµ. On peut trouver
• Comme f˜ est C ∞ à support compact,
f
R
R
N ∈ N tel que pour tout n ≥ N, | f˜dµn − f˜dµ| < ε.
R
R
R
˜
|f − f˜| dµn +
• | f dµn − f˜dµn | ≤
c |f − f | dµn
[−A,A]
[−A,A]
≤ ε µn ([−A, A]) + (supR |f | + supR |f˜|) µn ([−A, A]c )
≤ ε + (supR |f | + supR |f˜|) ε.
Cette majoration est valide pour tout n ∈ N.
R
• Le terme | f − f˜ dµ | se majore de la même façon.
Finalement, on remarque que sup |f˜| ≤ sup |f | + ε ≤ sup |f | + 1 sur R par
construction. On a donc, pour tout n ≥ N,
Z
f dµn −
Z
Le théorème est démontré.
f dµ ≤ (4 + 2 sup |f |) ε.
Proposition 11 Soient µn , µ des mesures de probabilités définies sur la tribu
des boréliens de R. On suppose que µn converge étroitement vers µ. Alors pour
tout a, b ∈ R tels que µ({a}) = 0 et µ({b}) = 0, on a
µn ([a, b]) −−−−→ µ([a, b]).
n→∞
De même, pour tout x ∈ R tel que µ({x}) = 0,
µn ([x, +∞[) −−−−→ µ([x, +∞[),
n→∞
µn (] − ∞, x]) −−−−→ µ(] − ∞, x]).
n→∞
Appliquons cette proposition à une suite de variables aléatoires.
Corollaire 5 Soient (Xn )n∈N et X des variables aléatoires définies sur un espace
probabilisé (Ω, T , P ) telles que Xn converge en loi vers X. Alors pour tout a, b ∈ R
tels que P (X = a) = P (X = b) = 0,
P (a ≤ Xn ≤ b) −−
−−→ P (a ≤ X ≤ b).
n→∞
De plus, les fonctions de répartition des Xn convergent vers la fonction de répartition
de X en tout point x ∈ R tel que P (X = x) = 0 :
FXn (x) −−−−→ FX (x) si P (X = x) = 0.
n→∞
50CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
Remarque On peut démontrer que la convergence des fonctions de répartition
en tout point x tel que P (X = x) = 0 est en fait équivalente à la convergence en
loi de la suite Xn vers X.
Preuve
Il s’agit d’approcher 1[a,b] par des fonctions continues bornées. Soit hm la fonction
continue bornée, affine par morceaux telle que :
• hm = 1 sur [a + m1 , b − m1 ],
• hm = 0 hors de [a, b].
• la pente de hm vaut m sur [a, a + m1 ] et −m sur [b − m1 , b].
Soit gm la fonction continue bornée, affine par morceaux, telle que
• gm = 1 sur [a, b],
• gm = 0 hors de [a − m1 , b + m1 ],
• la pente de gm vaut m sur [a − m1 , a] et −m sur [b, b + m1 ].
Nous avons la majoration 0 ≤ gm − hm ≤ 1[a− 1 ,a+ 1 ] + 1[b− 1 ,b+ 1 ] si bien que
m
0≤
Z
gm − hm dµ ≤ µ
h
1
1
a− ,a+
m
m
m
i
+µ
m
m
h
1
1i
b − ,b+
m
m
Ce dernier terme converge vers µ({a}) + µ({b}), quantité
qui est nulle par hyR
pothèse. Fixons ε > 0 et choisissons n ∈ N tel que gm − hm dµ ≤ ε.
La suite µn converge vers µ étroitement et hm ≤ 1[a,b] ≤ gm , nous avons donc
pour tout n suffisamment grand,
Z
hm dµ − ε ≤
Z
hm dµn ≤ µn ([a, b]) ≤
Z
gm dµn ≤
Z
Nous avons aussi, en vertu des inégalités hm ≤ 1[a,b] ≤ gm et
Z
gm dµ − ε ≤
Z
hm dµ ≤ µ([a, b]) ≤
Z
gm dµ ≤
Z
gm dµ + ε.
R
gm − hm dµ ≤ ε,
hm dµ + ε,
ce qui donne le résultat recherché :
µ([a, b]) − 2ε ≤ µn ([a, b]) ≤ µ([a, b]) + 2ε.
On termine ce chapitre par la preuve d’un résultat énoncé précédemment.
51
5.3. CONVERGENCE EN LOI
Théorème 8 Soit Xn , X des variables aléatoires. Si Xn converge vers X en
probabilité, alors Xn converge vers X en loi.
Preuve
Soit f : R → R C ∞ à support compact. Par le théorème des valeurs intermédiaires, pour tout x, y ∈ R,
|f (x) − f (y)| ≤ sup |f ′| |x − y|.
R
On veut montrer que la différence
R
R
| f dPXn − f dPX |
R
R
R
f dPXn − f dPX tend vers 0 quand n −→ ∞.
R
= | f (Xn ) dP − f (X) dP |
≤
≤
R
R
|f (Xn ) − f (X)| dP
|Xn −X|>δ
|f (Xn ) − f (X)| dP +
R
|Xn −X|<δ
|f (Xn ) − f (X)| dP
≤ 2 supR |f | P (|Xn − X| > δ) + supR |f ′ | δ.
Comme Xn converge vers X en probabilité, P (|Xn − X| > δ) −−−−→ 0.
n→∞
Pour tout ε > 0 , on choisit δ telle que sup |f ′ | δ < ε/2. Il existe alors N ∈ N tel
que pour tout n ≥ N,
P (|Xn − X| > δ) ≤
R
R
ε
4 supR |f |
ce qui implique | f dPXn − f dPX | < ε. Le théorème est démontré.
52CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
5.4
Exercices
exercice 1
Montrer qu’une suite de variables aléatoires (Xn ) converge en loi vers zéro si et
seulement si les lois PXn convergent étroitement vers la mesure de Dirac en zéro.
exercice 2
Soit g une fonction C 1 à support compact et X une variable aléatoire. Montrer que
E(g(X)) = −
Z
R
FX (t) g ′(t) dt.
Soit (Xn ) une suite de variables aléatoires telle que FXn (x) converge vers FX (x)
pour tout x satisfaisant P (X = x) = 0. Montrer que Xn converge en loi vers X.
exercice 3
Soit (Ω, T , P ) un espace probabilisé. On considère sur l’ensemble
descouples de
|X−Y |
fonctions mesurables de Ω dans R l’expression d(X, Y ) = E 1+|X−Y | .
Montrer que cela définit une distance si on identifie les fonctions qui coı̈ncident
presque partout. Montrer que la convergence relativement à cette distance est
proba
équivalente à la convergence en loi : Xn −−−−→ X ⇔ d(Xn , X) −−−−→ 0.
n→∞
n→∞
exercice 4
Soit (Ai ) une suite d’événements indépendants dans leur ensemble.
proba
– Montrer que 1Ai −−−−→ 0 si et seulement si P (Ai ) → 0.
i→∞
p.s.
– Montrer que 1Ai −−−−→ 0 si et seulement si la série
i→∞
X
P (Ai ) est convergente.
i∈N
exercice 5
Étudier la convergence en loi des suites (Xn )n∈N∗ suivantes :
– P (Xn = 1 + n1 ) = 21 = P (Xn = 1 − n1 ).
– P (Xn = 0) = 1 − n1 et P (Xn = 1) = n1 .
, 1}.
– Xn de loi uniforme sur {0, n1 , n2 , ..., n−1
n
exercice 6
Soit Sn,p une variable aléatoire qui obéit à une loi binomiale de paramètres n, p.
– Calculer la fonction caractéristique de Sn,p . Cette fonction est notée ϕn,p .
– La suite ϕn, 1 converge-t-elle simplement lorsque n tend vers +∞ ?
n
– Calculer la fonction caractéristique de la loi de Poisson de paramètre λ > 0.
– Que peut-on dire de la suite Sn, 1 ?
n
exercice 7
Soit (Xn ) et (Yn ) deux suites de variables aléatoires et a ∈ R. Montrer que
loi
proba
n→∞
n→∞
Xn −−−−→ a si et seulement si Xn −−−−→ a.
loi
loi
loi
n→∞
n→∞
n→∞
Xn −−−−→ X et Yn −−−−→ 0 implique Xn + Yn −−−−→ X.
Chapitre 6
Théorème de la limite centrée
Pour démontrer le théorème de la limite centrée, nous allons utiliser la caractérisation de la convergence en loi par le biais des fonctions caractéristiques. On
commence par calculer la fonction caractéristique de la loi normale.
6.1
Fonction caractéristique de la loi normale
Théorème 9 Soit Y une variable aléatoire qui obéit à une loi normale centrée
2
normalisée (m = 0, σ = 1). Sa densité est donnée par fY (y) = √12π e−y /2 et sa
fonction caractéristique vaut
2 /2
ϕY (t) = e−t
.
Preuve
R
2
Par définition, ϕY (t) = R eity √12π e−y /2 dy.
On sait que eity =
Z
ity −y 2 /2
e e
dy =
R
=
P+∞
k=0
Z
(ity)k
k!
+∞
X
(ity)k −y2 /2
e
dy
k!
R k=0
+∞
XZ
k=0 R
=
pour y ∈ R. Remplaçons dans l’intégrale précédente.
(it)k k −y2 /2
y e
dy
k!
+∞
X
(it)k
k!
k=0
Z
y k e−y
2 /2
dy.
R
Pour justifier l’interversion signe somme intégrale, il faut vérifier que la quantité
R P∞ (ity)k y2 /2
| dy est finie.
0 | k! e
R
Z
+∞
−∞
e−y
2 /2
∞
X
0
|ty|k
dy =
k!
Z
+∞
−∞
53
e−y
2 /2
e|ty| dy < +∞.
54
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
Il faut maintenant calculer Ik =
R
R
y k e−y
2/2
dy.
Lorsque k est impair, la fonction y 7→ y k e− y 2/2 est une fonction impaire, si bien
que son intégrale est nulle : I2l+1 = 0 pour tout l ∈ N. Pour k pair, k = 2l , on
fait une intégration par partie pour obtenir une relation de récurrence.
I2l+2 =
Z
y
2l+1
−y 2 /2
ye
Nous savons que I0 =
dy = [y
R
−y
Re
2l+1
2 /2
−y 2 /2
(−e
dy =
)]+∞
−∞ +
√
Z
(2l + 1)y 2le−y
2 /2
dy = (2l + 1)I2l
2π, si bien que
√
I2l = (2l − 1)(2l − 3)...3 × 1 × 2π.
La quantité I2l est divisée par (2l)! dans l’expression de la fonction caractéristique.
√
(2l − 1)(2l − 3)...1
I2l
=
2π
(2l)!
(2l)(2l − 1)(2l − 2)(2l − 3)...1
√
1
2π
=
(2l)(2l − 2)(2l − 4)...2
√
1
1
2π
= l
2 l(l − 1)(l − 2)...1
1 √
2π.
= l
2 l!
Nous pouvons calculer ϕY :
1
ϕY (t) = √
2π
Z
eity e−y
2 /2
dy =
+∞
X
(it)2l
l=0
∞
X
(−t2 )l
I2l
−t2 /2
√ =
=
e
.
(2l)! 2π l=0 2l l!
La formule est démontrée.
6.2
Théorème de la limite centrée
Théorème 10 Soit (Ω, T , P ) un espace probabilité, (Xn )n∈N une suite de variables aléatoires indépendantes, identiquement distribuées, de carrés intégrables
P
et de variance non nulle. On pose Sn = ni=1 Xi . Alors la loi de la variable
aléatoire
√ n Sn
− E(X0 )
σ(X0 ) n
converge étroitement vers une loi normale d’espérance nulle et d’écart-type 1. En
particulier, pour tout intervalle [a, b] ∈ R,
√ Z b
n Sn
1
2
P a≤
− E(X0 ) ≤ b −−−−→ √
e−x /2 dx.
n→∞
σ(X0 ) n
2π a
55
6.2. THÉORÈME DE LA LIMITE CENTRÉE
Remarque
L’événement ci-dessus peut s’écrire comme suit :
a≤
√
n
( Sn
σ(X0 ) n
− E(X0 )) ≤ b
=
=
√
n
( Snn
σ(X
0)
√ 0) ≤
E(X0 ) + a σ(X
n
Lorsque n est grand, la probabilité que
"
est proche de
√1
2π
• Pour t = 1, 96,
• Pour t = 2, 58,
Rt
−t
√1
2π
√1
2π
− E(X0 )) ∈ [a, b]
Sn
n
Sn
n
2 /2
√ 0)
≤ E(X0 ) + b σ(X
n
soit dans l’intervalle
σ(X0 )
σ(X0 )
E(X0 ) − t √ , E(X0 ) + t √
n
n
e−x
#
dx.
Rt
−x2 /2
dx
−t e
R t −x2 /2
dx
−t e
= 0, 95.
= 0, 99.
Il y a donc à peu près 99% de hchance, lorsque n est grand, d’avoir unei moyenne
√ 0 ) , E(X0 ) + 2, 58 σ(X
√ 0) .
empirique Snn dans l’intervalle E(X0 ) − 2, 58 σ(X
n
n
Il est d’usage de noter la convergence des lois d’une suite de variables aléatoires
Yn vers la loi normale de paramètres m, σ comme suit :
loi
Yn −−−−→ N (m, σ 2 )
n→∞
Dans le cas où les Xi sont indépendantes identiquement distribuées d’espérance
nulle et d’écart-type égal à un, le théorème de la limite centrée peut se résumer
comme suit :
S
loi
√n −−−−→ N (0, 1).
n→∞
n
Preuve du théorème
Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer que les Xi sont
centrées : E(Xi ) = 0. Quitte à diviser par σ(Xi ), on peut aussi supposer que
Sn
converge vers la loi normale. Il suffit
σ(Xi ) = 1. On veut montrer que la loi de √
n
donc de montrer que
2 /2
ϕ √Sn (t) −−−−→ e−t
n
Calculons :
n→∞
pour tout t ∈ R.
56
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
Sn
it √
n
ϕ √Sn (t) = E e
n
= E e
= E
=
it
√
n
n
Y
n
Y
Pn
1
e
Xk
it
√
X
n k
k=1
k=1
E e
= E e
= ϕ X0
it
√
X
n k
it
√
X
n 0
√t
n
n
n
par indépendance,
car les Xi sont de même loi,
.
Pour calculer la limite de cette expression quand n tend vers +∞ , on fait un
développement limité. Comme X0 est de carré intégrable, ϕX0 est C 2 et on a :
ϕX0 (t) =
Z
itX0
e
dP,
ϕ′X0 (t)
=
Z
itX0
iX0 e
dP,
ϕ′X0 (0) = iE(X0 ) = 0,
ϕX0 (0) = 1,
2
ϕ′′X0 (t)
=
Z
−X02 eitX0 dP,
ϕ′′X0 (0) = −E(X02 ) = −1.
D’après la formule de Taylor, ϕX0 (x) = 1 − x2 + x2 ε0 (x), avec ε0 (x) −→ 0 lorsque
x → 0. Ceci implique :
t n
t2
t n
t2
ϕ √Sn (t) = ϕX0 √
+
ε0 ( √ ) ,
= 1−
n
n
2n 2n
n
n ln 1 −
t2
t2
t t2
t
1
1 1
t2
t2
+ ε0 ( √ ) = n − + ε0 ( √ ) + ε1 ( √ ) = − + ε2 ( √ ),
2n n
n
2n n
n
n
n
2
n
2
2
t2
t n
t2
− t +ε ( √1 )
− t2
.
−
−
→
e
+ ε0 ( √ ) = e 2 2 n −−
n→∞
n
2n n
n
Le théorème de la limite centrée est démontré.
ϕ √Sn (t) = 1 −
6.3
Illustration numérique
Nous allons illustrer le théorème de la limite centrée à l’aide des graphes des
fréquences de la suite Sn .
Soit X une variable aléatoire discrète. Le graphe des fréquences de X correspond au graphe de la fonction x 7→ P (X = x), où x varie parmi les nombres réels
tels que P (X = x) > 0.
Considérons le lancer d’un dé à six faces, modélisé par une variable aléatoire
X0 qui suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5, 6} : P (X0 = k) = 1/6
pour k entier compris entre 1 et 6. On répète le lancer n fois, n ∈ N∗ , ce qui se
décrit par une suite de variables aléatoires X1 , ... Xn indépendantes entre elles et
P
ayant même loi que X0 . On pose Sn = nk=1 Xk . Voici les graphes des fréquences
de X0 et S2 = X1 + X2 .
57
6.3. ILLUSTRATION NUMÉRIQUE
1
0.16
0.14
0.5
0.12
0.1
0
0.08
0.06
−0.5
0.04
0
2
4
6
8
0
Graphe des fréquences de X0
2
4
6
8
10
12
14
Graphe des fréquences de S2 = X1 + X2
On calcule le graphe des fréquences de Sn pour tout n par récurrence en utilisant
la formule
X
P (Xn+1 = l)P (Sn = k − l)
P (Sn+1 = k) =
j
où la somme porte sur l’ensemble des valeurs l que prend Xn+1 . Si n est suffisamment grand, le graphe des fréquences devrait se rapprocher d’une gaussienne,
pour peu qu’il soit convenablement renormalisé. Dans les figures qui suivent, on
s’est restreint sur l’axe des abscisses aux valeurs de k qui sont à moins de trois
fois l’écart-type de l’espérance de Sn .
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
5
10
15
5
10
Graphe de S3
15
20
Graphe de S4
0.1
0.06
0.08
0.06
0.04
0.04
0.02
0.02
0
0
10
15
20
Graphe de S5
25
20
25
30
35
40
45
Graphe de S10
50
58
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.0
0.02
0.01
0.01
0
0
40
60
50
70
0
50
Graphe de S15
0
80
90
Graphe de S20
Dès n = 5, on voit les probabilités s’ordonner selon la fameuse courbe en cloche,
dont la densité est donnée par la gaussienne.
Il est intéressant de regarder ce qu’on obtient lorsqu’on part d’une loi qui
k2
présente plusieurs maxima. Prenons pour X0 la loi P (X0 = k) = 770
pour k
compris entre −10 et 10. Le graphe des fréquences de X0 est ci-dessous.
P (X0 = k) =
k2
,
770
k ∈ {−10, −9, .., 9, 10}
0.08
0.12
0.1
0.06
0.08
0.06
0.04
0.04
0.02
0.0
0
0
−10
10
20
30
−10
0
10
Graphe de X0
20
30
40
50
Graphe de S2
0.025
0.015
0.02
0.01
0.015
0.01
0.005
0.005
0
0
20
40
60
80
Graphe de S5
100
40
60
80
100
120
140
Graphe de S10
160
59
6.3. ILLUSTRATION NUMÉRIQUE
0.012
0.012
0.01
0.01
0.008
0.008
0.006
0.006
0.004
0.004
0.002
0.002
0
0
100
150
200
150
Graphe de S15
200
250
300
Graphe de S20
La gaussienne met plus de temps à apparaı̂tre. Les premiers graphes présentent
des oscillations qui s’amortissent quand n devient grand.
Un autre cas intéressant est donné par une loi fortement dissymétrique. Considérons un X0 pour lequel
P (X0 = 1) = 0, 95
P (X0 = 2) = P (X0 = 3) = P (X0 = 4) = P (X0 = 5) = P (X0 = 6) = 0, 01.
0.8
0.4
0.6
0.3
0.4
0.2
0.2
0.1
0
0
0
1
2
3
4
5
6
10
7
Graphe de X0
12
14
16
18
20
22
24
Graphe de S2
0.2
0.08
0.15
0.06
0.1
0.04
0.05
0.02
0
25
30
35
40
Graphe de S5
45
0
4
0
60
6
Graphe de S10
70
60
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
0.0
0.06
0.0
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
0
70
80
0
Graphe de S15
100
100
110
120
130
Graphe de S20
Comme nous pouvons le voir sur ces graphiques, la dissymétrie est encore présente
pour n = 100. Cet exemple doit donc inciter à la prudence quant aux valeurs de
n pour lesquelles l’approximation donnée par la loi normale est pertinente. Il est
d’usage en statistique de faire cette approximation dès que n = 30, mais cela
n’est pas toujours valide en pratique.
61
6.4. EXERCICES
6.4
Exercices
exercice 1
Soit Xk une suite de variables aléatoires indépendantes suivant chacune une loi
P
de Poisson de paramètre un. Quelle est la loi de la somme 1≤k≤n Xk ?
Considérons pour chaque n ∈ N∗ une variable aléatoire Yn suivant une loi de
Poisson de paramètre n ∈ N∗ . Montrer que
Yn − n loi
√
−−
−−→ N (0, 1).
n→∞
n
exercice 2
Soit Y , Yn et Zn des variables aléatoires telles que Yn converge en loi vers Y et Zn
converge presque sûrement vers une constante c ∈ R. Montrer que Yn Zn converge
en loi vers cY . Indication : Yn et Zn sont tendues.
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement
distribuées, de carrés intégrables, centrées. Montrer que
n
X
k=1
Xk
X
n
Xk2
k=1
1/2
−−−−→ N (0, 1).
n→∞
exercice 3
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées, positives, de carrés intégrables et telles que E(Xn ) = 1, σ(Xn ) = 1.
Montrer que
q
√ loi
2 Sn − n −−−−→ N (0, 1).
n→∞
exercice 4
P
Soit (Xn ) une suite de variables aléatoires indépendantes, Sn = nk=1 Xk . Étudier
la convergence en loi de Sn /σ(Sn ) dans les cas suivants :
√
√
– P (Xk = k ) = P (Xk = − k ) = 12
– P (Xk = k) = P (Xk = −k) = 21
– P (Xk = √1k ) = P (Xk = − √1k ) = 12
∞
– P (Xk = ak ) = P (Xk = −ak ) = 21 , où (ak )k∈N∗ est bornée et
X
a2k = +∞.
k=1
exercice 5
Soit ϕ la fonction caractéristique d’une variable aléatoire réelle X non constante.
On suppose que ϕ est réelle et positive.
– Montrer que ϕ(t) =
R
R
cos(tx) dPX (x).
– Montrer que pour tout u ∈ R, cos(u) ≤ 1 −
– Montrer la minoration pour t ∈ R :
1−ϕ(t)
t2
u2
2
≥
+
1
2
u4
.
24
R
[− 1t , 1t ]
x2
1−
t2 x2
12
dPX (x).
– Montrer qu’il existe δ > 0 et ǫ > 0 tels que pour tout t ∈ ]−δ, δ[ , |ϕ(t)| ≤ 1−εt2 .
p
– En déduire que pour tout p > 2, la fonction t 7→ e−|t| n’est la fonction caractéristique d’aucune mesure de probabilité.
62
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
Chapitre 7
Espérance conditionnelle
Nous allons introduire un nouveau concept pour mesurer l’indépendance de deux
variables aléatoires ou d’une variable aléatoire et d’une tribu.
7.1
Définition de la notion d’espérance conditionnelle
Définition 15 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable
aléatoire intégrable et F ⊂ T une tribu. Alors il existe une unique fonction
intégrable E(X | F ), appelée l’espérance conditionnelle de X sachant F , qui
satisfait les deux conditions suivantes :
– E(X | F ) est F -mesurable,
– pour toute variable aléatoire Y qui est F -mesurable bornée,
E(E(X | F ) Y ) = E(XY ).
L’unicité est à comprendre “presque partout”. Deux fonctions qui satisfont les
conditions précédentes sont égales presque partout.
Définition 16 La probabilité conditionnelle d’un événement A ⊂ Ω relativement
à la tribu F est la fonction définie par
P (A | F ) = E(1A | F ).
Attention, P (A | F ) est une fonction définie presque partout sur Ω. Il n’est pas
garanti qu’il y ait, pour presque tout ω ∈ Ω, une mesure de probabilité µω définie
sur T telle que µω (A) = P (A | F )(ω).
63
64
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Preuve de l’existence de E(X | F )
On commence par le cas où X est de carré intégrable. L’espace L2 (Ω, T , P ) est
muni d’un produit scalaire :
hX, Y i =
Z
X Y dP = E(XY ).
On a donc une notion d’orthogonalité et de projection orthogonale. Considérons
le sous-espace fermé L2 (Ω, F , P ) constitué des fonctions de carré intégrable qui
sont F -mesurables. L’espérance conditionnelle de X est la projection orthogonale
de X sur ce sous-espace. Cette projection orthogonale appartient au sous-espace
si bien que E(X | F ) est F -mesurable. C’est la première condition.
La variable aléatoire X − E(X | F ) est orthogonale à tous les éléments Y de
L (Ω, F , P ) :
hX − E(X | F ), Y i = 0
2
Autrement dit, E((X − E(X | F )) Y ) = 0. C’est la seconde condition. Ces deux
conditions caractérisent de manière unique la projection orthogonale.
On peut généraliser cela aux variables aléatoires positives. Soit X ≥ 0, on pose
Xl = min(X, l). La variable aléatoire Xl est borné donc de carré intégrable et Xl
converge en croissant vers X. On va vérifier dans la suite que E(Xl | F ) est une
fonction positive et que la suite E(Xl | F ) est croissante. On définit alors
E(X | F ) = lim E(Xl | F ) ∈ [0, +∞].
l→∞
En utilisant le théorème de convergence croissante, on montre que E(X | F )
satisfait les conditions voulues pour tout Y ≥ 0.
Pour les variables aléatoires intégrables, on les écrit comme différence de variables aléatoires intégrables positives, pour lesquelles on a vu comment définir
l’espérance conditionnelle.
Le passage du cadre L2 au cadre des variables aléatoires positives puis intégrables est justifié par les propriétés de l’espérance conditionnelle qui vont être
détaillées après les exemples qui suivent.
7.2
Exemples
Tribu associée à une partition finie
On considère une partition finie (Ei )i=1..n de Ω :
–Ω=
n
[
Ei
i=1
– Ei ∩ Ej = ø pour tout i, j tels que i 6= j.
65
7.2. EXEMPLES
– P (Ei ) 6= 0 pour tout i.
On peut associer à cette partition une tribu
F=
n[
i∈S
o
Ei | S ⊂ {1, ..., n} .
C’est l’ensemble des parties de Ω qui peuvent s’écrire comme union d’éléments
de la partition.
Proposition 12
E(X | F )(ω) =
n
X
i=1
Z
n X
E(X 1Ei )
1
1Ei (ω) =
X dP 1Ei (ω)
P (Ei )
i=1 P (Ei ) Ei
P (A | F )(ω) =
avec la notation P (A | B) =
n
X
i=1
P (A | Ei ) 1Ei (ω)
P (A∩B)
.
P (B)
On a donc P (A | F )(ω) = P (A | Ei ) si ω ∈ Ei .
Preuve de la proposition
P E(X 1Ei )
On montre que la variable aléatoire
1Ei satisfait les deux propriétés qui
P (Ei )
définissent l’espérance conditionnelle.
Commençons par vérifier que toute fonction F -mesurable est combinaison
linéaire des fonctions indicatrices des Ei . Pour cela, montrons qu’une telle fonction f est constante sur chacun des Ei . Soit x, y ∈ Ei , l’ensemble f −1 ({f (x)}) est
dans F et contient x, il contient donc Ei . Le point y ∈ Ei est dans cet ensemble,
par conséquent f (y) = f (x).
L’espérance conditionnelle E(X | F ) est F -mesurable, nous venons de voir
P
qu’elle est de la forme E(X | F ) =
ck 1Ek , où les ck restent à déterminer.
On utilise la deuxième propriété définissant l’espérance conditionnelle en prenant
Y = 1Ei pour un certain i.
E(E(X | F ) Y ) =
=
=
E(XY )
=
P
E(( ck 1Ek )1Ei )
E(ci 1Ei )
ci P (Ei )
E(X 1Ei ).
Ces deux expressions sont égales, ce qui donne ci =
E(X 1Ei )
P (Ei )
comme souhaité.
Le cas d’un espace produit
On considère l’espace produit Ω = Ω1 × Ω2 muni de la probabilité P = P1 ⊗ P2
et la tribu F = {A × Ω2 | A ⊂ Ω1 }. Vérifions qu’une fonction f est mesurable
par rapport à F si et seulement si elle ne dépend que de la première coordonnée.
66
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Soit (ω1 , ω2 ) ∈ Ω ; posons f (ω1 , ω2 ) = t. Nous avons (ω1 , ω2) ∈ f −1 ({t}) ∈ F . Il
existe donc A ⊂ Ω1 tel que f −1 ({t}) = A×Ω2 . Le résultat (ω1 , ω2 ) est dans A×Ω2
et ω1 est dans A. Pour tout ω ∈ Ω2 , (ω1 , ω) appartient à A × Ω2 = f −1 ({t}), si
bien que f (ω1 , ω) = t = f (ω1 , ω2 ).
Calculons l’espérance conditionnelle d’une variable aléatoire X relativement à
la tribu F .
Proposition 13 E(X | F )(ω1 ) =
R
X(ω1 , ω2 ) dP2(ω2 ).
Preuve
Nous savons que E(X | F )(ω1 , ω2 ) est de la forme f (ω1 ) pour une certaine fonction f par F -mesurabilité. On doit avoir de plus pour tout Y : Ω1 → R
R
E(E(X | F ) Y ) =
f (ω1 )Y (ω1 ) dP1 (ω1 ) dP2 (ω2 )
R
=
f (ω1 )Y (ω1 ) dP1 (ω1 ).
Ceci doit être égal à E(XY ) =
donc l’égalité, pour tout Y ,
Z
f (ω1 )Y (ω1 ) dP1 (ω1 ) =
ce qui implique f (ω1 ) =
7.3
R
R
X(ω1, ω2 )Y (ω1 ) dP1(ω1 ) dP2 (ω2 ). Nous avons
Z Z
X(ω1 , ω2 )dP2 (ω2 ) Y (ω1 ) dP1 (ω1 )
X(ω1 , ω2 ) dP2(ω2 ).
Propriétés de l’espérance conditionnelle
L’espérance conditionnelle jouit d’un certain nombre de propriétés proches de
celles de l’intégrale. Soient X, Y deux variables aléatoires intégrables ou positives
et F une tribu.
Proposition 14
– E(X | {ø, Ω}) = E(X),
– E(E(X | F )) = E(X).
E(X | T ) = X,
E(1 | F ) = 1.
– Si X est F -mesurable, alors E(X | F ) = X.
– Si X est indépendante de F , alors E(X | F ) = E(X).
– Linéarité : pour tout λ ∈ R, E(λX + Y | F ) = λE(X | F ) + E(Y | F ).
– Positivité : si X ≥ 0 alors E(X | F ) ≥ 0.
– Monotonie : si X ≤ Y alors E(X | F ) ≤ E(Y | F ).
– Pour tout Y F -mesurable, positive si X est positive, bornée si X est intégrable,
E(Y X | F ) = Y E(X | F ).
7.3. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE
67
– Si X est dans Lp et 1 ≤ p ≤ ∞, alors kE(X | F )kp ≤ kXkp .
– Si F1 ⊂ F2 , alors
E(E(X | F1 ) | F2 ) = E(X | F1 ),
E(E(X | F2 ) | F1 ) = E(X | F1 ).
Preuve
Toutes ces propriétés sont d’abord démontrées pour des variables aléatoires de
carré intégrables en utilisant le fait que l’espérance conditionnelle est une projection orthogonale. Elles sont ensuite généralisées aux variables aléatoires positives par un argument de convergence croissante, et enfin aux variables aléatoires
intégrables en les décomposant comme différence de deux fonctions croissantes
intégrables.
– La variable E(X | T ) est la projection de X sur L2 (Ω, T , P ), cette projection
est égale à l’identité. Pour E(X | {ø, Ω}), toute fonction mesurable relativement
à la tribu {ø, Ω} est constante. La variable E(X | {ø, Ω}) est donc constante.
Prenons Y = 1, nous avons E(E(X | F )) = E(X), cette constante vaut donc
E(X).
– Si X est F -mesurable, X est dans L2 (Ω, F , P ), elle est donc égale à sa projection
sur L2 (Ω, F , P ) : E(X | F ) = X.
– Si X est indépendante de F , elle est indépendante de toute variable aléatoire
Y F -mesurable. Nous avons alors
E(E(X | F ) Y ) = E(XY ) = E(X)E(Y ) = E(E(X | F )) E(Y ).
Prenons Y = E(X | F ) qui est bien F -mesurable. Nous avons
E(E(X | F )2) = E(E(X | F ))2
ou encore V (E(X | F )) = 0. Ceci montre que E(X | F ) est constante p.s. En
conséquence, E(X | F ) = E(X).
– Linéarité : c’est la linéarité de la projection orthogonale.
– Positivité : soit X ≥ 0 ; on prend Y = 1(E(X|F )<0) .
E(E(X | F ) Y ) = E(E(X | F ) 1(E(X|F )<0) ) ≤ 0
E(XY ) = E(X1(E(X|F )<0) ) ≥ 0
Ces deux expressions sont égales, elles sont donc toutes les deux nulles, ce qui
implique E(X | F ) 1(E(X|F )<0) = 0 p.s. et par conséquent E(X | F ) ≥ 0 p.s.
68
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
– Monotonie : soit Y, Z tels que Y ≥ Z. D’après le point précédent,
E(Y | F ) − E(Z | F ) = E(Y − Z | F ) ≥ 0.
– Soit Y F -mesurable. La fonction Y E(X | F ) est aussi F -mesurable. De plus
pour tout Z F -mesurable,
E(ZY E(X | F )) = E(ZY X)
car ZY est F -mesurable. La fonction Y E(X | F ) satisfait donc les deux propriétés
caractérisant E(Y X | F ) et nous avons l’égalité
E(Y X | F ) = Y E(X | F ) p.s.
– Soit F1 ⊂ F2 . La fonction E(X | F1 ) est F2 -mesurable si bien que
E E(X | F1 ) | F2 = E(X | F1 ).
Démontrons l’égalité E E(X | F2 ) | F1 = E(X | F1 ).
La fonction E E(X | F2 ) | F1 est F1 -mesurable. De plus, pour tout Y F1 mesurable, Y est à la fois F1 et F2 -mesurable et d’après la propriété précédente,
E Y E E(X | F2 ) | F1
= E E E(Y X | F2 ) | F1
= E E(Y X | F2 )
= E(Y X)
Ce sont les deux propriétés qui caractérisent E(X | F1 ).
La majoration de la norme Lp de E(X | F ) découle de l’inégalité de Jensen,
qui fait l’objet de la proposition qui suit.
Proposition 15 (Inégalité de Jensen) Soit (Ω, T , P ) un espace probabilisé,
X : Ω → R une variable aléatoire et ϕ : R → R une fonction convexe. On
suppose que X et ϕ(X) sont intégrables ou positives. Alors
ϕ E(X | F ) ≤ E ϕ(X) | F
presque sûrement.
Preuve
Une fonction convexe est continue, admet des
dérivées à gauche et à droite en chaque point
et on a l’inégalité pour tout x, x0 ∈ R,
′
ϕ(x) ≥ ϕ(x0 ) + ϕ+ (x0 )(x − x0 )
où ϕ′+ (x0 )est la dérivée à droite en x0 . Le graphe
de ϕ se trouve au-dessus de ses tangentes.
-
- -
-
7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE69
Appliquons cette inégalité pour x = X(ω) et x0 = E(X | F )(ω).
ϕ(X) ≥ ϕ(E(X | F )) + ϕ′+ (E(X | F ))(X − E(X | F ))
On prend maintenant l’espérance conditionnelle des deux termes de cette inégalité.
E ϕ(X) | F ≥ E ϕ E(X | F ) | F + E
′
X −E(X | F )
ϕ′+
E(X | F ) | F
Les fonctions ϕ E(X | F ) et ϕ+ E(X | F ) sont F -mesurables si bien que
E ϕ E(X | F ) | F = ϕ E(X | F ) ,
E
′
X −E(X | F ) ϕ+ E(X | F )
L’inégalité est démontrée.
′
= ϕ+ E(X | F ) E X −E(X | F ) | F = 0.
Exemple
Les fonctions x 7→ |x|, x 7→ ex , x →
7 |x|p pour p ≥ 1 sont convexes. Appliquons
l’inégalité de Jensen à la fonction x →
7 |x|p .
|E(X | F )|p ≤ E(|X|p | F ).
Utilisons la monotonie de l’espérance :
kE(X | F )kpp = E |E(X | F )|p ≤ E E(|X|p | F ) = E(|X|p ) = kXkpp .
Nous avons démontré l’inégalité recherchée entre la norme Lp d’une variable
aléatoire et celle de son espérance conditionnelle.
7.4
Conditionnement relativement à une variable
aléatoire
On commence par associer à toute variable aléatoire X une tribu dont les éléments
sont composés d’union de lignes de niveau de X.
Définition 17 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable
aléatoire. La tribu associée à X, notée TX ou S(X), est définie par :
TX = S(X) = {X −1 (A) ∈ T | A borélien de R}
Proposition 16 Une variable aléatoire Y : Ω → R est TX -mesurable si et seulement si il existe une fonction f : R → R borélienne telle que
Y = f ◦ X.
70
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Preuve
Si Y = f (X), pour tout A borélien, l’ensemble Y −1 (A) = X −1 (f −1 (A)) est bien
dans TX .
Soit Y une variable aléatoire TX -mesurable. Montrons que Y est de la forme
f (X) pour une certaine fonction f borélienne.
• Traitons le cas où Y est étagée :
Y =
n
X
i=1
ci 1Ai , Ai ∈ TX .
Pour chaque i, on peut trouver un borélien Bi ⊂ R tel que Ai = X −1 (Bi ).
Y =
X
ci 1X −1 (Bi ) =
X
ci 1Bi ◦ X = (
X
ci 1Bi ) ◦ X
La variable aléatoire Y est bien de la forme h ◦ X avec h =
P
ci 1Bi .
• Passons au cas où Y ≥ 0. On peut l’approcher de manière croissante par une
suite de fonctions étagées (Yn )n∈N qui sont TX -mesurables, donc de la forme
hn ◦ X. Nous avons :
Yn = hn ◦ X ≤ (sup hn ) ◦ X = sup(hn ◦ X) = sup Yn = Y
n
n
Comme Yn converge vers Y , on en déduit Y = (supn hn ) ◦ X et Y est bien une
fonction de X.
• Toute variable aléatoire TX -mesurable peut s’écrire comme différence de deux
fonctions TX -mesurables positives de la forme h◦X. La proposition est démontrée.
Nous somme en mesure de définir l’espérance conditionnelle d’une variable
aléatoire relativement à une autre variable aléatoire.
Définition 18 Soit X, Y deux variables aléatoires définies sur Ω. L’espérance
conditionnelle de Y relativement à X, notée E(Y | X), est définie par
E(Y | X) = E Y | TX .
Soit A ∈ T . La probabilité conditionnelle de A relativement à X est définie par
P (A | X) = E(1A | X) = E(1A | TX ).
La fonction E(Y | X) est TX -mesurable. Elle peut donc s’exprimer comme une
fonction de X. Cette fonction est notée E(Y | X = x). C’est l’espérance de Y
sachant que X a pris la valeur x et on a pour P -presque tout ω ∈ Ω,
E(Y | X)(ω) = E Y | X = X(ω) ,
7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE71
P (A | X)(ω) = P A | X = X(ω) .
Notons que l’espérance conditionnelle E(Y | X = x) est une fonction de R dans
R qui est définie PX -presque partout. De fait, deux fonctions f et g sont égales
PX -presque partout si et seulement si f ◦X et g◦X sont égales P -presque partout,
d’après la formule de transfert.
On peut exprimer E(Y | X) en fonction de la loi du couple (X, Y ). Rappelons
que cette loi est donnée par la formule
P(X,Y ) (A) = P (X, Y ) ∈ A = P {ω ∈ Ω | (X(ω), Y (ω)) ∈ A}
pour tout sous-ensemble borélien A ⊂ R2 . La mesure P(X,Y ) est une mesure de
probabilité définie sur la tribu des boréliens de R2 . Elle est dite à densité si on
peut trouver fX,Y : R2 → R+ , d’intégrale un sur R2 , telle que
P(X,Y ) (A) =
Z
A
A ⊂ R2 .
fX,Y (x, y) dxdy,
Soit g : R → R une fonction borélienne telle que g(y) est positive ou intégrable.
L’espérance conditionnelle E(g(Y ) | X) est uniquement déterminée par le fait
qu’elle est TX -mesurable et qu’elle satisfait l’égalité
E E(g(Y ) | X) Z = E g(Y ) Z
pour tout Z TX -mesurable, c’est-à-dire pour tout Z de la forme f (X). La fonction
x 7→ E(g(Y ) | X = x) est donc uniquement déterminée par la relation :
Z
f (x) E(g(Y ) | X = x) dPX (x) =
Z
f (X) g(Y )dP =
Z
f (x) g(y) dP(X,Y ) (x, y).
Cas d’une loi P(X,Y ) à densité
Cherchons à donner une expression pour l’espérance conditionnelle dans le cas à
densité. Lorsque P(X,Y ) admet une densité fX,Y , la loi PX admet la densité
fX (x) =
Z
R
fX,Y (x, y) dy.
En remplaçant dans l’expression précédente, on doit avoir pour tout f : R → R
borélienne bornée,
Z
f (x) E(g(Y ) | X = x)
Z
fX,Y (x, y)dy dx =
Z
f (x)
Z
g(y) fX,Y (x, y) dy dx.
Comme cette relation doit être vérifiée pour toute fonction f , on en déduit la
proposition suivante.
72
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Proposition 17 Soit X, Y deux variables aléatoires telles que le couple (X, Y )
admette une densité fX,Y et soit g : R → R une fonction borélienne positive ou
PY -intégrable. Alors, pour PX -presque tout x ∈ R,
E(g(Y ) | X = x) =
R
R
g(y)fX,Y (x, y) dy
.
R fX,Y (x, y) dy
R
Cas d’une loi PX discrète
Étudions maintenant le cas où P (X = x0 ) > 0 pour un certain x0 ∈ R, ce qui se
produit par exemple si X est une variable aléatoire discrète. Prenons pour f la
fonction indicatrice du singleton {x0 }. Nous avons la relation :
P (X = x0 )E(g(Y ) | X = x0 ) =
=
=
R
{x0 }
R
Ω
R
E(g(Y ) | X = x) dPX (x)
g(Y (ω)) 1(X=x0 ) (ω) dP (ω)
(X=x0 )
g(Y (ω)) dP (ω).
On retrouve l’expression habituelle de l’espérance conditionnelle pour les variables
aléatoires discrètes.
Proposition 18 Soit X, Y deux variables aléatoires et g : R → R une fonction
borélienne positive ou PY -intégrable. Pour tout x ∈ R tel que P (X = x) > 0,
E(g(Y ) | X = x) =
Z
E(g(Y ) 1(X=x) )
1
=
g(Y ) dP.
P (X = x)
P (X = x) (X=x)
On termine par une formule qui permet de calculer la probabilité d’un événement
à partir des probabilités conditionnelles.
Proposition 19 Soit X une variable aléatoire, A ∈ T et I ⊂ R un intervalle
ou un borélien de R. Alors
P A ∩ X −1 (I) =
P (A) =
Z
R
Z
I
P (A | X = x) dPX (x),
P (A | X = x) dPX (x).
Ces formules découlent des égalités
R
I
E(1A | X = x) dPX (x) = E(1(X∈I) E(1A | X))
= E(1(X∈I) 1A )
= P (A ∩ (X ∈ I)).
7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE73
Généralisation à n variables
Les considérations précédentes se généralisent à un nombre quelconque de variables aléatoires.
Définition 19 Soient X1 , ..., Xn des variables aléatoires définies sur Ω. La tribu
engendrée par les Xi est notée TX1 ,...,Xn ou S(X1 , ..., Xn ).
TX1 ,...,Xn = S(X1 , ..., Xn ) = {(X1 , ..., Xn )−1 (A) | A ⊂ Rn borélien}
On pose
E(Y | X1 , X2 , ..., Xn ) = E Y | TX1 ,X2 ,...,Xn .
On démontre comme précédemment que toute fonction TX1 ,X2 ,...,Xn -mesurable est
de la forme f (X1 , X2 , ..., Xn ) où f : Rn → R est borélienne. On a donc une
fonction (x1 , ..., xn ) 7→ E(Y | X1 = x1 , ..., Xn = xn ) définie de Rn dans R qui,
composée avec (X1 , X2 , ..., Xn ), redonne E(Y | X1 , X2 , ..., Xn ).
74
7.5
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Exercices
exercice 1
On considère un espace probabilisé (Ω, T , P ), une tribu F ⊂ T et deux événements
A ∈ T , F ∈ F . Montrer la formule suivante :
R
P (A | F ) dP
.
Ω P (A | F ) dP
P (F | A) = RF
Quelle formule obtient-on lorsque F est associée à une partition
`
Ei = Ω ?
exercice 2
Soit X une variable aléatoire de carré intégrable. Montrer que E(X 2 | X+1) = X 2 .
exercice 3
Soit X : Ω → R+ une variable aléatoire positive définie sur (Ω, T , P ) et F ⊂ T
une tribu. Montrer que presque sûrement, X > 0 implique E(X | F ) > 0.
exercice 4
Soit X, Y deux variables aléatoires telle que le couple (X, Y ) suit une loi uniforme
sur le disque unité : fX,Y (x, y) = π1 1[0,1] (x2 + y 2 ). Calculer E(X 2 | Y ).
exercice 5
Soit X une variable aléatoire de densité fX . On considère sa valeur absolue |X|.
– Montrer que |X| admet la densité f|X| (x) = fX (x) + fX (−x) 1R+ (x).
– Montrer que E g(X) | |X| = x =
g(x)fX (x) + g(−x)fX (−x)
fX (x) + fX (−x)
p.s.
exercice 6
On considère une variable aléatoire suivant une loi exponentielle de paramètre λ.
Sa densité est donc donnée par : f (x) = λ e−λx 1[0,∞[ (x)
– Pour s, t > 0, calculez P (X ≥ t) et P (X ≥ t + s | X ≥ s). On dit que la loi
exponentielle est sans mémoire.
– Montrer que cette propriété est aussi vraie pour une variable aléatoire discrète
suivant une loi géométrique de paramètre p.
exercice 7
Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ), F ⊂ T
2
une tribu et un nombre réel t > 0. Montrer que P (|X| ≥ t | F ) ≤ E(Xt2 |F ) .
exercice 8
Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ) et F ⊂ T
une tribu. On définit la variance conditionnelle de X relativement à F comme
suit :
V (X | F ) = E(X 2 | F ) − E(X | F )2
Montrer que V (X) = E(V (X | F )) + V (E(X | F )).
Chapitre 8
Théorie des martingales
Pour obtenir des théorèmes de convergence pour les séries de variables aléatoires
indépendantes, nous allons introduire le concept de martingale.
8.1
La notion de martingale
Définition 20 Soit (Ω, T , P ) un espace probabilisé, Fn ⊂ T des tribus, n ∈ N.
On dit que les Fn forment une filtration si elles constituent une suite croissante
pour l’inclusion : Fn ⊂ Fn+1 pour tout n ∈ N.
Une suite de variables aléatoires (Mn ) est dite adaptée à la filtration Fn si Mn
est Fn -mesurable pour tout n ∈ N.
La suite (Mn )n∈N est une martingale relativement à la filtration Fn si
– les Mn sont intégrables,
– la suite (Mn ) est adaptée à Fn ,
– E(Mn+1 | Fn ) = Mn pour tout n ∈ N.
Si la filtration Fn n’est pas spécifiée, on prend Fn = TM1 ,...,Mn .
Lorsque la suite est composée de fonctions de carrés intégrables, la variable Mn
s’obtient en projetant orthogonalement Mn+1 sur L2 (Ω, Fn ). Montrons que la
projection de Mn+k , k > 0, sur L2 (Ω, Fn ) est aussi égale à Mn .
Proposition 20 Pour tout k > 0, E(Mn+k | Fn ) = Mn .
Cette proposition se démontre par récurrence sur k. Supposons là vérifiée pour
k > 0 et démontrons là pour k + 1. Comme Fn ⊂ Fn+k ,
E(Mn+k+1 | Fn ) = E(E(Mn+k+1 | Fn+k ) | Fn ) = E(Mn+k | Fn ) = Mn .
La proposition est démontrée.
75
76
CHAPITRE 8. THÉORIE DES MARTINGALES
Donnons quelques exemples de martingales.
Premier exemple
Soit (Xk )k∈N une suite de variables aléatoires indépendantes entre elles et centrées
(E(Xn ) = 0 pour tout n ∈ N). Posons Sn = X1 + X2 + ... + Xn . Alors la suite
(Sn )n∈N est une martingale relativement à la filtration Fn = TX1 ,X2 ,...,Xn .
Preuve
La variable aléatoire Sn est bien intégrable et Fn -mesurable.
E(Sn+1 | Fn ) =
=
=
=
=
E(Sn+1 | X1 , ..., Xn )
E(Xn+1 + Sn | X1 , ..., Xn )
E(Xn+1 | X1 , ..., Xn ) + E(Sn | X1 , ..., Xn )
E(Xn+1 ) + Sn
Sn
C’est la relation voulue.
Remarquons qu’on a l’égalité TX1 ,X2 ,...,Xn = TS1 ,S2 ,...,Sn car les Xi s’expriment en
fonction des Si et réciproquement. La suite (Sn ) est une martingale aussi bien
par rapport aux (Xi ) qu’aux (Si ).
Second exemple
Soit M une variable aléatoire intégrable et (Fn ) une filtration. La suite
Mn = E(M | Fn )
est une martingale.
Preuve
E(Mn+1 | Fn ) = E E(M | Fn+1) | Fn = E(M | Fn ) = Mn .
Troisième exemple
On considère sur l’espace Ω = [0, 1[, muni
de la mesure de Lebesgue, les fonctions
Mn (x) = 2n 1[0,1/2n [ (x).
n −1
2a
h
k k + 1h
,
.
2n 2n
k=0
La suite (Mn ) est une martingale relativement à la filtration Fn .
On prend pour Fn la tribu associée à la partition [0, 1[ =
Preuve
Z 1
|Mn (x)| dx = 1.
Les fonctions Mn sont intégrables :
0
La variable aléatoire Mn est mesurable relativement à la tribu Fn car elle est
constante sur chacun des éléments de la partition associée à Fn . On a vu précédemment une formule explicite pour l’espérance conditionnelle relativement aux Fn .
77
8.1. LA NOTION DE MARTINGALE
Notons Ik =
h
k k+1
,
2n 2n
E(Mn+1 | Fn ) =
h
X
k
∈ Fn .
E(Mn+1 1Ik )
1Ik = 2n E 2n+1 1[0, 1 [ 1I0 = 2n 1I0 = Mn .
P (Ik )
2n+1
La suite Mn satisfait bien les propriétés qui définissent les martingales.
Quatrième exemple
Voici un autre exemple en lien avec les jeux de hasard.
Proposition 21 Soit (Mn )n∈N une martingale et (Hn )n∈N une suite de variables
aléatoires telle que Hn est Fn−1-mesurable pour tout n ≥ 1. On suppose que Hn
est bornée pour chaque n ∈ N. On pose G0 = 0 et
Gn =
n
X
m=1
Hm (Mm − Mm−1 )
Alors (Gn )n∈N est une martingale.
Preuve
P
E(Gn+1 | Fn ) = E( n+1
Hm (Mm − Mm−1 | Fn )
1
P
= E(Hn+1 (Mn+1 − Mn ) | Fn ) + E( n1 Hm (Mm − Mm−1 ) | Fn )
= Hn+1 E(Mn+1 − Mn | Fn ) + E(Gn | Fn )
= Gn .
De plus Gn est bien Fn -mesurable et Gn est intégrable.
Prenons (Xn )n∈N∗ une suite de variables aléatoires indépendantes identiquement distribuées telle que P (Xn = −1) = P (Xn = 1) = 1/2 et définissons
M0 = 0,
Mn =
n
X
Xi ,
H1 = 1,
i=1
2Hn−1 si Xn−1 = −1
1
sinon.
Il s’agit ici de modéliser une succession de mises à la roulette. On suppose que
rouge et noir sortent chacun avec probabilité 1/2. La variable Xn vaut 1 si le
joueur gagne au tirage n et vaut −1 sinon. La quantité Hn est la mise engagée
par le joueur au nième tirage, elle est fonction des résultats observés au cours des
précédents tirages. Dans la martingale classique, le joueur double sa mise s’il a
perdu au tirage précédent ; sinon il mise 1 euro. La valeur Gn représente le gain
(ou la perte) à l’étape n. Notons F0 la fortune initiale du joueur. Après avoir joué
n fois, sa fortune vaut Fn = Gn + F0 . C’est une martingale.
Hn =
Proposition 22 Soit Mn une martingale. Alors
E(Mn ) = E(Mn−1 ) = ... = E(M1 ) = E(M0 ).
78
CHAPITRE 8. THÉORIE DES MARTINGALES
Preuve
E(Mn ) = E(E(Mn+1 | Fn )) = E(Mn+1 ) pour tout n ∈ N.
Dans l’exemple précédent, nous avons E(Fn ) = E(F0 ). Le joueur ne peut pas
augmenter l’espérance de sa fortune par une stratégie Hn judicieuse.
8.2
Convergence des martingales
On va montrer qu’une martingale est convergente dès qu’elle est bornée en norme
L2 .
Définition 21 Une martingale (Mn ) est dite bornée dans L2 si il existe C > 0
telle que pour tout n ∈ N, kMn k2 ≤ C.
Théorème 11 (convergence L2 ) Toute martingale bornée dans L2 converge
au sens de la norme L2 et presque sûrement : il existe une variable aléatoire M
de carré intégrable telle que
L2
Mn −−−−→ M,
n→∞
p.s.
Mn −−
−−→ M.
n→∞
Remarque On a alors Mn = E(M | Fn ). On peut montrer que ce théorème se
généralise à Lp pour p ∈]1, ∞[.
Preuve de la convergence L2
Posons Yi = Mi − Mi−1 si bien que
Mn =
n
X
Yi + M0 .
i=1
Vérifions que la famille des Yi est orthogonale. Comme Mn est une martingale,
E(Yi | Fi−1) = E(Mi | Fi−1 ) + E(Mi−1 | Fi−1 ) = Mi−1 − Mi−1 = 0
La variable Yj est Fi−1 -mesurable pour tout j < i, ce qui donne
hYi , Yj i = E(Yi Yj ) = E(E(Yi | Fi−1 ) Yj ) = E(0) = 0.
On a donc :
n
X
i=1
E(Yi2 ) = E
n
X
i=1
Yi2 = E (Mn − M0 )2 = E(Mn2 ) − E(M02 ) ≤ C.
Cette série à termes positifs est bornée, elle converge. Elle est donc de Cauchy.
On en déduit que la suite Mi est aussi de Cauchy pour la norme L2 :
kMn − Mm k22 = E((Mn − Mm )2 ) = E
X
n
i=m+1
Yi
2 =
n
X
m+1
E(Yi2 )
79
8.2. CONVERGENCE DES MARTINGALES
P
pour n ∈ N et m ≥ n. La série E(Yi2 ) étant de Cauchy, la dernière somme est
inférieure à ε dès que m et n sont suffisamment grands. La suite (Mn ) est bien
de Cauchy pour la norme L2 , elle converge donc.
Pour démontrer la convergence presque sûre, on utilise le lemme suivant :
Lemme 5 (inégalité maximale) Soit (Mn )n∈N une martingale. Alors pour tout
N ∈ N et tout λ > 0,
P max |Mi | ≥ λ ≤
0≤i≤N
E(MN2 )
.
λ2
Preuve du lemme
On s’intéresse au premier indice pour lequel la martingale dépasse λ.
A0 = (|M0 | ≥ λ)
A1 = (|M0 | < λ, |M1 | ≥ λ)
Aj = (|M0 | < λ, ..., |Mj−1 | < λ, |Mj | ≥ λ)
Nous avons alors
max |Mi | ≥ λ =
0≤i≤N
N
a
Aj .
j=0
Cherchons à minorer E(MN2 1Aj ) en insérant le terme Mj dans le carré.
E(MN2 1Aj ) = E((MN − Mj )2 1Aj ) + E(Mj2 1Aj ) + 2E((MN − Mj )Mj 1Aj ).
Le premier terme à droite de l’égalité est positif, tandis que le second terme est
supérieur à E(λ2 1Aj ) car Mj est supérieur à λ sur Aj . Vérifions que le dernier
terme est nul en utilisant le fait que Mn est une martingale :
E(MN Mj 1Aj ) = E(E(MN Mj 1Aj | Fj )) = E(Mj 1Aj E(MN | Fj )) = E(Mj 1Aj Mj )
car Mj et 1Aj sont Fj -mesurables. On en déduit E((MN −Mj )Mj 1Aj ) = 0 comme
souhaité. Au final,
E(MN2 1Aj ) ≥ λ2 E(1Aj ) = λ2 P (Aj ).
On conclut en faisant la somme pour j allant de 0 à n.
E(MN2 ) ≥ E(MN2
X
1A j ) ≥ λ 2 P (
a
Aj ) = λ2 P (max |Mi | ≥ λ).
Preuve de la convergence presque sûre
On a vu que pour tout ε > 0, il existe N tel que pour tout m, n ≥ N
E((Mn − Mm )2 ) < ε.
80
CHAPITRE 8. THÉORIE DES MARTINGALES
On peut donc construire par récurrence une suite croissante ni telle que n0 = 0
et
E((Mni − Mni−1 )2 ) ≤ 1/2i .
Soit n ∈ N et i le plus grand entier tel que ni ≤ n. Nous avons l’encadrement
ni ≤ n < ni+1 . Décomposons la martingale Mn comme suit :
Mn = (Mn − Mni ) +
i
X
(Mnj − Mnj−1 ) + M0 .
j=1
Appliquons l’inégalité maximale à la martingale M̃n = Mn+ni , N = ni+1 − ni et
λ = i12 :
P
max
ni ≤n≤ni+1
2
|Mn − Mni | ≥ 1/i
E((Mni+1 − Mni )2 )
i2
≤ i.
≤
1/i2
2
La série de terme général i2 /2i converge, on peut appliquer le lemme de BorelCantelli : presque sûrement, pour i assez grand,
max
ni ≤n≤ni+1
|Mn − Mni | ≤
1
−−−−→ 0.
i2 i→∞
En particulier, pour n = ni+1 et i supérieur à un certain i0 ∈ N dépendant de ω,
|Mni+1 − Mni | ≤
1
.
i2
P
P
La série i≥i0 |Mni+1 − Mni | ≤ i0 1/i2 est de nature convergente, ce qui montre
P
que la série Mni+1 −Mni est absolument convergente. Le théorème est démontré.
8.3
Séries de variables aléatoires indépendantes
Le premier résultat que nous pouvons déduire du théorème de convergence des
martingales bornées dans L2 est un critère pour la convergence presque sûre d’une
série de variables aléatoires indépendantes.
Corollaire 6 Soit (Xi ) une suite de variables aléatoires indépendantes centrées
(E(Xi ) = 0 pour tout i) et de carrés intégrables. On suppose que
X
i∈N
Alors la série
P
V (Xi ) < ∞.
Xi converge presque sûrement et en norme L2 .
81
8.3. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Preuve
Nous avons vu précédemment que sous les hypothèses du corollaire, la suite Sn =
Pn
i=1 Xi est une martingale. Remarquons que l’espérance de Sn est nulle :
E(Sn ) =
n
X
E(Xi ) = 0.
1
Sa variance est donc égale au carré de sa norme L2 que nous évaluons comme
suit :
kSn k22 = E(Sn2 ) = V (Sn ) = V (
n
X
Xi ) =
1
n
X
1
V (Xi ) ≤
∞
X
V (Xi ).
1
La martingale Sn est bornée dans L2 , elle converge presque sûrement et dans L2 .
Exemple
k
P
P
La série harmonique k1 est divergente. La série alternée (−1)
est convergente.
k
Qu’en est-il lorsque nous choisissons les signes des termes de la série de manière
aléatoire ?
Proposition 23 Soit (εk ) une suite de variables aléatoires indépendantes identiquement distribuées telles que
P (εk = 1) = P (εk = −1) = 1/2.
Alors la série
X
k
εk
converge presque sûrement.
k
Cela se déduit du corollaire. Il suffit de remarquer d’abord que E( εii ) = 0 puis
que
∞
∞
∞
ε X
X
X
1
1
k
=
V (εk ) =
< ∞.
V
2
2
k
k=1 k
k=1 k
k=1
Comme exemple d’une telle suite de variables aléatoires, on peut prendre
Ω = {−1, 1}⊗N,
On a alors
P
n
P =
1
1 ⊗N
δ−1 + δ1
,
2
2
εi (xk )k∈N = xi .
X
(xi )i∈N ∈ Ω o
xk
converge
= 1.
k≥1 k
P
On se pose maintenant la question générale de la convergence d’une série Xi
lorsque les Xi sont indépendantes entre elles. Le théorème suivant est dû à A.
Kolmogorov.
82
CHAPITRE 8. THÉORIE DES MARTINGALES
Théorème 12 (théorème des trois séries) Soit (Xi )i∈N une suite de variables
P
aléatoires indépendantes entre elles. Posons Yi = Xi 1(|Xi |≤1) . Alors la série Xi
converge presque sûrement si et seulement si les trois séries suivantes convergent :
–
–
–
P
P
P
P (|Xi | ≥ 1),
E(Yi ),
V (Yi ).
Preuve
Ce théorème se déduit du corollaire précédent. On se contente de démontrer que
P
la convergence des trois séries implique la convergence presque sûre de
Xi .
P
Comme
P (|Xi | ≥ 1) converge, nous pouvons appliquer le lemme de BorelCantelli : pour presque tout ω, il existe i0 tel que pour tout i ≥ i0 , |Xi (ω)| ≤ 1.
P
P
On a alors Yi (ω) = Xi (ω). Les séries Xi et Yi sont donc de même nature.
P
Posons Ỹi = Yi − E(Yi ). Comme E(Yi ) converge, il suffit de démontrer la
P
convergence presque sûre de Ỹi . Les Ỹi sont centrées et leur variance est égale
à celle des Yi :
kỸi k22 = V (Ỹi ) = V (Yi ).
P
P
On sait que la série V (Ỹi ) = V (Yi ) converge. Le corollaire s’applique, la série
P
Ỹi est convergente presque sûrement et le théorème est démontré.
Complément
Donnons une preuve de la loi des grands nombres dérivée des théorèmes précédents
et valide pour toute suite de variables aléatoires (Xn )n∈N indépendantes identiquement distribuées intégrables.
On considère les variables Yk = Xk 1(|Xk |≤k) . Montrons que la série
convergente.
P
V (Yk )
k2
est
Z ∞ X
x
E(Yk2 ) X 1 Z ∞ 2
x 1{x≤k} dP|Xk | (x) =
=
1
x dP|X0 | (x).
2 0
2 {k≥x}
k2
0
k≥1 k
k≥1 k
k≥1
X
La somme qui apparaı̂t sous l’intégrale dans le dernier terme est majorée par
P
2 k≥1 k12 pour x ∈ [0, 2]. Pour x ≥ 2, on effectue une comparaison série-intégrale.
X
x
1
≤
{k≥x}
2
k≥x
k≥1 k
X
Z
x
dt ≤
k−1 t2
k
Z
∞
x−1
x
x
dt ≤
≤ 2.
2
t
x−1
Nous avons de plus V (Yk − E(Yk )) = V (Yk ) ≤ E(Yk2 ), si bien que la série
P Yk −E(Yk )
P
k)
) est convergente. La série
converge donc presque sûV ( Yk −E(Y
k
k
rement, en vertu du théorème vu précédemment.
83
8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES
P
De manière générale, pour toute suite (xk ) telle que xii converge, la moyenne
P
1
xk converge vers 0. Cela découle de la formule suivante
n
n
k
n X
n
xi
1X
xi X
1X
=
xi
−
n k=1 i=1 i
n i=1
i=1 i
qui se démontre en intervertissant les deux signes sommes. On en déduit
n
1 X
p.s.
(Yk − E(Yk )) −−−−→ 0.
n→∞
n k=1
R
Par convergence dominée, la suite E(Yk ) = x1{|x|≤k} dPX0 (x) converge vers
P
E(X0 ). Il en va donc de même pour n1 E(Yk ). Il reste à remarquer que
∞
X
k=1
P (Yk 6= Xk ) =
∞
X
k=1
P (|X0| ≥ k) =
Z X
∞
k=1
1{k≤x} dP|X0 | (x) ≤
Z
x dP|X0| (x) < ∞
D’après le lemme de Borel-Cantelli, pour presque tout ω, les suites Xk (ω) et Yk (ω)
P
P
coı̈ncident à partir d’un certain rang et la différence n1 Xk (ω) − n1 Yk (ω) tend
vers 0. Le résultat est démontré.
8.4
Convergence des espérances conditionnelles
Théorème 13 Soit (Ω, T , P ) un espace probabilisé et Fn ⊂ T une suite de tribus
croissante pour l’inclusion telle que T soit engendrée par tous les Fn . Alors pour
tout X : Ω → R de carré intégrable,
E(X | Fn ) −−−−→ X presque sûrement et en norme L2 .
n→∞
Remarque Ce théorème est encore vrai si X est juste intégrable, on a alors
convergence presque sûrement et en norme L1 .
Preuve
On a vu précédemment que la suite E(X|Fn ) est une martingale. On sait aussi
qu’elle est bornée dans L2 : kE(X | Fn )k2 ≤ kXk2 .
Elle converge donc presque sûrement et en norme L2 , notons X̃ sa limite et
montrons que X̃ = X. Soit n0 ∈ N et n ≥ n0 .
kE(X − X̃ | Fn0 )k2 = kE(E(X | Fn ) − X̃ | Fn0 )k2 ≤ kE(X | Fn ) − X̃k2 −−−−→ 0
n→∞
On a donc pour tout n0 ∈ N et A ∈ Fn0 , E(X − X̃ | Fn0 ) = 0. Ceci implique :
Z
A
X − X̃ dP = E(1A (X − X̃)) = E(1A E(X − X̃ | Fn0 )) = 0.
On en déduit que X = X̃ en posant A =
d’intégration suivant.
S
n∈N
Fn et en appliquant le résultat
84
CHAPITRE 8. THÉORIE DES MARTINGALES
Proposition 24 Soit (Ω, T , P ) un espace probabilisé, Y : Ω → R intégrable,
R
A ⊂ T une algèbre de parties de T . Si A Y dP = 0 pour tout A ∈ A, alors Y = 0
presque sûrement.
Donnons deux applications du théorème de convergence précédent. Notons
T(Xk , k≥N ) ou S(Xk , k ≥ N) la tribu engendrée par toutes les variables Xk , k ≥ N.
Théorème 14 (Loi du 0-1 de Kolmogorov) Soit (Xk )k∈N une suite de variables aléatoires indépendantes et
A∈
\
N ∈N
T(Xk , k≥N ) .
Alors la probabilité de l’événement A vaut 0 ou 1 : P (A) ∈ {0, 1}.
Preuve
Pour n ∈ N, l’événement A appartient à la tribu T(Xk ,k≥n+1) . Il est donc indépendant
de X0 , X1 , ..., Xn . On en déduit
P (A) = P (A | X0 , ..., Xn ).
Les tribus Fn = TX0 ,...,Xn sont croissantes et engendrent F = T(Xk , k≥0) . On peut
appliquer le théorème précédent en se plaçant sur l’espace (Ω, F , P ) :
P (A) = P (A | X0 , ..., Xn ) = E(1A | Fn ) −−−−→ 1A
n→∞
p.s.
On peut donc trouver ω ∈ Ω tel que P (A) = 1A (ω) ∈ {0, 1}.
Exemple
Soit (Xn )n∈N une suite de variables aléatoires indépendantes et A = {ω ∈ Ω |
P
k≥0 Xk converge}. On peut écrire A sous la forme suivante, pour tout N ∈ N :
A = {ω ∈ Ω |
X
k≥N
Xk converge} ∈ T(Xk ,k≥N ).
D’après la loi du 0-1, l’événement A a pour probabilité 0 ou 1. Par conséquent, ou
P
bien pour presque tout ω ∈ Ω, la série Xk (ω) converge, ou bien pour presque
P
tout ω ∈ Ω, la série Xk (ω) diverge.
Posons Sn =
Pn
k=1 Xk .
Par le même raisonnement, l’ensemble
{ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée}
a comme probabilité 0 ou 1. De fait, N étant donné, la suite (Sn (ω))n≥1 est bornée
P
si et seulement si la suite ( nk=N Xk (ω))n≥N est bornée et cette dernière suite ne
dépend que de Xk pour k ≥ N.
Comme autre application, montrons qu’on peut approcher presque partout
toute fonction de carré intégrable définie sur [0, 1[ par des fonctions en escalier
explicites.
8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES
85
Proposition 25 Soit f ∈ L2 ([0, 1[, dx). Alors
n −1
2X
k=0
2n
Z
k+1
2n
k
2n
p.s.
−−
−−→ f
f (x) dx 1[ kn , k+1
n [
n→∞
2
2
n −1
Preuve
2a
[ . On a vu
On prend pour Fn la tribu associée à la partition [0, 1[ =
[ 2kn , k+1
2n
k=0
précédemment que
E(f | Fn ) =
n −1
2X
k=0
2n
Z
k+1
2n
k
2n
f (x) dx 1[ kn , k+1
.
n [
2
2
[ , n ∈ N et k ∈ {0, ..., 2n − 1}, enDe plus, les intervalles de la forme [ 2kn , k+1
2n
gendrent la tribu des boréliens. Le théorème précédent montre que E(f | Fn ) → f
p.s. et en norme L2 .
Complément
Une martingale (Mn ) est dite bornée dans L1 s’il existe C ≥ 0 tel que pour tout
n ∈ N, kMn k1 ≤ C. On peut montrer qu’une telle martingale converge presque
sûrement mais on n’a pas forcément la convergence en norme L1 .
Cette convergence a lieu en norme L1 si et seulement si (Mn ) satisfait la condition suivante :
sup E(|Mn | 1|Mn|≥λ) ) −−−−→ 0.
λ→∞
n∈N
Une suite de variable aléatoires (Mn ) qui satisfait cette condition est dite équiintégrable.
Voici un exemple d’une telle suite. Considérons une variable aléatoire X intégrable et Fn une filtration. Alors la suite E(X | Fn ) est une martingale équiintégrable. C’est une conséquence du calcul suivant.
R
(|E(X|Fn )|≥λ)
|E(X | Fn )| dP
R
≤ (E(|X| | Fn )≥λ) E(|X| | Fn ) dP
R
≤ (E(|X| | Fn )≥λ) |X| dP
√
R
≤ (|X|≥√λ) |X| dP + λ P E(|X| | Fn ) > λ
≤
R
√
(|X|≥ λ)
|X| dP +
E(|X|)
√
λ
La première inégalité provient de la majoration |E(X | F )| ≤ E(|X| | F ) et
de la croissance de la fonction x 7→ x1x≥λ . La dernière majoration provient de
l’inégalité de Markov.
Comme application, on peut montrer que la suite E(X | Fn ) converge vers X
aussi bien en norme L1 que presque sûrement lorsque les Fn engendrent toute la
tribu T et que X est intégrable.
86
8.5
CHAPITRE 8. THÉORIE DES MARTINGALES
Temps d’arrêt
Définition 22 Soit (Fn ) une filtration. Une variable aléatoire τ : Ω → N ∪ {∞}
est un temps d’arrêt relativement à la filtration Fn si l’événement (τ = n) est
dans Fn pour tout n ∈ N.
Remarque
On a alors (τ ≤ n) ∈ Fn pour tout n ∈ N car
(τ ≤ n) =
a
0≤k≤n
(τ = k) ∈
[
0≤k≤n
Fk = Fn .
Théorème 15 Soit (Mn ) une martingale et τ un temps d’arrêt. On pose
(n ∧ τ )(ω) = min(n, τ (ω)),
(Mn∧τ )(ω) = M(n∧τ )(ω) (ω).
Alors (Mn∧τ ) est une martingale.
Remarque
Considérons un résultat ω ∈ Ω pour lequel τ (ω) est fini. Nous avons
Mn∧τ (ω) =
Mn (ω)
Mτ (ω) (ω)
si n ≤ τ (ω)
si n ≥ τ (ω)
Nous voyons que si τ (ω) < ∞, la suite (Mn∧τ )(ω) est stationnaire, c’est-à-dire
constante à partir d’un certain rang. La suite (Mn∧τ )n∈N converge sur l’ensemble
(τ < ∞) vers la variable aléatoire ω 7→ Mτ (ω) (ω), notée Mτ . Sur l’ensemble
(τ = ∞), elle coı̈ncide avec la suite (Mn ).
Exemple
On revient à l’exemple de la fortune Fn d’un joueur qui joue au casino. On a
vu que c’est une martingale et que E(Fn ) = E(F0 ). Le joueur peut-il augmenter
l’espérance de sa fortune en s’arrêtant de jouer au bon moment ?
Reprenons l’exemple de la martingale consistant à doubler la mise si on est perdant. Plutôt que de jouer un nombre de fois n fixé, le joueur décide de s’arrêter au
premier gain s’il y a effectivement un gain qui se produit au cours des n tirages.
La variable
τ (ω) = min{k ∈ N∗ | Xk (ω) = 1}
est un temps d’arrêt :
(τ = n) = (X1 = −1, ..., Xn−1 = −1, Xn = 1) ∈ TX1 ,...,Xn .
La fortune du joueur est maintenant égale à Fn∧τ . C’est une martingale, nous
avons donc E(Fn∧τ ) = E(F0∧τ ) = E(F0 ) = F0 . On ne peut pas améliorer les
gains par cette méthode.
8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE
87
Preuve du théorème
On pose Hn = 1(τ ≥n) . Cette fonction est Fn−1 -mesurable :
Posons Gn =
Nous avons
Pn
(τ ≥ n) = (τ < n)c = (τ ≤ n − 1)c ∈ Fn−1 .
m=1
Hm (Mm − Mm−1 ) =
Pn
m=1
1(m≤τ ) (Mm − Mm−1 ).
Gn (ω) = Mτ (ω) (ω) − M0 (ω) si n ≥ τ (ω),
= Mn (ω) − M0 (ω)
si n ≤ τ (ω).
ce qui montre que Gn = Mn∧τ − M0 et nous avons vu plus haut que Gn est une
martingale.
8.6
Illustration par une marche aléatoire
On se donne une suite de variables aléatoires (Xk )k∈N∗ indépendantes identiquement distribuées telle que
P
P (Xk = 1) = P (Xk = −1) = 1/2.
Posons Sn = nk=1 Xk . La suite (Sn (ω))n∈N est ici interprétée comme un déplacement sur l’ensemble des entiers Z. L’entier Sn (ω) correspond à la position de
la marche au temps n, en considérant que nous sommes à l’origine au temps 0.
Si nous sommes à la position Sn au temps n, nous avons une chance sur deux de
nous déplacer d’un pas vers la droite au temps n + 1, et une chance sur deux de
nous déplacer d’un pas vers la gauche :
P (Sn+1 = Sn + 1) = P (Xn+1 = 1) = 1/2,
P (Sn+1 = Sn − 1) = P (Xn+1 = −1) = 1/2.
On parle ici d’une marche aléatoire symétrique sur Z.
Voici une présentation imagée de cette marche aléatoire et des problématiques associées. Un individu passablement éméché se déplace sur un chemin, de réverbères
en réverbères, de manière aléatoire, avec probabilité 1/2 de partir vers la gauche
88
CHAPITRE 8. THÉORIE DES MARTINGALES
ou la droite à chaque étape. Sa maison se trouve en −a, le bar en b avec a, b ∈ N∗ .
Deux questions se posent :
- Parviendra-t-il à atteindre sa maison ou à retourner au bar ?
- Quelle est la probabilité qu’il atteigne la maison avant le bar ?
Théorème 16 Presque sûrement, la marche atteint −a ou b :
P ({ω ∈ Ω | ∃ n ∈ N∗ tel que Sn = −a ou Sn = b}) = 1.
La probabilité que la marche atteigne −a avant b est égale à
b
a+b
:
P ({ω | ∃ n ∈ N∗ tel que −a < Sk (ω) < b pour tout k < n et Sn (ω) = −a}) =
b
.
a+b
preuve
Posons τ (ω) = inf{k ∈ N∗ | Sk = −a ou Sk = b} si la suite (Sn (ω)) atteint
effectivement −a ou b et τ (ω) = +∞ sinon. Cette variable aléatoire τ est un
temps d’arrêt à valeurs dans N ∪ {∞}. La preuve du théorème se fait en deux
temps. On commence par vérifier que τ est fini presque sûrement :
P (τ < ∞) = 1.
La variable aléatoire ω 7→ Sτ (ω) (ω) est alors bien définie, on la note Sτ , elle ne
prend que les deux valeurs −a et b. On montre ensuite que cette variable est
d’espérance nulle :
E(Sτ ) = 0.
On a alors le système de deux équations
P (Sτ = −a)
+ P (Sτ = b) = 1
−a P (Sτ = −a) + b P (Sτ = b) = E(Sτ ) = 0
qu’il suffit de résoudre pour trouver la probabilité P (Sτ = −a).
Montrons que τ est fini presque sûrement. On a vu précédemment que l’événement
{ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée}
a pour probabilité 0 ou 1. C’est une conséquence de la loi du 0-1. On veut montrer
que cette probabilité vaut 0. Si cela n’est pas le cas, pour presque tout ω ∈ Ω, la
suite (Sn (ω)) est bornée, ce qui implique
Sn (ω)
√ −−−−→ 0,
n n→∞
et pour toute f continue bornée, par convergence dominée,
Z
R
f dP √Sn
n
Z
Sn
= f √ (ω) dP (ω) −−−−→
n→∞
n
Ω
Z
f (0) dP = f (0) =
Z
f (ω)dδ0(ω).
8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE
89
Sn
converge en loi vers la mesure de Dirac en zéro, ce qui contredit
La suite √
n
le théorème de la limite centrée. La suite n’est pas bornée, elle atteint −a ou b
presque sûrement.
Nous savons maintenant que la variable Sτ est bien définie, montrons que son
espérance est nulle.
p.s.
Sn∧τ −−
−−→ Sτ et − a ≤ Sn∧τ ≤ b pour tout n ∈ N∗ .
n→∞
Appliquons le théorème de convergence dominée :
E(Sτ ) = lim E(Sn∧τ ).
n→∞
Comme (Sn∧τ ) est une martingale, nous avons E(Sn∧τ ) = E(S1∧τ ) = E(S1 ) = 0,
ce qui montre que E(Sτ ) = 0. Le théorème est démontré.
Complément
Donnons une autre preuve des deux résultats P (τ < ∞) = 1 et E(Sτ ) = 0 en
utilisant le théorème de convergence des martingales plutôt que la loi du 0-1.
Nous savons que la suite (Sn∧τ ) est une martingale dont l’espérance est nulle et
qui est toujours comprise entre −a et b. Elle est donc bornée dans L2 et converge
en norme L2 vers une certaine variable aléatoire Y . Par l’inégalité de CauchySchwarz, la convergence L2 implique la convergence des espérances :
E(Y ) = lim E(Sn∧τ ) = 0.
n→∞
Sur l’ensemble (τ = ∞), nous avons pour presque tout ω et pour tout n,
Sn∧τ (ω) = Sn (ω),
−a < Sn (ω) < b.
La suite Sn converge donc vers Y en norme L2 sur (τ = ∞) et la suite |Sn+1 − Sn |
doit converger vers 0 sur cet ensemble. Comme elle est constante égale à un, on
en déduit que l’ensemble (τ = ∞) est négligeable et Y = Sτ presque sûrement.
90
8.7
CHAPITRE 8. THÉORIE DES MARTINGALES
Exercices
exercice 1
Soit (Xn ) une suite de variables aléatoires indépendantes identiquement disP
tribuées centrées de carrés intégrables. On pose Sn = nk=1 Xk . Montrer que
pour tout ε > 0, la série suivante converge presque sûrement :
X
k≥2
En déduire que la suite
Sn
√
n ln(n)1/2+ε
√
|Xk |
k ln(k)1/2+ε
est bornée, puis qu’elle converge vers zéro.
exercice 2
Soit (Mk )k∈N une martingale relativement à une filtration (Fk ). On suppose les
Mk de carrés intégrables. Montrer que si les Mk sont indépendants entre eux,
chacun des Mk est constant presque partout.
exercice 3
Soit (Xi )i∈N une suite de variables aléatoires positives, indépendantes entre elles,
telles que E(Xi ) = 1 pour tout i. On pose Mn = X1 X2 ...Xn .
– Montrer que Mn est une martingale.
– En déduire que Mn converge presque sûrement. La limite est notée M.
On suppose maintenant que P (Xi = 1/2) = P (Xi = 3/2) = 1/2. Posons
– Montrer que
τn
n
τn (ω) = Card{1 ≤ k ≤ n | Xk (ω) = 3/2}.
converge presque sûrement vers une limite qu’on calculera.
– Vérifier que Mn = 3τn /2n .
– En déduire que M = 0 presque sûrement puis que E
∞
Y
i=1
!
Xi 6=
∞
Y
E(Xi ).
i=1
exercice 4
Soit a un entier strictement positif, (Xi )i∈N∗ une suite de variables aléatoires
indépendantes identiquement distribuées, telles que P (Xi = 1) = P (Xi = −1) =
P
1/2. On pose Sn = ni=1 Xi , Fn = TX1 ,...,Xn et on s’intéresse au premier entier τ
tel que Sτ est égal à a en valeur absolue :
τ (ω) = inf{k ∈ N | |Sk (ω)| = a}.
– Montrer que la suite Mn = (Sn )2 − n est une martingale relativement aux (Fn ).
– Montrer que τ est un temps d’arrêt relativement aux (Fn ).
– Montrer que E(Mn∧τ ) = 0 pour tout n ∈ N∗ .
– Montrer la convergence E(n ∧ τ )−−
−−→ E(τ ).
n→∞
– Montrer que pour presque tout ω ∈ Ω, il existe k ∈ N∗ tel que |Sk (ω)| = a.
En déduire que |Sn∧τ | ≤ a pour tout n ∈ N∗ et (Sn∧τ )2 −−
−−→ a2 p.s.
n→∞
– Déduire de ce qui précède que E(τ ) = a2 .
Annexe A
Rappels d’intégration
On rappelle dans cette annexe un certain nombre de résultats d’intégration utilisés dans le cours. Le cadre est l’intégrale de Lebesgue. On adopte les notations
probabilistes : (Ω, T , P ) est un espace probabilisé, c’est-à-dire un espace mesuré
pour lequel P (Ω) = 1.
A.1
Théorèmes de convergence
Théorème 17 (convergence croissante) Soit fn : Ω → R+ une suite de fonctions mesurables positives. On suppose que pour presque tout ω ∈ Ω, la suite
(fn (ω))n∈N est croissante et on note f (ω) la limite de cette suite. Alors
lim
n→∞
Z
Ω
fn (ω) dP (ω) =
Z
Ω
f (ω) dP (ω).
Commentaire : la valeur des intégrales peut être égale à +∞.
Cas particulier : en appliquant ce théorème à une suite de fonctions indicatrices
1An , où (An )n∈N est une suite d’ensembles croissante pour l’inclusion, alors
P
∞
[
0
An = lim P (An ).
n
Théorème 18 (lemme de Fatou) Soit fn : Ω → R+ une suite de fonctions
mesurables positives. Alors
Z
lim inf fn (ω) dP (ω) ≤ lim inf
Ω n→∞
n→∞
Z
Ω
fn (ω) dP (ω).
Théorème 19 (convergence dominée) Soit fn : Ω → R une suite de fonctions mesurables qui converge presque partout vers une fonction f . On suppose que
pour presque tout ω ∈ Ω, la suite fn (ω) est dominée par une fonction g : Ω → R+
intégrable :
|fn (ω)| ≤ g(ω) pour presque tout ω ∈ Ω.
91
92
ANNEXE A. RAPPELS D’INTÉGRATION
Alors
lim
Z
n→∞ Ω
Z
fn (ω) dP (ω) =
Ω
f (ω) dP (ω).
Commentaire : Nous avons supposé P (Ω) = 1 si bien que toute suite fn bornée
est dominée par une fonction constante, qui est intégrable. Le théorème s’applique
donc à une telle suite.
Théorème 20 (interversion somme intégrale, cas positif) Soit fn : Ω →
R+ une suite de fonctions mesurables positives. Alors
Z X
∞
fn (ω) dP (ω) =
Ω n=0
∞ Z
X
n=0
Ω
fn (ω) dP (ω).
Commentaire : la somme de la série peut être égale à +∞.
Théorème 21 (interversion somme intégrale, cas intégrable) Soit fn : Ω →
R une suite de fonctions mesurables. On suppose que
∞ Z
X
n=0
Alors
Z X
∞
Ω
|fn (ω)| dP (ω) < +∞.
fn (ω) dP (ω) =
Ω n=0
∞ Z
X
n=0
Ω
fn (ω) dP (ω).
Commentaire : la série qui apparaı̂t dans le second terme est convergente.
A.2
Intégrales dépendant d’un paramètre
Théorème 22 (continuité sous le signe intégral) Soit I un intervalle de R.
Soit f : I × Ω → R une fonction mesurable telle que
– pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est continue sur I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
|f (t, ω)| ≤ g(ω)
Alors la fonction t 7→
R
Ω
lim
t→t0
pour presque tout ω ∈ Ω.
f (t, ω) dP (ω) est continue sur I : pour tout t0 ∈ I
Z
Ω
f (t, ω) dP (ω) =
Z
Ω
f (t0 , ω) dP (ω).
93
A.3. INTÉGRALES MULTIPLES
Théorème 23 (dérivée sous le signe intégral) Soit I un intervalle de R et
f : I × Ω → R une fonction mesurable telle que
– pour tout t ∈ I, ω 7→ f (t, ω) est intégrable,
– pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est dérivable en tout point t ∈ I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
∂
f (t, ω)
∂t
≤ g(ω)
pour presque tout ω ∈ Ω.
Alors en tout point t ∈ I,
d
dt
A.3
Z
Ω
f (t, ω) dP (ω) =
Z
∂
f (t, ω) dP (ω).
∂t
Ω
Intégrales multiples
Ici, (Ω1 , T1 , P1 ) et (Ω2 , T2 , P2 ) sont des espaces probabilisés.
Théorème 24 (Fubini, cas positif) Soit f : Ω1 × Ω2 → R+ une fonction
T1 ⊗ T2 -mesurable positive. Alors
RR
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) =
=
R
R
Ω1 f (ω1 , ω2 ) dP1 (ω1 ) dP2 (ω2 )
Ω2
R
R
Ω1
Ω2
f (ω1 , ω2) dP2 (ω2 ) dP1 (ω1 )
Commentaire : les intégrales peuvent valoir +∞.
Théorème 25 (Fubini, cas intégrable) Soit f : Ω1 × Ω2 → R une fonction
T1 ⊗ T2 -mesurable. On suppose que
Z Z
Ω1 ×Ω2
|f (ω1 , ω2)| dP1 ⊗ P2 (ω1 , ω2 ) < +∞.
Alors
RR
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 )
=
=
R
R
Ω2
Ω1
R
R
Ω1 f (ω1 , ω2 )dP1 (ω1 ) dP2 (ω2 )
Ω2 f (ω1 , ω2 )dP2 (ω2 ) dP1 (ω1 ).
Commentaire : la fonction f est dans L1 (Ω1 × Ω2 ).
Théorème 26 (changement de variables) Soient U, V deux ouverts de Rd ,
ϕ : U → V un difféomorphisme de classe C 1 , f : V → R une application
mesurable relativement à la mesure de Lebesgue sur V . On suppose f positive ou
intégrable. Alors
Z
Z
f (ϕ(u))Jϕ(u) du =
f (v) dv
U
V
où Jϕ(u) est le jacobien de ϕ : Jϕ(u) = |det(du ϕ)|.
Commentaire : pour le changement de variables en coordonnées polaires, u =
(r, θ), v = ϕ(u) = ϕ(r, θ) = (r cos(θ), r sin(θ)), du = drdθ et Jϕ(r, θ) = r.
94
A.4
ANNEXE A. RAPPELS D’INTÉGRATION
Espaces Lp
Rappel :
||f ||p =
Z
Ω
|f |p dP
1/p
pour 1 ≤ p < ∞.
||f ||∞ = inf{M ≥ 0 | pour presque tout ω ∈ Ω, |f (ω)| ≤ M}.
Théorème 27 (convergence normale dans Lp ) Soit p ∈ [1, ∞] et (fn ) une
suite de fonctions dans Lp (Ω). On suppose que
X
n∈N
||fn ||p < ∞.
P
Alors la série fn converge presque partout et en norme Lp vers une certaine
fonction f ∈ Lp (Ω).
Théorème 28 (inclusion des espaces Lp ) Soit p, q ∈ R tels que 1 ≤ p ≤ q ≤
∞. Alors
L∞ (Ω) ⊂ Lq (Ω) ⊂ Lp (Ω) ⊂ L1 (Ω).
De plus, pour tout f : Ω → R mesurable,
||f ||1 ≤ ||f ||p ≤ ||f ||q ≤ ||f ||∞.
Commentaire : le cas p = 2 est important : L∞ (Ω) ⊂ L2 (Ω) ⊂ L1 (Ω).
Théorème 29 (extraction de sous-suites) Soit (fn )n∈N une suite de fonctions de Lp (Ω) qui converge au sens de la norme Lp vers une certaine fonction
f dans Lp (Ω). Alors il existe une sous-suite nk telle que fnk converge presque
partout vers f .
Commentaire : en général, la convergence Lp n’implique pas la convergence
presque partout.
A.5
Inégalités
Théorème 30 (inégalité de Minkowski) Soit p ∈ [1, ∞] et f, g ∈ Lp (Ω).
Alors
||f + g||p ≤ ||f ||p + ||g||p.
Commentaire : c’est l’inégalité triangulaire pour les normes Lp .
95
A.6. FORMULE D’INVERSION DE FOURIER
Théorème 31 (inégalité de Cauchy-Schwarz) Soit f, g ∈ L2 (Ω). Alors f g
est intégrable et
Z
f g dP ≤ ||f ||2 ||g||2.
Ω
Commentaire : on a égalité si et seulement si f et g sont proportionnelles.
Théorème 32 (inégalité de Hölder) Soit p, q ∈ [1, ∞] tels que 1/p + 1/q =
1/r ainsi que f ∈ Lp (Ω), g ∈ Lq (Ω). Alors f g est dans Lr (Ω) et
||f g||r ≤ ||f ||p ||g||q .
Commentaire : l’inégalité de Cauchy-Schwarz correspond à p = q = 2, r = 1.
Théorème 33 (inégalité de Jensen) Rappelons que P (Ω) = 1. Soit ϕ : R →
R une fonction convexe et f : Ω → R telle que f et ϕ ◦ f sont intégrables. Alors
ϕ
A.6
Z
Ω
f dP ≤
Z
Ω
ϕ ◦ f dP
Formule d’inversion de Fourier
Le théorème suivant est une version ponctuelle de la formule d’inversion de Fourier ; c’est l’analogue du théorème de Dirichlet pour les séries de Fourier. On donne
un énoncé est un peu plus général que celui utilisé dans le cours. La convention
utilisée pour la transformée de Fourier est la suivante :
fˆ(t) =
Z
e−itx f (x)dx.
R
Lorsque f est intégrable, sa transformée fˆ est continue. Elle tend vers 0 en l’infini,
en vertu du lemme de Riemann-Lebesgue.
1
Lemme 6 (Riemann-Lebesgue) Soit f ∈ L . Alors lim
Z
t→∞ R
e−itx f (x) dx = 0.
Ce lemme se démontre par un calcul explicite lorsque f est la fonction indicatrice
d’un intervalle. Dans le cas général, il suffit d’approcher en norme L1 la fonction
f par une combinaison linéaire de fonctions indicatrices.
Théorème 34 (formule d’inversion de Fourier) Soit f ∈ L1 (R) et t ∈ R.
On suppose que f admet une limite à gauche et une limite à droite en t, notées
f (t− ) et f (t+ ). On suppose également que f est dérivable à droite et à gauche en
t. Alors,
Z A
dx
1 −
+
eitx fˆ(x)
f (t ) + f (t ) = lim
.
A→∞ −A
2
2π
96
ANNEXE A. RAPPELS D’INTÉGRATION
Lorsque f est intégrable de classe C 1 et que fˆ est intégrable, la formule devient
f (t) =
Z
1
2π
R
eitx fˆ(x) dx pour tout t ∈ R.
Remarquons que fˆ est intégrable dès que f est C 2 et f ′′ est intégrable. En effet,
fˆ est alors continue et majorée par une constante multipliée par t12 , comme le
montre l’égalité
1
fˆ(t) = − 2 fc′′ (t), t ∈ R∗ ,
t
qui s’obtient par une intégration par partie. En particulier, la formule d’inversion
est vraie pour toute fonction C ∞ à support compact.
Preuve de la formule d’inversion
Quitte à translater la variable, on peut supposer t = 0. On a
Z
dx Z
dx
dx Z 2 sin Ax
d
ˆ
1[−A,A](x)f (x)
=
=
f (x)
.
1[−A,A](x)f (x)
2π
2π
x
2π
R
R
R
On va montrer que
Z
lim
A→∞
∞
0
!
dx 1
2 sin Ax
f (x)
− f (0+ ) = 0.
x
2π 2
Faisons le changement de variable y = Ax et remarquons que
Z
∞
0
Z
sin Ax
dx =
x
Z
∞
0
π
sin y
dy = ,
y
2
Z
∞
2 sin Ax
f (x) − f (0+ ) dx
dx 1
et qu’ainsi
2 sin(Ax)
f (x)
− f (0+ ) =
.
x
2π 2
x
2π
0
0
Sans le facteur 1/x, il suffirait d’appliquer le lemme de Riemann-Lebesgue. On
découpe en deux l’intégrale pour analyser ce qui se passe près de 0 et loin de 0.
∞
Près de 0, on utilise l’hypothèse suivante :
f (x) = f (0+ ) + xf ′ (0+ ) + x ε(x), avec lim ε(x) = 0.
x→0
+
(0 )
est borné sur ]0, δ]. La fonction
Par conséquent, il existe δ > 0 tel que f (x)−f
x
+
f (x)−f (0 )
1]0,δ] (x) est intégrable et par le lemme de Riemann-Lebesgue,
x
lim
Z
δ
A→+∞ 0
sin(Ax)
f (x) − f (0+ )
dx = 0.
x
Loin de 0, sur [δ, +∞[, on a 0 < 1/x < 1/δ, et la fonction
intégrable. Par Riemann-Lebesgue,
lim
Z
A→+∞ δ
∞
sin(Ax)
f (x)
dx = 0.
x
f (x)
x
1[δ,∞[(x) est
A.6. FORMULE D’INVERSION DE FOURIER
97
Enfin, par définition des intégrales généralisées, on a :
lim
Z
A→+∞ δ
∞
Z ∞
sin(Ax)
sin y
+
f (0 ) dx = lim
dy f (0+ ) = 0.
A→+∞
x
y
Aδ
On démontre de même que lim
la preuve.
Z
0
A→∞ −∞
dx
1
2 sin Ax
f (x)
= f (0− ), ce qui termine
x
2π
2
98
A.7
ANNEXE A. RAPPELS D’INTÉGRATION
Exercices
exercice 1 Z n x n
1−
Calculer n→∞
lim
dx.
n
0
exercice 2
Z
Soit f : [0, 1] → R une fonction mesurée. Calculer lim
n→∞ 0
exercice 3
Montrer l’égalité
Z
1
0
Z
1
0
1
1
dx.
1 + n f (x)2
∞
X
1
1
dx dy =
.
2
1 − xy
n=1 n
exercice 4
Soit t > 0, calculer l’intégrale
Z
0
En déduire la valeur de
∞ sin x 2
R ∞ sin x 2
0
x
x
e−tx dx.
dx.
exercice 5
Calculer de deux manières différentes l’intégrale
En déduire la valeur de l’intégrale
R∞
0
ln(x)
(x2 −1)
dx.
exercice 6
On considère la série suivante, pour x ∈ [0, 1],
X
1
n
q
2n |x − sin(n)|
Z
0
∞Z ∞
0
1
dxdy.
(1 + y)(1 + x2 y)
.
Montrer qu’elle converge pour presque tout x ∈ [0, 1], mais qu’elle diverge pour
un ensemble dense de x ∈ [0, 1].
exercice 7
Z 1Z
Calculer l’intégrale
0
0
1
1
dx dy en effectuant le changement de variables
1 − xy
x = cos θ − t
y = cos θ + t
exercice 8
On se place sur R+ muni de la mesure de Lebesgue et on considère
1
.
f (x) =
x (1 + |ln(x)|)2
Montrer que :
– f ∈ L1 ([1, ∞[) et f ∈
/ Lp ([1, ∞[) si p < 1.
– f ∈ L1 ([0, 1]) et f ∈
/ Lp ([0, 1]) si p > 1.
– f ∈ L1 ([0, ∞[) et f ∈
/ Lp ([0, ∞[) si p 6= 1.
99
A.8. CONTRE-EXEMPLES
A.8
Contre-exemples
Vérifier les assertions suivantes en calculant les deux termes de chacune des
inégalités. Expliquer pourquoi les théorèmes classiques ne s’appliquent pas dans
chacun des cas.
Linéarité :
Z
1
1
−
dx
x(x + 1) x
1
0
6=
Z
0
1
Z
1
dx −
x(x + 1)
0
1
1
dx
x
Interversion limite intégrale :
lim
n→∞
Z
0
1
n
nx
dx
6=
Z
1
lim nxn
n→∞
0
dx
Interversion somme intégrale :
Z
0
1 +∞
X
k=0
xk − x2k − x2k+1
dx
6=
+∞
X
k=0
Z
1
xk − x2k − x2k+1 dx
0
Continuité sous le signe intégral :
lim
t→0
Z
0
∞
|t|
dx
1 + t2 x2
6=
Z
6=
Z
∞
lim
t→0
0
|t|
1 + t2 x2
dx
Intégrales multiples :
Z
1
∞
Z
1
∞
!
x−y
dx dy
max (x3 , y 3)
1
∞
Z
1
∞
!
x−y
dy dx
max (x3 , y 3)
100
ANNEXE A. RAPPELS D’INTÉGRATION
Annexe B
Formulaire
On collecte dans cette annexe les formules vues dans le cours.
B.1
Loi d’une variable aléatoire
Loi d’une variable aléatoire X
PX (A) = P (X ∈ A) = P (X −1(A))
Espérance
E(X) =
Z
Ω
X dP =
Z
x dPX (x)
R
Variance
V (X) = E (X − E(X))
V (X) = E(X 2 )−E(X)2 =
2
Z
Z
=
2
Ω
(X − E(X)) dP =
Z
X 2 dP −
Ω
Formule de transfert
E(g(X)) =
Z
Ω
Ω
X dP
g(X) dP =
2
Z
R
=
Z
Z
R
R
(x − E(X))2 dPX (x)
g(x) dPX (x)
Fonction de répartition
FX (x) = P (X ≤ x) =
Z
x
−∞
dPX (x)
Fonction caractéristique
itX
ϕX (t) = E(e
)=
Z
itX
Ω
e
101
dP =
Z
R
Z
x2 dPX (x)−
eitx dPX (x)
R
x dPX (x)
2
102
ANNEXE B. FORMULAIRE
Cas discret
X
PX =
pxk δxk ,
Z
R
V (X) =
X
k∈I
x dPX (x) =
E(g(X)) =
Ω
X
xk P (X = xk )
k∈I
X
(xk − E(X))2 P (X = xk ) =
Z
px k
xk ∈A
k∈I
E(X) =
X
PX (A) =
g(X) dP =
Z
k∈I
x2k P (X = xk ) −
g(x) dPX (x) =
R
X
X
xk P (X = xk )
k∈I
g(xk )P (X = xk )
k∈I
X
FX (x) =
P (X = xk )
xk ≤x
ϕX (t) =
X
eitxk P (X = xk )
k
Cas continu
dPX (x) = fX (x) dx,
PX (A) =
Z
E(X) =
R
V (X) =
Z
R
E(g(X)) =
Ω
g(X) dP =
Z
R
FX (x) =
ϕX (t) =
B.2
Z
A
fX (x) dx
x fX (x) dx
(x − E(X))2 fX (x) dx =
Z
Z
Z
R
x2 fX (x) dx −
g(x) dPX (x) =
Z
x
−∞
R
Z
R
Z
R
g(x)fX (x) dx
fX (x) dx
eitx fX (x) dx
Inégalités
Inégalité de Cauchy-Schwarz
Z
E(|XY |) =
Ω
|XY | dP ≤
sZ
Ω
X 2 dP
sZ
Ω
Y 2 dP = kXk2 kY k2
Inégalité de Markov
P (Y ≥ λ) ≤
E(Y )
λ
si λ > 0, Y ≥ 0.
2
x fX (x) dx
2
103
B.3. COUPLES DE VARIABLES ALÉATOIRES
Inégalité de Bienaymé-Tchebichev
P (|X − E(X)| ≥ t) ≤
V (X)
t2
si t > 0, E(X 2 ) < ∞.
Majoration Lp , 1 ≤ p ≤ ∞, pour l’espérance conditionnelle
si X est dans Lp .
kE(X | F )kp ≤ kXkp
Inégalité de Jensen conditionnelle
ϕ E(X | F ) ≤ E ϕ(X) | F
p.s.
si ϕ est convexe et X, ϕ(X) intégrables.
Inégalité maximale pour les martingales
P max |Mi | ≥ λ ≤
0≤i≤N
B.3
E(MN2 )
λ2
si (Mn ) est une martingale.
Couples de variables aléatoires
Soit X et Y deux variables aléatoires. La loi du couple (X, Y ) est donnée par
P(X,Y ) (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω | (X(ω), Y (ω)) ∈ A})
Covariance
Cov(X, Y ) = E(XY ) − E(X)E(Y ) =
Z
Ω
XY dP −
Z
Ω
X dP
Z
Ω
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
Formule de transfert
E(g(X, Y )) =
Z
Ω
g(X, Y ) dP =
Z
R2
g(x, y) dP(X,Y ) (x, y)
Espérance d’un produit de variables indépendantes
E(f (X)g(Y )) = E(f (X)) E(g(Y ))
Loi d’un couple de variables indépendantes
E(g(X, Y )) =
Z
R2
g(x, y) dP(X,Y ) (x, y) =
Cas discret
P(X,Y ) =
X
Z
R2
g(x, y) dPX (x) dPY (y)
pxi ,yj δ(xi ,yj )
i,j
P(X,Y ) (A) =
X
i,j tels que (xi ,yj )∈A
P (X = xi , Y = yj )
Y dP .
104
ANNEXE B. FORMULAIRE
E(g(X, Y )) =
Z
g(x, y) dP(X,Y ) (x, y) =
R2
X
g(xi , yj ) P (X = xi , Y = yj )
i,j
P (X = xi ) =
X
P (X = xi , Y = yj )
j
Cas continu
dP(X,Y ) (x, y) = fX,Y (x, y) dxdy,
E(g(X, Y )) =
Z
R2
g(x, y) dP(X,Y ) (x, y) =
fX1 (x1 ) =
B.4
P(X,Y ) (A) =
Z
R
Z
R2
Z
A
fX,Y (x, y) dxdy
g(x, y) fX,Y (x, y) dxdy
fX1 ,X2 (x1 , x2 ) dx2
Convergence de variables aléatoires
Convergence presque sûre
p.s.
Xn −−−−→ X
P ({ω ∈ Ω | Xn (ω) −−−−→ X(ω)}) = 1.
si
n→∞
n→∞
Convergence Lp
Lp
Xn −−−−→ X
kXn − Xkp −−−−→ 0.
si
n→∞
n→∞
Convergence en probabilité
proba
Xn −−
−−→ X
n→∞
si
P (|Xn − X| > ε) −−
−−→ 0 pour tout ε > 0.
n→∞
Convergence en loi
loi
Xn −−−−→ X
n→∞
B.5
si
Z
f dPXn −−−−→
n→∞
Z
f dPX pour toute f continue bornée.
Théorèmes limites
On pose Sn =
n
X
Xk . Alors E(Sn ) =
k=1
V (Sn ) =
n
X
E(Xk ). De plus,
k=1
n
X
V (Xk )
si les Xi sont indépendantes.
k=1
Loi faible des grands nombres
Si les Xi sont i.i.d. intégrables,
Sn proba
−−−−→ E(X1 )
n n→∞
105
B.6. ESPÉRANCE CONDITIONNELLE
Loi forte des grands nombres
Sn p.s.
−−−−→ E(X1 )
n n→∞
Si les Xi sont i.i.d. intégrables,
Théorème de la limite centrée
S
loi
√n −−−−→ N (0, σ 2)
n→∞
n
Si les Xi sont i.i.d. centrées telles que 0 < σ(Xi )2 < ∞,
Convergence des martingales bornées dans L2
Si Mn est une martingale et kMn k2 ≤ C, Mn converge p.s. et L2
Convergence de la somme dans le cas de variance bornée
X
Si les Xi sont indépendantes centrées et
Théorème des trois séries
V (Xi ) < ∞, Sn converge p.s. et L2
Soit Yi = Xi 1(|Xi |≤1) . Si les Xi sont indépendantes,
Sn converge p.s. ⇔
X
X
P (|Xi | ≥ 1),
E(Yi ),
Convergence des espérances conditionnelles
X
V (Yi ) convergent.
Si X est de carré intégrable et les Fi sont croissantes et engendrent T ,
p.s. et L2
E(X | Fn ) −−
−−→ X
n→∞
B.6
Espérance conditionnelle
Caractérisation de l’espérance conditionnelle
E(X | F ) est F -mesurable
Propriétés
E(E(X | F ) Y ) = E(XY ) pour tout Y F -mesurable
E(E(X | F )) = E(X)
E(Y X | F ) = Y E(X | F )
si Y est F -mesurable
E(E(X | F1 ) | F2 ) = E(E(X | F2 ) | F1 ) = E(X | F1 )
Conditionnement relativement à une variable aléatoire
Z
f (x) E(g(Y ) | X = x) dPX (x) =
Cas discret
E(g(Y ) | X = x) =
Z
si F1 ⊂ F2
f (x) g(y) dP(X,Y ) (x, y) si f est bornée
Z
E(g(Y ) 1(X=x) )
1
=
g(Y ) dP
P (X = x)
P (X = x) (X=x)
Cas continu
E(g(Y ) | X = x) =
R
R
g(y)fX,Y (x, y) dy
R fX,Y (x, y) dy
R
106
B.7
ANNEXE B. FORMULAIRE
Martingales
Caractérisation
Mn est Fn − mesurable,
E(Mn+1 | Fn ) = Mn pour tout n.
Propriétés
E(Mn+k | Fn ) = Mn
pour tout k > 0.
E(Mn ) = E(M0 ) pour tout n.
Annexe C
Références
Références en français concernant les probabilités
Jean Jacod, Philip Protter
L’essentiel en théorie des probabilités
Cassini. ISBN 978-2842250508
Dominique Foata, Aimé Fuchs
Calcul des probabilités
Dunod. ISBN 978-2100574247
Références en anglais concernant les probabilités
Rick Durrett
Probability : theory and examples.
Cambridge University Press. ISBN 978-0-521-76539-8
Patrick Billingsley
Probability and measure.
John Wiley & Sons, Inc. ISBN 0-471-00710-2
Référence en français pour la théorie de l’intégration
Marc Briane, Gilles Pagès
Théorie de l’intégration, cours et exercices
Vuibert. ISBN 978-2311402261
Référence en anglais pour la théorie de l’intégration
Richard Mansfield Dudley
Real analysis and probability.
Cambridge University Press. ISBN 0-521-00754-2
Yves Coudène, Janvier 2015.
107