Cours de probabilités, master 1

Transcription

Cours de probabilités, master 1
Yves Coudène
19 janvier 2015
2
Table des matières
Introduction
5
Notations
6
1 Formalisme de Kolmogorov
1.1 Le cas discret : Ω fini ou dénombrable .
1.2 Le cas continu : Ω = R ou Rd . . . . .
1.3 Le cas des espaces produits . . . . . . .
1.4 Exercices . . . . . . . . . . . . . . . . .
.
.
.
.
7
7
8
9
11
.
.
.
.
.
.
13
13
13
15
16
19
21
.
.
.
.
23
23
24
25
28
.
.
.
.
29
29
30
36
40
5 Convergence de suites de variables aléatoires
5.1 Les différents types de convergence. . . . . . . . . . . . . . . . . .
5.2 Fonction caractéristique et transformée de Fourier . . . . . . . . .
5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . .
41
41
43
45
.
.
.
.
2 Variables aléatoires
2.1 Définition d’une variable aléatoire . . . .
2.2 Espérance et variance . . . . . . . . . . .
2.3 Inégalités . . . . . . . . . . . . . . . . .
2.4 Loi d’une variable aléatoire . . . . . . . .
2.5 Loi d’un multiplet de variables aléatoires
2.6 Exercices . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Indépendance
3.1 Indépendance d’événements et de variables aléatoires
3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . .
3.3 Loi d’un multiplet de variables indépendantes . . . .
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .
4 Loi
4.1
4.2
4.3
4.4
des grands nombres
Loi faible des grands nombres
Loi forte des grands nombres .
Illustration numérique . . . .
Exercices . . . . . . . . . . . .
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
TABLE DES MATIÈRES
5.4
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Théorème de la limite centrée
6.1 Fonction caractéristique de la loi normale
6.2 Théorème de la limite centrée . . . . . .
6.3 Illustration numérique . . . . . . . . . .
6.4 Exercices . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
.
.
.
.
53
53
54
56
61
7 Espérance conditionnelle
7.1 Définition de la notion d’espérance conditionnelle . . .
7.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Propriétés de l’espérance conditionnelle . . . . . . . . .
7.4 Conditionnement relativement à une variable aléatoire
7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
66
69
74
8 Théorie des martingales
8.1 La notion de martingale . . . . . . . . . . .
8.2 Convergence des martingales . . . . . . . . .
8.3 Séries de variables aléatoires indépendantes
8.4 Convergence des espérances conditionnelles .
8.5 Temps d’arrêt . . . . . . . . . . . . . . . . .
8.6 Illustration par une marche aléatoire . . . .
8.7 Exercices . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
78
80
83
86
87
90
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Rappels d’intégration
A.1 Théorèmes de convergence . . . . . .
A.2 Intégrales dépendant d’un paramètre
A.3 Intégrales multiples . . . . . . . . . .
A.4 Espaces Lp . . . . . . . . . . . . . . .
A.5 Inégalités . . . . . . . . . . . . . . .
A.6 Formule d’inversion de Fourier . . . .
A.7 Exercices . . . . . . . . . . . . . . . .
A.8 Contre-exemples . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
93
94
94
95
98
99
B Formulaire
B.1 Loi d’une variable aléatoire . . . . .
B.2 Inégalités . . . . . . . . . . . . . .
B.3 Couples de variables aléatoires . . .
B.4 Convergence de variables aléatoires
B.5 Théorèmes limites . . . . . . . . . .
B.6 Espérance conditionnelle . . . . . .
B.7 Martingales . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
103
104
104
105
106
C Références
.
.
.
.
.
.
.
107
Introduction
Ces notes proviennent d’un cours de Master première année donné à l’université
de Brest sur la période 2011-2014. Le cours était composé de douze séances de
deux heures et portait sur les théorèmes de convergence en théorie des probabilités. La frappe du texte a bénéficié de l’aide de Sabine Chanthara, je l’en remercie
vivement.
Ce cours est destiné à des étudiants ayant déjà suivi un cours d’intégrale de
Lebesgue. Une annexe en fin d’ouvrage rappelle les résultats d’intégration qui
sont utilisés dans le corps de ce texte. Il est aussi important d’être familier avec
les bases de la théorie hilbertienne que nous appliquons à l’espace L2 à plusieurs
reprises, par exemple pour définir la notion d’espérance conditionnelle. Enfin, un
minimum de familiarité avec la théorie des probabilités discrètes, comme on peut
la voir au lycée, est fortement conseillé.
On s’est concentré sur les théorèmes de convergence classiques, essentiellement
dans le cadre indépendant : loi faible et forte des grands nombres, théorème de
la limite centrée, convergence des martingales bornées dans L2 , théorème des
trois séries, loi du 0-1 de Kolmogorov. Un résumé des théorèmes et des formules
présentés dans le cours se trouve en annexe.
Le texte est organisé de façon à parvenir assez rapidement à la preuve de la loi
forte des grands nombres, au chapitre 4, qui est faite pour des variables de carré
intégrable. Le cas intégrable est traité plus tard, dans le chapitre concernant les
martingales, comme corollaire des théorèmes de convergence pour ces martingales.
Le second objectif est le théorème de la limite centrée, atteint au chapitre 6. Il
faut pour cela étudier en détail les différents types de convergence et les relations
qui s’établissent entre eux. On termine par la notion de martingale, qui permet
de démontrer quelques résultats classiques de convergence, comme le théorème
des trois séries et la loi du 0-1 de Kolmogorov. La théorie des martingales et des
temps d’arrêt est illustrée par une marche aléatoire symétrique sur l’espace des
entiers.
La théorie des chaı̂nes de Markov n’est pas abordée dans ce texte. De même,
on ne parle pas de sous et de sur-martingales, et la notion de convergence étroite
est étudiée pour des mesures de probabilité définies sur R uniquement, ce qui
permet quelques simplifications dans les preuves.
5
6
TABLE DES MATIÈRES
Notations
Les ensembles des nombres entiers, entiers relatifs, rationnels, réels et complexes
sont notés respectivement N, Z, Q, R, C.
On travaille en genéral sur un espace probabilisé (Ω, T , P ).
1A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction indicatrice de A
B(x, r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boule ouverte de centre x de rayon r
C ∞ . . . . . . . . . . . . . . . . . . . . . . . . . ensemble des fonctions indéfiniment différentiables
Cov(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . covariance de X et Y
δω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de Dirac au point ω
E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance de X
E(X | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance conditionnelle de X sachant F
F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
FX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de répartition
Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .espace des classes de fonctions Lp
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite supérieure
lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .limite inférieure
µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure
N∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nombres entiers non nuls
Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ensemble de résultats
◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . composition
ø . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ensemble vide
P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de probabilité
PX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi de la variable aléatoire X
P(X,Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi du couple (X, Y )
P (A | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . probabilité conditionnelle de A sachant F
P ⊗ Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .produit des probabilités P et Q
p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . presque partout
Sn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . somme de X1 à Xn
σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . écart-type de X
T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu
T1 ⊗ T2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des tribus T1 et T2
m ∧ n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .minimum de m et n
V (X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance de X
X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variable aléatoire
hX, Y i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit scalaire dans L2
kXkp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . norme Lp de X
Chapitre 1
Formalisme de Kolmogorov
Nous désignons par épreuve une expérience ou une observation réalisée dans
des conditions bien définies (protocole expérimental) reproductible, et dont le
résultat est l’un des éléments d’un ensemble déterminé (univers). Le but de la
théorie des probabilités est d’associer à certains sous-ensembles de cet univers,
appelés événements, un nombre réel compris entre 0 et 1, qui reflète notre degré
de confiance dans la réalisation de l’événement une fois que l’épreuve a eu lieu.
La théorie moderne des probabilités est formalisée par Kolmogorov en 1933, en
se basant sur la théorie de la mesure. La notion clef est celle d’espace probabilisé.
Définition 1 Un espace probabilisé (Ω, T , P ) est la donnée :
– d’un ensemble Ω appelé univers, dont les éléments sont appelés résultats,
– d’une tribu T de parties de Ω, dont les éléments sont appelés événements,
– d’une mesure P définie sur la tribu T , qui satisfait P (Ω) = 1.
Commençons par décrire trois exemples importants d’espaces probabilisés.
1.1
Le cas discret : Ω fini ou dénombrable
Pour T , on prend l’ensemble des parties de Ω : T = P(Ω). Se donner une probabilité P : T → [0, 1] revient à se donner une famille de nombres réels pω , ω ∈ Ω,
qui satisfait
– 0 ≤ pω ≤ 1 pour tout ω ∈ Ω,
–
X
pω = 1.
ω∈Ω
La correspondance entre P et les pω est donnée par
pω = P ({ω}),
P (A) =
X
ω∈A
7
pω .
8
CHAPITRE 1. FORMALISME DE KOLMOGOROV
Notons δω la mesure de Dirac au point ω :
∀A ∈ T , δω (A) =
si ω ∈ A
sinon
1
0
X
On peut exprimer la probabilité P comme une somme de Dirac : P =
pω δω .
ω∈Ω
On a alors, pour g : Ω → R mesurable, positif ou P -intégrable,
Z
Ω
g dP =
X
pω g(ω).
ω∈Ω
Exemples
• Loi uniforme sur Ω = {1, 2, ..., n} :
pω = 1/n,
P (A) =
#A
.
#Ω
Le lancé d’un dé à 6 faces bien équilibré est modélisé par un tel espace probabilisé
( n = 6).
• Loi binomiale de paramètres n ∈ N∗ , p ∈ [0, 1], sur Ω = {0, ..., n} :
pk = P ({k}) = Cnk pk (1 − p)n−k
pour k ∈ {0, ..., n}.
pk est la probabilité d’obtenir k succès exactement au cours de n tirages indépendants, sachant que la probabilité de succès lors d’un tirage est égale à p.
• Loi de Poisson sur Ω = N de paramètre λ > 0 :
pk = P ({k}) =
1.2
λk −λ
e pour k ∈ N.
k!
Le cas continu : Ω = R ou Rd
Ici T est la tribu engendrée par les intervalles de R ou les rectangles de Rd . Ses
éléments sont appelés boréliens. On peut définir une mesure de probabilité sur Ω
à partir d’une densité f : Ω → R+ satisfaisant les conditions suivantes :
– f est borélienne,
– ∀ω ∈ Ω, f (ω) ≥ 0,
R
– Ω f dλ = 1.
On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité P
associée à la densité f est donnée par
P (A) =
Z
A
f dλ =
Z
A
f (x)dx.
1.3. LE CAS DES ESPACES PRODUITS
9
On a alors pour toute fonction mesurable g : Ω → R positive ou P -intégrable,
Z
Ω
g dP =
Z
Ω
g(x)f (x) dx.
Exemples
– Probabilité uniforme sur [a, b], avec a, b ∈ R , a < b :
f=
1
1[a,b]
b−a
– Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 :
f (x) = √
(x−m)2
1
e− 2σ2
2πσ 2
Elle est dite centrée si m = 0 et σ = 1.
– Probabilité exponentielle de paramètre l > 0 :
f (x) = l elx 1R+ (x)
1.3
Le cas des espaces produits
On s’intéresse à une épreuve modélisée par un espace probabilisé (Ω, T , P ) et on
veut répéter cette épreuve plusieurs fois de manière indépendante, disons n fois,
n ∈ N∗ . Pour cela, on considère :
• l’univers Ωn = Ω × Ω × ... × Ω, ses éléments sont des multiplets (ω1 , ω2 , ..., ωn ) ∈
Ωn . L’élément ω1 est le résultat obtenu lors de la première épreuve, ω2 lors de la
seconde épreuve etc.
• La tribu produit T ⊗ T ⊗ ...T = T ⊗n . C’est la tribu engendrée par les parties
de Ωn de la forme A1 × A2 × ... × An , avec Ai ∈ T pour tout i.
• Dans le cas indépendant, la mesure produit P ⊗ ... ⊗ P sur cette tribu. Cette
mesure P ⊗n est l’unique mesure vérifiant
P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An )
pour tout A1 , ..., An ∈ T .
On va chercher à étudier le comportement asymptotique d’une répétition d’épreuves, effectuées de manière indépendante, quand n tend vers l’infini. Pour cela,
nous introduisons un nouvel espace probabilisé.
• L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω.
10
• On se place sur la tribu produit T ⊗N . C’est la tribu de parties de ΩN engendrée
par les cylindres de la forme
CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai }
avec n ∈ N et A0 , ..., An ∈ T .
• Dans le cas indépendant, on considère sur T ⊗N la mesure produit P ⊗N , caractérisée de la façon suivante :
Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il existe
une unique mesure de probabilité sur T ⊗N , notée P ⊗N , qui satisfait
P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An )
pour tout n ∈ N et A0 , ..., An ∈ T .
L’exemple le plus simple est donné par la répétition un nombre arbitrairement
grand de fois du lancer d’une pièce de monnaie. L’univers est donné par l’ensemble
de toutes les suites de pile ou face : {pile, f ace}N . Cet ensemble est muni de la
tribu engendrée par tous les sous-ensembles de la forme
{(ωi )i∈N | ω0 ∈ A0 , ..., ωm ∈ Am }
avec m ∈ N et Ai ∈ {pile, f ace} pour i allant de 0 à m. Si la pièce est bien
équilibrée, on peut prendre comme probabilité le produit P ⊗N , où P ({f ace}) =
P ({pile}) = 1/2.
11
1.4. EXERCICES
1.4
Exercices
exercice 1
Soit (An )n∈N une suite d’événements deux à deux disjoints sur un espace probabilisé (Ω, T , P ). Montrer que lim P (An ) = 0.
n→∞
exercice 2
Soit A1 , ..., An des événements tels que P (Ak ) > 1 − n1 pour tout k de 1 à n.
Montrer qu’il existe un résultat ω ∈ Ω qui appartient à tous les Ak .
Soit (Ak )k∈N une suite d’événements. Montrer que si P (Ak ) ne converge pas vers
0, alors il existe un résultat qui appartient à une infinité de Ak .
exercice 3
Soit c > 0 et A1 , ..., An ⊂ Ω des événements tels que P (Ai ) ≥ c pour tout i.
Montrer qu’il existe deux indices j, k distincts tels que
P (Aj ∩ Ak ) ≥
Indication : s’intéresser à l’intégrale de (
P
nc2 − c
.
n−1
1Ai )2 et utiliser une inégalité fameuse.
exercice 4
Soit P une mesure de probabilité définie sur la tribu des boréliens de Rd et B(x, r)
la boule euclidienne de rayon r centrée en x ∈ Rd .
– Montrer que P (B(0, r)) converge vers 1 quand r tend vers l’infini.
– Soit r0 ≥ 0 et xn ∈ Rd une suite telle que kxn k −−−−→ ∞. Montrer que
n→∞
P (B(xn , r0 )) −−−−→ 0.
n→∞
exercice 5
Parmi ces fonctions, quelles sont celles qui sont des densités de probabilité ?
f (x) =
1 1
π 1+x2
f (x) = 21 e−|x|
f (x) = e−x 1[0,∞[ (x)
f (x) = x2 1[0,1] (x)
f (x) = sin(x) 1[0,3π/2] (x)
f (x) = (1 + cos(x)) 1[0,π] (x)
exercice 6
Pour tout borélien A ⊂ R, on pose
1
µ(A) = √
2 π
Z
A
2
e−x dx + 1A (0)/2
– Montrer que µ est une mesure de probabilité.
On vérifiera en particulier qu’elle est bien σ-additive.
R
– Soit f : R → R une fonction borélienne bornée. Donner une formule pour f dµ.
12
Chapitre 2
Variables aléatoires
En pratique, on s’intéresse à certaines quantités numériques attachées aux résultats obtenus à l’issue de notre épreuve. Pour modéliser cela, on introduit la notion
de variable aléatoire.
2.1
Définition d’une variable aléatoire
Définition 2 Soit (Ω, T , P ) un espace probabilisé. Par définition, une variable
aléatoire X : Ω → R est une fonction mesurable définie sur Ω, à valeurs réelles :
pour tout intervalle I ⊂ R, l’image réciproque X −1 (I) de cet intervalle est dans
T.
Pour A ⊂ R borélien, on pose
X −1 (A)
= {ω ∈ Ω | X(ω) ∈ A} = (X ∈ A)
−1
X ([a, b]) = (a ≤ X ≤ b)
X −1 ([a, ∞[) = (a ≤ X) = (X ≥ a)
On a alors
P (X −1(A)) = P (X ∈ A).
C’est la probabilité d’obtenir, à l’issue de l’épreuve, un résultat pour lequel la
valeur de X est dans A. La quantité P (X ∈ A) est bien définie dès que A est
borélien car l’image réciproque d’un borélien par une application mesurable est
mesurable (c’est-à-dire est dans T ).
2.2
Espérance et variance
R
Définition 3 Une variable aléatoire X est dite intégrable si Ω |X| dP < +∞.
Dans ce cas l’intégrale de X est bien définie, c’est l’espérance de X.
E(X) =
Z
13
Ω
X dP.
14
CHAPITRE 2. VARIABLES ALÉATOIRES
R
La variable aléatoire X est dite de carré intégrable si Ω X 2 dP < +∞.
Dans ce cas X est intégrable et on définit la variance de X par la formule
V (X) = E (X − E(X))2 .
On remarque qu’une variable aléatoire de carré intégrable est intégrable en intégrant l’inégalité 2X ≤ 1 + X 2 . On peut aussi faire appel à l’inégalité de CauchySchwarz : pour toutes variables aléatoires X, Y : Ω → R,
Z
Ω
|XY | dP ≤
sZ
Ω
X 2 dP
sZ
Ω
Y 2 dP .
En prenant Y = 1 dans cette formule, on obtient la majoration E(|X|) ≤
Développons le carré qui apparaı̂t dans la définition de la variance.
q
E(X 2 ).
E (X − E(X))2 = E X 2 − 2XE(X) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 .
Nous avons obtenu la formule suivante, très utile pour calculer V (X) :
Proposition 1 V (X) = E(X 2 ) − E(X)2 .
X
Dans le cas discret, la variable aléatoire X est intégrable si
pω |X(ω)| < +∞
ω∈Ω
et dans ce cas
X
E(X) =
pω X(ω).
ω∈Ω
Dans le cas continu, en notant f la densité de P , la variable aléatoire X est
R
intégrable si Rd |X(ω)|f (ω)dω < +∞ et dans ce cas
E(X) =
Z
Rd
X(ω)f (ω)dω.
Propriétés :
Soit λ ∈ R et X, Y deux variables aléatoires intégrables.
– E(λX + Y ) = λE(X) + E(Y ).
(linéarité)
– Si X ≤ Y , c’est-à-dire si pour tout ω ∈ Ω, X(ω) ≤ Y (ω), alors
E(X) ≤ E(Y ).
(monotonie)
– Pour tout événement A ∈ T , P (A) = E(1A ).
– Soit (Xn ) une suite de variables aléatoires qui converge de manière croissante
vers X : pour presque tout ω ∈ Ω, (Xn (ω))n∈N est croissante et Xn (ω) → X(ω).
Alors
E(Xn ) −−−−→ E(X).
n→∞
15
2.3. INÉGALITÉS
– Soit (Xn ) une suite de variable aléatoires qui converge vers X presque partout.
On suppose qu’il existe Y intégrable telle que |Xn | ≤ Y pour tout n ∈ N. Alors
E(Xn ) −−−−→ E(X).
n→∞
– V (λX) = λ2 V (X).
– V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
en notant
Cov(X, Y ) = E(XY ) − E(X)E(Y )
la covariance de X, Y qui est bien définie dès que X, Y sont de carrés intégrables.
Ces propriétés sont des conséquences immédiates des définitions. Les deux
théorèmes de passage à la limite découlent du théorème de convergence croissante et du théorème de convergence dominée.
2.3
Inégalités
On s’intéresse maintenant à deux inégalités classiques qui donnent quelques informations sur la manière dont les valeurs d’une variable aléatoire se répartissent.
Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabilisé, Y :
Ω → R+ une variable aléatoire positive. Alors, pour tout λ > 0,
P (Y ≥ λ) ≤
E(Y )
.
λ
Preuve
On a l’inégalité λ1(Y ≥λ) ≤ Y ce qui donne, par monotonie,
E(λ1(Y ≥λ) ) ≤ E(Y ).
On conclut en remarquant que
E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ).
Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un espace
probabilisé, X : Ω → R une variable aléatoire de carré intégrable. Alors, pour
tout t > 0,
V (X)
P (|X − E(X)| ≥ t) ≤
.
t2
16
Cette inégalité peut se récrire à l’aide de l’écart-type σ(X) =
suit :
1
P X∈
/ ] E(X) − tσ(X), E(X) + tσ(X) [ ≤ 2
t
q
V (X) comme
Application
Si X est de carré intégrable, la probabilité d’obtenir à l’issue de l’épreuve une
valeur à plus de 10 fois l’écart-type de l’espérance est inférieure à 1/100.
Preuve
L’égalité de Bienaymé-Tchebichev se déduit de l’inégalité de Markov en prenant
Y = (X − E(X))2 et λ = t2 dans cette inégalité. On a alors
P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t),
E((X − E(X))2 )
V (X)
E(Y )
=
=
.
2
λ
t
t2
La formule est démontrée.
2.4
Loi d’une variable aléatoire
À chaque variable aléatoire X définie sur un espace probabilisé (Ω, T , P ), on peut
associer une probabilité PX qui rend compte de la distribution de ses valeurs, en
procédant de la façon suivante.
Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable
aléatoire. La loi de X est la probabilité définie sur la tribu des boréliens de R par
la formule :
PX (A) = P (X ∈ A) = P (X −1(A))
pour tout A ⊂ R borélien.
La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe un
ensemble fini ou dénombrable D ⊂ R tel que PX (D) = 1. Indiçons ses éléments
par un ensemble I ⊂ N : D = {xi }x∈I . On est presque sûr d’obtenir un résultat
qui se trouve dans cet ensemble de valeurs {xi }i∈I et on peut écrire
PX =
X
pxi δxi
i∈I
où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi .
17
2.4. LOI D’UNE VARIABLE ALÉATOIRE
La variable aléatoire X est dite continue si PX est une loi continue, auquel cas
sa densité est notée fX . C’est une fonction borélienne positive dont l’intégrale
vaut un. On a alors
PX (A) = P (X ∈ A) =
Z
A
fX (x) dx
pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien sûr
nulle pour tout x ∈ R.
L’espérance et la variance d’une variable aléatoire peuvent s’exprimer en fonction de sa loi uniquement. En conséquence, deux variables qui ont même loi ont
même espérance et même variance.
Proposition 2 Si X est intégrable,
E(X) =
Z
x dPX (x).
R
Si X est de carré intégrable,
V (X) =
Z
R
(x − E(X))2 dPX (x).
Cette proposition se déduit de la formule de transfert.
Proposition 3 (formule de transfert) Soit g : R → R borélienne, positive
ou PX -intégrable. Alors
Z
Ω
g(X) dP =
Z
R
g(x) dPX (x).
Preuve de la formule de transfert
– C’est vrai pour g = 1A , A borélien de R :
Z
Z
1A (X) dP = P (X ∈ A) = P (X −1(A)),
1A (x) dPX (x) = PX (A) = P (X ∈ A).
– C’est vrai pour les combinaisons linéaires de fonctions indicatrices g =
par linéarité de l’intégrale.
P
c i 1A i
– Une combinaison linéaire de fonctions indicatrices s’appelle une fonction étagée.
Toute fonction positive mesurable peut être approchée de manière croissante par
une suite de fonctions étagées. Pour g ≥ 0, borélienne, on prend gn → g , gn
étagées, et on passe à la limite
Z
gn (X) dP −−−−→
n→∞
Z
g(X) dP
18
Z
gn (x) dPX (x) −−−−→
n→∞
Z
g(x) dPX (x)
en appliquant le théorème de convergence croissante, si bien que
R
g(x) dPX (x).
R
g(X) dP =
– Pour g intégrable, on écrit g comme la différence de deux fonctions positives
intégrables et on utilise la linéarité de l’intégrale pour conclure.
Exemple
Si X est variable aléatoire obéissant à une loi exponentielle de paramètre l > 0 ,
PX est associée à la densité fX (x) = le−lx 1R+ (x) et on a :
PX ([a, b]) = P (X ∈ [a, b]) =
Z
[a,b]
fX (x) dx =
Z
b
a
lelx dx
dès que 0 ≤ a ≤ b.
Il est parfois plus pratique de travailler avec des fonctions plutôt qu’avec des
lois de probabilité. Ceci nous amène à la notion de fonction de répartition.
Définition 5 La fonction de répartition de X est définie par
FX (x) = P (X ≤ x).
On a alors l’égalité, pour tout a, b ∈ R,
P (X ∈ ]a, b]) = FX (b) − FX (a).
Comme une mesure de probabilité définie sur la tribu des boréliens de R est uniquement déterminée par ses valeurs sur les intervalles, la fonction de répartition
caractérise la loi de X de manière unique : si deux variables aléatoires ont même
fonction de répartition, elles ont même loi.
FX = FY ⇔ PX = PY .
La fonction de répartition possède les propriétés suivantes :
– elle est croissante, à valeur dans l’intervalle [0, 1],
– lim FX (x) = 0,
x→−∞
lim FX (x) = 1,
x→+∞
– elle est continue à droite et possède une limite à gauche en tout point,
– l’ensemble des points de discontinuité de FX est composé des x ∈ R tels que
P (X = x) > 0, il est donc dénombrable.
2.5. LOI D’UN MULTIPLET DE VARIABLES ALÉATOIRES
2.5
19
Loi d’un multiplet de variables aléatoires
Les considérations précédentes se généralisent à des couples et des multiplets de
variables aléatoires. Soient X1 , ...Xn des variables aléatoires à valeurs réelles. On
peut considérer ces variables comme une unique variable aléatoire à valeurs dans
Rn .
(X1 , X2 , ..., Xn ) : Ω → Rn .
On pose, pour A borélien de Rn et A1 , ..., An des boréliens de R,
((X1 , ..., Xn ) ∈ A) = {ω ∈ Ω | (X1 (ω), X2(ω), ..., Xn (ω)) ∈ A},
(X1 ∈ A1 , ..., Xn ∈ An ) = ((X1 , ..., Xn ) ∈ A1 × ... × An )
= {ω
\∈ Ω | X1 (ω) ∈ A1 , ..., Xn (ω) ∈ An }
(Xi ∈ Ai ).
=
1≤i≤n
Définition 6 Soit (Ω, T , P ) un espace probabilisé, X1 , ..., Xn des variables aléatoires. La loi du multiplet (X1 , ..., Xn ) est la mesure de probabilité définie sur la
tribu des boréliens de Rn par la formule :
P(X1 ,...,Xn) (A) = P ((X1 , ..., Xn ) ∈ A) = P ({ω ∈ Ω | (X1 (ω), ..., Xn(ω)) ∈ A})
pour tout A ⊂ Rn borélien.
La loi du multiplet est discrète si la loi de P(X1 ,...,Xn) est discrète : il existe
un ensemble fini ou dénombrable D ⊂ Rn tel que P(X1 ,...,Xn) (D) = 1. Elle est
dite continue si P(X1 ,...,Xn) est une loi continue, auquel cas sa densité est notée
fX1 ,...,Xn . Cette densité est une fonction borélienne, définie de Rn dans R+ , positive, d’intégrale 1, et nous avons la relation
P ((X1 , ..., Xn ) ∈ A) = P(X1 ,...,Xn) (A) =
Z
A
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxn .
La formule de transfert se généralise à n variables.
Proposition 4 (Formule de transfert) Soit g : Rn → R borélienne, positive
ou P(X1 ,...,Xn) -intégrable. Alors
Z
Ω
g(X1 , ..., Xn ) dP =
Z
Rn
g(x1 , ..., xn ) dPX1 ,...,Xn (x1 , ..., xn ).
La preuve est similaire à celle faite précédemment dans le cas d’une variable, on
procède en approchant g par une fonction étagée.
Les lois individuelles des Xi peuvent se déduire de la loi du multiplet en remarquant que
P (Xi ∈ A) = P (X1 ∈ Ω, ..., Xi−1 ∈ Ω, Xi ∈ A, Xi+1 ∈ Ω, ..., Xn ∈ Ω)
= P(X1 ,...,Xn) (Ω × ... × Ω × A × Ω × ... × Ω).
20
On dit que les lois PXi sont les lois marginales de la distribution (X1 , ..., Xn ).
Dans le cas continu, la densité des Xi se déduisent de celle du multiplet grâce
à la formule suivante :
PXi (I) =
Z Z
I
Rn−1
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn ) dxi
où I est un intervalle ou un borélien de R, si bien que
fXi (xi ) =
Z
Rn−1
fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn .
21
2.6. EXERCICES
2.6
Exercices
exercice 1
Soit X une variable aléatoire strictement positive telle que X et 1/X sont intégrables.
Montrer que E(X)E(1/X) ≥ 1.
exercice 2
Soit X une variable aléatoire de carré intégrable. Montrer que pour tout c ∈ R,
V (X) ≤ E((X − c)2 ).
Soit a, b ∈ R. Montrer que
P (X ≥ a) ≤
E((X + b)2 )
(a + b)2
En déduire l’inégalité de Cantelli, valide pour tout t > 0 :
P X − E(X) ≥ t σ(X) ≤
1
.
1 + t2
exercice 3
Soit X une variable aléatoire telle que 0 ≤ X ≤ 1. Montrer que V (X) ≤ 1/4.
À quelle condition a-t-on égalité ?
exercice 4
Soit X une variable aléatoire satisfaisant P (X = x) = 0 pour tout x ∈ R et FX
sa fonction de répartition. Montrer que la variable aléatoire FX (X) obéit à la loi
uniforme sur ]0, 1[.
Étant donnée une variable aléatoire Y de loi uniforme sur ]0, 1[ et ν une mesure
de probabilité sur la tribu des boréliens de R, construire une variable aléatoire
X de loi ν en composant Y par une fonction bien choisie.
exercice 5
Soit X une variable aléatoire intégrable. Montrer les assertions suivantes.
– lim
Z
N →∞ (|X|>N )
|X| dP = 0.
– Pour tout ε > 0, il existe δ > 0 tel que pour tout A ∈ T ,
P (A) ≤ δ implique
Z
A
|X| dP ≤ ε.
exercice 6
Soit X une variable aléatoire réelle positive, de fonction de répartition FX . Montrer que pour 0 < p < ∞,
E(X p ) =
Z
0
∞
p tp−1 P (X > t) dt =
Z
0
∞
p tp−1 (1 − FX (t)) dt.
Soit X1 , X2 , ...Xn des variables aléatoires indépendantes de loi uniforme sur [0, 1].
Calculez E(min(X1 , X2 , ...Xn )) et E(max(X1 , X2 , ...Xn )).
22
Chapitre 3
Indépendance
On a vu comment modéliser une épreuve répétée un nombre fini ou infini de fois
de manière indépendante, en prenant pour univers un espace produit et pour
probabilité une probabilité produit. On va préciser cette notion d’indépendance
en l’appliquant à des événements, des tribus ou des variables aléatoires.
3.1
Indépendance d’événements et de variables
aléatoires
On commence par définir la notion d’événements indépendants.
Définition 7 Soit (Ω, T , P ) un espace probabilisé. Deux événements A, B ∈ T
sont dits indépendants entre eux si
P (A ∩ B) = P (A)P (B).
Soit (Ai )i∈I une famille d’événements. Ces événements sont dits indépendants
dans leur ensemble si
∀S ⊂ I fini, P
\
i∈S
Ai =
Y
P (Ai ).
i∈S
Exemple
Pour une famille de trois événements {A1 , A2 , A3 }, I = {1, 2, 3},
S = {1}
P (A1 ) = P (A1 )
S = {2}
P (A2 ) = P (A2 )
S = {3}
P (A3 ) = P (A3 )
S = {1, 2}
P (A1 ∩ A2 ) = P (A1 )P (A2 )
S = {1, 3}
P (A1 ∩ A3 ) = P (A1 )P (A3 )
S = {2, 3}
P (A2 ∩ A3 ) = P (A2 )P (A3 )
S = {1, 2, 3}
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )
sont les conditions à vérifier pour avoir l’indépendance de A1 , A2 et A3 dans leur
ensemble.
23
24
CHAPITRE 3. INDÉPENDANCE
Définition 8 Deux variables aléatoires X, Y : Ω → R sont indépendantes entre
elles si pour tous boréliens A, B ⊂ R, les événements (X ∈ A) et (Y ∈ B) sont
indépendants entre eux :
P (X ∈ A) ∩ (Y ∈ B) = P (X ∈ A) P (Y ∈ B).
Soit (Xi )i∈I une famille de variables aléatoires. Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et (Ai )i∈S des boréliens de R,
les événements (Xi ∈ Ai ) sont indépendants dans leur ensemble :
P
\
i∈S
(Xi ∈ Ai ) =
Y
i∈S
P (Xi ∈ Ai ).
Introduisons les notations suivantes pour alléger les formules :
(X ∈ A, Y ∈ B) = (X ∈ A) ∩ (Y ∈ B)
= {ω ∈ Ω | X(ω) ∈ A et Y (ω) ∈ B}
Xi ∈ Ai , i ∈ S =
\
i∈S
(Xi ∈ Ai )
(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = (X1 ∈ A1 ) ∩ (X2 ∈ A2 )... ∩ (Xn ∈ An )
Définition 9 Deux tribus T1 ⊂ T , T2 ⊂ T sont indépendantes entre elles si pour
tout A ∈ T1 et B ∈ T2 , A et B sont indépendants entre eux.
Soit (Ti )i∈I une famille de tribus incluses dans T . Elle sont dites indépendantes
entre elles si pour tout sous-ensemble S ⊂ I fini et toute famille (Ai )i∈S satisfaisant Ai ∈ Ti pour tout i ∈ S, les événements Ai sont indépendants dans leur
ensemble :
\
Y
P
Ai =
P (Ai ).
i∈S
3.2
i∈S
Lemme de Borel-Cantelli
Voici une première application de la notion d’indépendance d’événements.
Lemme 1 (Borel-Cantelli) Soit (Ω, T , P ) un espace probabilisé et (Ai )i∈N une
suite d’événements.
Si
X
i∈N
Si
X
P (Ai ) < +∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de Ai .
P (Ai ) = +∞, et si les Ai sont indépendants dans leur ensemble, alors
i∈N
presque tout ω ∈ Ω appartient à une infinité de Ai .
On définit la limite supérieure de la suite d’ensembles Ai comme suit :
lim Ai =
i∈N
\ [
N ∈N
i≥N
Ai = {ω ∈ Ω | ω appartient à une infinité de Ai }.
25
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES
Le lemme se reformule alors de la façon suivante :
X
i∈N
X
P (Ai ) < +∞ implique P lim Ai = 0.
i∈N
P (Ai ) = +∞ et (Ai )i∈N indépendants implique P lim Ai = 1.
i∈N
i∈N
Preuve du lemme
X
Nous avons la relation #{i ∈ N | ω ∈ Ai } =
1Ai (ω). Intégrons cette égalité :
i∈N
Z
#{i ∈ N | ω ∈ Ai } dP (ω) =
Z X
1Ai dP =
i∈N
XZ
1Ai dP =
X
P (Ai ) < +∞.
i∈N
i∈N
La fonction ω 7→ #{i ∈ N | ω ∈ Ai } est intégrable, donc finie presque partout ;
pour presque tout ω ∈ Ω, #{i ∈ N | ω ∈ Ai } < +∞.
Supposons à présent les (Ai ) indépendants et M, N ∈ N, N ≤ M.
P
M
\
Aci =
i=N
M
Y
P (Aci ) =
i=N
M
Y
i=N
(1 − P (Ai )) ≤ e−
d’après la majoration 1 − x ≤ e−x , valide
pour tout x ∈ R. Nous avons donc
P
M
\
i=N
Aci ≤ e−
PM
i=N
PM
i=N
P (Ai )
2
1.5
P (Ai )
1
0.5
et en passant à la limite sur M,
P
\
i≥N
Ceci entraı̂ne P (
0
Aci = 0.
[ \
-1
-0.5
0
0.5
1
1.5
2
-0.5
Aci ) = 0 puis en passant au complémentaire,
N ∈N i≥N
P (lim Ai ) = P
\ [
N ∈N i≥N
3.3
Ai = 1.
Loi d’un multiplet de variables indépendantes
Calculons l’espérance d’un produit de variables aléatoires indépendantes.
Proposition 5 Soit (Ω, T , P ) un espace probabilisé, X, Y : Ω → R deux variables aléatoires. On se donne f, g : R → R des fonctions boréliennes telles que
26
f (X) et g(Y ) soient intégrables. On suppose X et Y indépendantes entre elles.
Alors
E(f (X)g(Y )) = E(f (X))E(g(Y )).
Ceci se généralise à un nombre quelconque de variables aléatoires (Xi )i=1...n indépendantes entre elles :
E
n
Y
fi (Xi ) =
i=1
n
Y
E(fi (Xi ))
i=1
où les fi : R → R sont des fonctions boréliennes telles que les fi (Xi ) sont
intégrables.
Preuve
Si f et g sont des fonctions indicatrices, f = 1A , g = 1B ,
E(f (X)g(Y )) =
=
=
=
=
=
E(1A (X)1B (Y )) = E(1(X∈A) 1(Y ∈B) )
E(1(X∈A)∩(Y ∈B) ) = E(1(X∈A, Y ∈B) )
P (X ∈ A, Y ∈ B)
P (X ∈ A)P (Y ∈ B) par indépendance,
E(1A (X))E(1B (Y ))
E(f (X))E(g(Y )).
On procède ensuite comme pour la preuve de la formule de transfert : on vérifie
la formule pour les fonctions étagées, par linéarité, puis on vérifie la formule pour
f, g ≥ 0 en les approchant de manière croissante par des fonctions étagées, et
enfin pourf, g intégrables en les écrivant comme différence de fonctions positives
intégrables.
Le cas d’un nombre quelconque de variables indépendantes s’en déduit de la
même façon. Rappelons que la covariance de deux variables aléatoires est égale à
l’espérance du produit des variables moins le produit des espérances. On obtient
le corollaire suivant :
Corollaire 1 Soit X1 ,..., Xn des variables aléatoires de carré intégrable, indépendantes entre elles. Alors
Cov(Xi , Xj ) = 0 si i 6= j,
V
n
X
i=1
Xi =
n
X
V (Xi ).
i=1
Complément
On montre que la loi d’un couple ou d’un multiplet de variables aléatoires indépendantes entre elles est égale au produit des lois de chacune des variables aléatoires.
3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES
27
Proposition 6 Soit X, Y deux variables aléatoires indépendantes entre elles.
Alors
P(X,Y ) = PX ⊗ PY ,
E(h(X, Y )) =
Z
Ω
h(X, Y ) dP =
Z
R2
h(x, y) dPX (x) dPY (y)
pour toute fonction h : R2 → R borélienne, positive ou P(X,Y ) -intégrable.
Soit X1 ,..., Xn des variables aléatoires indépendantes entre elles. Alors
P(X1 ,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn ,
E(h(X1 , ..., Xn )) =
Z
Rn
h(x1 , ..., xn ) dPX1 (x1 )...dPXn (xn )
pour toute fonction h : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable.
La preuve se ramène à celle de la proposition précédente en utilisant le fait
que toute fonction borélienne bornée h : R2 → R peut s’approcher en norme
L1 (R2 , P(X,Y ) + PX ⊗ PY ) par une combinaison linéaire de fonctions de la forme
(x, y) 7→ f (x)g(y), avec f et g boréliennes bornées. On généralise ensuite aux
fonctions boréliennes positives en utilisant le théorème de convergence croissante
puis aux fonctions intégrables. Le raisonnement est le même pour un multiplet
de variables aléatoires.
28
3.4
Exercices
exercice 1
Soit X une variable aléatoire intégrable. Montrer que si X est indépendante
d’elle-même, elle est constante p.s. : il existe un réel C tel que P (X = C) = 1.
exercice 2
Soit An , n ∈ N, des événements. Montrer que
lim P (An ) ≤ P limAn .
lim 1An = 1limAn ,
exercice 3
Soit X une variable aléatoire ; la tribu associée à X est définie par
TX = {X −1 (A) | A ⊂ R borélien}.
Montrer que deux variables aléatoires X et Y sont indépendantes si et seulement
si TX et TY sont indépendantes.
exercice 4
Montrer que si X et Y sont deux variables aléatoires indépendantes de densités
fX et fY , le couple (X, Y ) admet pour densité la fonction (x, y) 7→ fX (x)fY (y).
exercice 5
Soient X et Y deux variables aléatoires indépendantes. On suppose que X admet
une densité fX . Montrer que la somme X + Y admet aussi une densité qui est
égale à
Z
fX (t − y) dPY (y).
fX+Y (t) =
R
Montrer que si X et Y admettent des densités fX et fY , la densité de X + Y est
R
égale à la convolée de fX et fY : fX+Y (t) = R fX (t − y) fY (y) dy.
exercice 6
Soit X1 , ...Xn des variables aléatoires centrées, indépendantes entre elles, de cubes
P
P
intégrables. On pose Sn = nk=1 Xk . Montrer que E(Sn3 ) = nk=1 Xk3 .
exercice 7
Soient (Xi )i∈N une suite de variables aléatoires indépendantes. On suppose que
PXi = PXj pour i, j ∈ N et P (Xk = x) = 0 pour x ∈ R et k ∈ N. On pose
An = {ω ∈ Ω | ∀ k < n, Xk (ω) < Xn (ω)}.
Si An est réalisé, on dit qu’on a obtenu un record à l’étape n.
– Montrer que P (Xi = Xj ) = 0 si i 6= j.
– Montrer que les An sont indépendants entre eux et que P (An ) = n1 .
– En déduire que presque sûrement, on observe une infinité de records.
Chapitre 4
Loi des grands nombres
On va s’intéresser au comportement asymptotique d’une suite de variables aléatoires. On se donne un espace probabilisé (Ω, T , P ) et pour chaque entier n ∈ N
une variable aléatoire Xn : Ω → R.
Définition 10 La suite de variables aléatoires (Xi )i∈N est dite identiquement
distribuée si tous les Xi ont même loi :
∀i, j ∈ N, PXi = PXj .
En d’autres termes, pour tout borélien A ⊂ R,
P (Xi ∈ A) = P (Xj ∈ A)
et pour toute f : R → R borélienne positive ou intégrable par rapport à PX0 ,
E(f (Xi )) = E(f (Xj )).
En particulier, E(Xi ) = E(Xj ) si les Xi sont intégrables, E(Xi2 ) = E(Xj2 ) et
V (Xi ) = V (Xj ) si les Xi sont de carrés intégrables.
4.1
Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées (v.a i.i.d). On pose
Sn =
n
X
Xi = X1 + X2 + ... + Xn .
i=1
n (ω)
Pour ω ∈ Ω, la quantité Snn (ω) = X1 (ω)+X2 (ω)+...+X
est la moyenne empirique
n
calculée sur l’échantillon donné par le résultat ω ∈ Ω. On cherche à étudier le
comportement asymptotique de la moyenne Snn .
29
30
CHAPITRE 4. LOI DES GRANDS NOMBRES
Théorème 4 (loi faible des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées, de carrés
intégrables. Alors pour tout ε > 0,
S
n
P − E(X0 ) > ε −−−−→ 0.
n→∞
n
La preuve du théorème repose sur le lemme suivant :
Lemme 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes, identiquement distribuées. Alors E(Sn ) = nE(X0 ), V (Sn ) = nV (X0 ).
Preuve du lemme
E(Sn ) = E(X1 + X2 + ... + Xn ) = E(X1 ) + E(X2 ) + ... + E(Xn ) par linéarité.
V (Sn ) = V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) + 2
où Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).
P
i<j
Cov(Xi , Xj ),
La covariance de deux variables aléatoires est nulle dans le cas indépendant. D’où
V (Sn ) = V (X1 ) + ... + V (Xn ) = n V (X0 ).
Preuve du théorème
D’après le lemme,
E(Sn /n) = E(X0 ),
V (Sn /n) = V (X0 )/n,
√
σ(Sn /n) = σ(X0 )/ n.
On applique alors l’inégalité de Bienaymé-Tchebichev :
S
n
P n
− E(
V (S /n)
Sn σ(X0 )2
n
) > ε ≤
=
−−
−−→ 0.
n→∞
n
ε2
nε2
Remarque On peut montrer que la loi faible des grands nombres est encore
vraie pour des variables aléatoires indépendantes, identiquement distribuées, intégrables.
4.2
Loi forte des grands nombres
Théorème 5 (loi forte des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires intégrables, indépendantes entre elles, identiquement distribuées
P
et Sn = ni=1 Xi . Alors pour presque tout ω ∈ Ω ,
Sn
(ω) −−−−→ E(X0 ).
n→∞
n
31
4.2. LOI FORTE DES GRANDS NOMBRES
En d’autres termes, l’ensemble {ω ∈ Ω |
dont la probabilité vaut 1.
Sn
(ω) −−−−→ E(X0 )}
n
n→∞
est un ensemble
Vocabulaire On dit qu’une propriété est vraie presque sûrement si elle est satisfaite pour presque tout ω ∈ Ω. Nous utiliserons dans la suite l’abréviation p.s.
pour le terme presque sûrement.
Énonçons un premier corollaire de la loi forte des grands nombres, qui sera
démontré dans la suite. Ce corollaire montre que la probabilité d’un événement
est presque sûrement égale à la limite du nombre de fois où il est réalisé sur le
nombre total de fois où l’épreuve est répétée, lorsque le nombre de répétitions
tend vers l’infini.
Corollaire 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées et soit A un borélien de R. Alors
#{i ≤ n | Xi (ω) ∈ A}
−−
−−→ P (X0 ∈ A)
n→∞
n
presque sûrement.
Illustrons la loi forte des grands nombres sur un exemple avant de la démontrer.
Exemple
On lance une pièce de monnaie bien équilibrée un grand nombre de fois de manière
indépendante. Pour modéliser ces épreuves, on commence par considérer la probabilité P̃ définie sur P({pile, f ace}) par P̃ ({f ace}) = P̃ ({pile}) = 1/2 et on
pose :
– Ω = {pile, f ace}N ,
– T = P({pile, f ace})⊗N ,
– P = P̃ ⊗N .
Les éléments de Ω sont des suites infinies de pile ou face.
On définit maintenant une variable aléatoire X : {pile, f ace} → R par X(pile) =
0, X(f ace) = 1 et on pose pour tout i ∈ N :
Xi ((ωk )k∈N ) = X(ωi ) =
1 si ωi = pile
0 si ωi = f ace
Soit ω = (ωk )k∈N ∈ Ω. L’élément ωk de la suite ω est le résultat obtenu au k ième
lancer. La quantité Xk (ω) vaut 1 si ce résultat est face, 0 si il est égal à pile.
Définissons également
Sn
X1 (ω) + ... + Xn (ω)
X(ω1 ) + X(ω2 ) + ... + X(ωn )
(ω) =
=
.
n
n
n
C’est la moyenne des valeurs prises par X au cours des n premières épreuves.
C’est le nombre moyen de fois où Face a été obtenu au cours des n premiers
lancers.
32
Proposition 7 Les variables aléatoires Xi sont indépendantes dans leur ensemble, identiquement distribuées, intégrables.
Preuve
P (X0 ∈ A0 , ..., Xn ∈ An ) = P̃ ⊗N ({ω ∈ Ω | X(ω0 ) ∈ A0 , ..., X(ωn ) ∈ An })
= P̃ ⊗N (CX −1 (A0 ),...,X −1(An ) )
=
n
Y
P̃ (X −1 (Ai )).
i=0
De plus, P (X0 ∈ A0 ) = P (CX −1 (A0 ) ) = P̃ (X −1 (A0 )). Nous avons également
P (Xi ∈ Ai ) =
=
=
=
=
P ({ω ∈ Ω | ωi ∈ X −1 (Ai )})
P (CΩ,...,Ω,X −1(Ai ) )
P̃ ⊗N(CΩ,...,Ω,X −1(Ai ) )
P̃ (Ω)...P̃ (Ω)P̃ (X −1 (Ai ))
P̃ (X −1 (Ai ))
D’où P (X0 ∈ A0 , ..., Xn ∈ An ) = P (X0 ∈ A0 )...P (Xn ∈ An ) pour tout n ∈ N.
On vient de démontrer que les Xi sont indépendants.
On a aussi vu que P (Xi ∈ A) = P̃ (X −1 (A)). La loi PXi ne dépend donc pas de i
et PXi = PXj pour tout i, j. Ceci termine la démonstration de la proposition.
Dans notre exemple, nous avons PXi = 21 (δ0 + δ1 ) ce qui implique l’égalité
E(X1 ) =
Z
R
x dPX1 (x) = 0 × 1/2 + 1 × 1/2 = 1/2.
On peut maintenant appliquer la loi forte des grands nombres : pour presque tout
ω ∈ Ω,
#{i ≤ n | ωi = f ace}
−−−−→ 1/2
n→∞
n
ou encore
n
o
1
−
−
→
1/2
= 1.
P̃ ⊗N (ωi )i∈N ∈ {pile, f ace}N | #{i ≤ n | ωi = f ace} −−
n→∞
n
La fréquence d’apparition de face au cours d’une infinité de lancers est égale à
1/2 presque sûrement, lorsque la pièce est bien équilibrée.
Nous allons démontrer la loi forte des grands nombres à partir du lemme suivant :
Lemme 3 Soit (Yi ) une suite de variables aléatoires. Si pour tout ε > 0,
∞
X
i=1
P (|Yi | > ε) < ∞
alors la suite (Yi )i∈N converge presque sûrement vers 0 :
pour presque tout ω ∈ Ω,
Yi (ω) −−−−→ 0.
i→∞
33
Le lemme montre que P ({ω ∈ Ω | Yi (ω) −−−−→ 0}) = 1.
i→∞
Preuve du lemme
On applique le lemme de Borel-Cantelli. La quantité ε étant fixée, on pose
Ai = (|Yi | > ε).
P
Comme P (Ai ) < ∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de
Ai . Notons par Cε cet ensemble. Nous avons P (Cε ) = 1.
∀ω ∈ Cε , ∃N ∈ N, ∀n ≥ N, ω ∈
/ An et |Yn (ω)| < ε.
On prend ε = 1/k, k ∈ N∗ et on considère l’intersection des C1/k .
C=
\
C1/k ,
P (C) = 1.
k∈N∗
Pour tout ω ∈ C et tout k ∈ N∗ , le point ω est dans C1/k , si bien qu’il existe
N ∈ N tel que pour tout n ≥ N, |Yn (ω)| < 1/k. Ceci montre que lim Yn (ω) = 0,
n→∞
comme souhaité.
Preuve de la loi forte des grands nombres
Pour simplifier, nous allons supposer que les Xi sont de carré intégrable dans la
preuve. On donnera une preuve dans le cas intégrable plus tard, dans le chapitre
consacré à la convergence de séries de variables aléatoires.
Nous avons, pour tout i, E(Xi ) = E(X1 ). Quitte à remplacer les Xi par Xi −
E(Xi ), on peut supposer E(Xi ) = 0. On dit qu’on centre les variables aléatoires.
On veut montrer que Snn converge presque sûrement vers 0. Essayons d’appliquer
le lemme précédent. Rappelons l’égalité E( Sii ) = E(X1 ) = 0.
S V (S /i)
V (X1 )
i
i
P > ε ≤
=
i
ε2
i ε2
∞
X
n=1
S i
>ε
P i
X
S 2 i 2
≤
par Bienaymé-Tchebichev.
∞
1
V (X1 ) X
= +∞.
2
ε
i=1 i
La condition du lemme, avec Yi = Si /i, n’est pas vérifiée. Remplaçons i par i2 :
S
Yi = ii22 . Nous avons maintenant
i
P
P i
>ε ≤
V (X1 ) X 1
.
2
ε
i i
La série i12 est convergente (sa limite vaut π 2 /6). Le lemme précédent donne la
S
convergence de la suite ii22 :
Si2
−−−−→ 0
i2 i→∞
p.s.
34
Pour chaque n ∈ N∗ , on prend i ∈ N √le plus grand possible, tel que i2 ≤ n.
L’entier i est égal à la partie entière de n et on a les encadrements :
i2 ≤ n ≤ (i + 1)2 − 1,
Sn =
i2 ≤ n ≤ i2 + 2i,
n
X
2
Xk =
k=1
S n
n
i
X
Xk +
k=1
S 2 i +
2
≤
i
√
0 ≤ n − i2 ≤ 2i ≤ 2 n.
n
X
Xk
k=i2 +1
n
1 X
Xk .
n k=i2 +1
Pour majorer le dernier terme, on raisonne comme précédemment :
!
n
n
X
1 X
1
2 V (X1 )
n − i2
P
Xk > ε ≤ 2 2 V
.
Xk ≤ 2 2 V (X1 ) ≤ 3/2
n k=i2 +1
nε
nε
n
ε2
k=i2 +1
La série
P
1
n3/2
est convergente. D’après le lemme,
n
1 X
Xk −−−−→ 0
i→∞
n k=i2 +1
p.s.
Le résultat est démontré.
Preuve du corollaire
On applique la loi des grands nombres à la suite (1A ◦ Xi ).
E(1A ◦ X1 ) = E(1X −1 (A) ) = E(1(X1 ∈A) ) = P (X1 ∈ A).
1
n
Sn
1X
1
=
1A (Xk (ω)) = #{k ∈ {1, ..., n} | Xk (ω) ∈ A}
n
n k=1
n
Cette quantité converge vers E(1A ◦ X1 ) d’après la loi forte des grands nombres.
Complément
Donnons une généralisation aisée de la loi des grands nombres qui s’avère utile
en pratique.
Proposition 8 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées. Soit m ∈ N∗ et f : Rm → R une fonction qui est
P(X1 ,...,Xm) -intégrable. Alors pour presque tout ω ∈ Ω,
N
1 X
f (Xk , ..., Xk+m−1 ) −−−−→ E(f (X1 , ..., Xm )).
N →∞
N k=1
35
Preuve
On pose Yk = f (Xk , ...Xk+m−1 ) ; les variables Yk ne sont pas indépendantes dans
leur ensemble. Par contre, les variables Y1 , Ym+1 , Y2m+1 , Y3m+1 ... sont indépendantes entre elles. Plus généralement, pour chaque r ∈ {1, ..., m}, les variables
(Ymk+r )k∈N sont intégrables, indépendantes et identiquement distribuées. On peut
donc appliquer la loi des grands nombres à ces m suites de variables aléatoires et
faire la somme des résultats, ce qui donne
mn
m
X
1X
Yk −−−−→
E(Yi ).
n→∞
n k=1
i=1
Comme les variables Xi sont indépendantes identiquement distribuées, nous avons
R
E(Yi ) = E(f (Xi , ..., Xm+i−1 )) = R f (x1 , ..., xm ) dPXi (x1 )...dPXm+i−1 (xm )
=
f (x1 , ..., xm ) dPX1 (x1 )...dPX1 (xm )
= E(f (X1 , ..., Xm )).
Ceci montre le résultat pour N multiple de m. Si N n’est pas multiple de m, on
peut l’écrire sous la forme N = mn + i avec 0 < i < m. On remarque alors que
chacun des termes Ymn+i /n converge vers 0 presque sûrement quand n tend vers
l’infini, d’après la loi des grands nombres :
n
X
n − 1 1 n−1
Ymn+i 1 X
=
Ymk+i −
Ymk+i −−−−→ E(Yi ) − E(Yi ) = 0.
n→∞
n
n k=1
n
n − 1 k=1
La proposition s’ensuit.
Application
On revient à l’exemple de pile ou face. Prenons
– Ω = {pile, face}⊗N ,
– T = P({pile, face})⊗N ,
– P = ( 21 δpile + 21 δf ace )⊗N .
D’après la loi des grands nombres,
1
1
#{k ∈ {1, ..., n} | ωk = f ace} −−−−→
n→∞
n
2
pour presque tout ω ∈ Ω.
En particulier, pour presque tout ω ∈ Ω, face apparaı̂t une infinité de fois dans la
suite Ω. Soit (a1 , ..., am ) ∈ {pile, f ace}m . Prenons f = 1{(a1 ,...,am)} . Nous obtenons
E(f (X1 , ..., Xm )) = P (X1 = a1 , ..., Xm = am )
= P (X1 = a1 )...P (Xn = am )
= 1/2m.
36
Appliquons la proposition précédente.
1
1
#{k ∈ {1, ..., n} | (ωk , ..., ωk+m−1 ) = (a1 , ..., am )} −−−−→ m p.s.
n→∞ 2
n
Notons par Ω(a1 ,...,am) l’ensemble des ω ∈ Ω pour lesquels on a cette convergence.
Cet ensemble est de probabilité 1. On en déduit
P
\
\
m∈N∗ (a1 ,...,am )∈{pile,f ace}m
Ω(a1 ,...,am) = 1
Presque tout ω ∈ Ω appartient à tous les Ω(a1 ,...,am) . Cela signifie que dans presque
toute suite ω ∈ Ω, tous les mots (a1 , ..., am ) apparaissent une infinité de fois dans
la suite ω avec fréquence 1/2m , pour tout m ∈ N∗ .
4.3
Illustration numérique
Pour illustrer la loi des grands nombres, on considère plusieurs suites numériques,
chacune consistant en mille chiffres obtenus de plusieurs façons.
La première a été obtenue en lançant mille fois un dé à dix faces.
9
0
7
6
1
3
9
1
6
5
1
9
5
0
3
1
8
6
8
3
8
7
0
1
2
3
8
2
9
6
5
9
9
0
3
7
4
6
1
8
7
4
0
3
2
9
3
8
1
2
4
9
1
4
3
2
1
5
0
2
9
6
1
9
4
7
8
8
1
0
2
0
3
6
7
0
3
9
8
0
1
7
9
5
3
7
5
8
3
9
6
2
0
7
7
0
1
9
8
3
6
3
8
6
6
4
5
2
1
2
2
0
1
7
7
1
3
6
5
07195535784992102510127330048080104635643112613277
60253370520040446582273287202454964251060455589123
14658403228676939400824895557805458285668455707010
36658934273243541786038200065107168643136855285740
76079838316958557190903288695159609196578777924861
25238482302773470337694269961537648365779868125424
72833211867012011187724228546934680589558020249827
52682924838992331531538655796668993817284434717033
63363770560318893260304325365517406339397982702148
43469379600499246127875102622335428427940885511253
15945488704499450024160185760765216686835250151698
07953779077260810545709190679594122819054332016053
43874509773142256208446793582069591398295534817669
00866805445751385073444135898053722773518657599238
89658234574692703913076451170825777013536742159577
19079737095497673616541864589023496340392506392105
7656373237561356720507209316694679109441467880686
7
5
9
9
9
9
3
2
8
1
0
8
5
7
9
2
5
9
3
7
2
8
1
1
6
2
8
3
2
7
0
7
La seconde est obtenue en utilisant un ordinateur et un générateur de nombres
aléatoires.
0
4
9
8
1
8
5
0
4
6
8
9
3
7
6
6
0
8
9
2
8
2
9
7
8
0
0
4
9
1
9
9
4
1
4
1
7
6
4
0
5
4
7
2
7
6
8
7
1
3
0
8
7
1
3
5
5
5
3
0
8
5
1
9
9
4
2
2
3
5
7
7
7
9
6
9
2
3
5
0
1
1
6
4
6
7
3
6
5
2
1
2
6
5
9
1
1
4
2
0
3
3
0
4
8
5
7
6
6
0
3
7
0
4
8
1
6
3
3
24592033294113072055009313425642463292168997476190
77267238897625707122976490684065302293384854139192
11397466600327680402779174058748690387597709752501
25059823435107768209518057889837034466213544751592
96817113492421921923840639504736194034314431873600
60584226532439043455300579734169799238925012559236
62061213722328986841721798524656340464293346098822
51840808482435025872404021592385467879066595396687
21762789994979875954905548833577698111700049957468
22972303303753357773391974551636647343300820036885
69727168283391699730986204781767202822204930136335
84437364228724886016021614322705702333811808553020
65315580534744055220030588691391259941562092607300
91143118429907218938624903376109882540701521511774
30091407194844714177277059194319510975738921377904
22721077246682417815472143525538002064919575074911
9878675571367879838239809354806954174212966077024
2
7
6
9
7
5
4
1
0
7
9
8
7
6
5
5
2
6
2
3
3
6
4
3
9
1
5
8
9
3
6
6
4.3. ILLUSTRATION NUMÉRIQUE
37
La troisième est constituée des mille premières décimales de π.
1
4
4
5
3
4
5
9
8
3
7
2
1
8
0
6
1
4
5
7
5
1
1
9
5
5
9
6
1
1
3
8
1
9
1
9
0
9
6
2
0
9
7
5
6
4
2
7
2
7
5
5
2
9
6
5
7
3
1
5
2
9
6
1
2
5
1
7
9
3
3
4
2
3
6
9
2
2
4
8
2
9
3
7
7
2
0
8
4
7
7
0
5
7
4
0
4
9
7
3
7
8
6
7
4
6
1
2
0
3
2
7
5
4
0
8
4
6
1
53589793238462643383279502884197169399375105820974
81640628620899862803482534211706798214808651328230
46095505822317253594081284811174502841027019385211
22948954930381964428810975665933446128475648233786
20190914564856692346034861045432664821339360726024
45870066063155881748815209209628292540917153643678
11330530548820466521384146951941511609433057270365
09218611738193261179310511854807446237996274956735
48912279381830119491298336733624406566430860213949
37190702179860943702770539217176293176752384674818
13200056812714526356082778577134275778960917363717
09012249534301465495853710507922796892589235420199
21960864034418159813629774771309960518707211349999
04995105973173281609631859502445945534690830264252
46850352619311881710100031378387528865875332083814
69147303598253490428755468731159562863882353787593
8577805321712268066130019278766111959092164201989
9
6
0
7
9
9
7
1
4
4
8
5
9
2
2
7
4
6
5
8
1
2
5
8
6
6
7
6
9
3
0
5
La quatrième est obtenue en conservant les cinq derniers chiffres de deux cents
numéros de téléphone successifs d’un annuaire téléphonique.
4
3
4
9
0
9
5
4
2
7
5
3
5
5
1
5
0
1
0
0
8
7
4
8
9
1
6
7
8
5
7
0
9
6
0
8
5
0
3
1
5
4
7
2
8
4
8
7
5
1
0
1
0
9
5
9
5
0
0
5
9
5
5
2
5
6
6
1
4
2
6
7
7
4
4
1
9
5
6
3
0
7
3
0
9
9
0
1
6
9
5
7
1
2
9
5
3
0
3
6
0
2
1
5
9
5
8
8
9
5
3
3
9
5
4
1
5
4
0
40157016237489617851229127535103544941913308790788
91525179198338901696427991309520468231697440533929
02708577775484231826460352117856492509675856651369
94106851138596548584589557409855100072855942558990
52980290409851009383738406459144938515956159162856
25821722509842771150086545908277157578642452501556
74345971059895928535931542068592273922794045590959
38958262875495859206683645900357302018765684685437
98450996988564428995441515273448995874061928395268
64580395803359356020818912959386853855043680319642
61305058575675897194589895625406985434567945926379
53449803437743893673356867830528579245956086593815
11019075755014997404514391064952639924575974482821
34731300920899735436854378989209892993686614102505
87439114153085468595378433265882223289236284318927
99794869822055448157631761858165894376857761372853
8958553782665752532830679143755719593059587659128
4
1
1
5
7
9
4
5
4
3
2
4
3
7
5
2
2
9
7
5
6
1
8
6
5
9
6
1
8
4
8
4
La cinquième s’obtient en concaténant les nombres entiers dans l’ordre croissant
en partant de un.
1
3
4
9
5
3
1
4
9
2
3
5
2
2
1
3
1
2
5
6
4
1
5
5
1
4
1
2
3
7
2
2
3
3
3
3
5
9
1
1
5
7
1
4
3
2
3
9
3
2
5
4
6
6
5
6
3
1
5
9
2
4
5
2
3
1
3
2
5
3
6
9
1
6
5
1
5
1
2
4
7
2
3
3
3
6
7
6
6
1
1
6
7
1
5
3
2
4
9
3
3
5
7
3
7
9
7
3
1
6
9
2
5
5
2
4
1
3
3
89101112131415161718192021222324252627282930313233
83940414243444546474849505152535455565758596061626
68697071727374757677787980818283848586878889909192
79899100101102103104105106107108109110111112113114
11811912012112212312412512612712812913013113213313
71381391401411421431441451461471481491501511521531
57158159160161162163164165166167168169170171172173
17717817918018118218318418518618718818919019119219
61971981992002012022032042052062072082092102112122
16217218219220221222223224225226227228229230231232
23623723823924024124224324424524624724824925025125
52562572582592602612622632642652662672682692702712
75276277278279280281282283284285286287288289290291
29529629729829930030130230330430530630730830931031
43153163173183193203213223233243253263273283293303
34335336337338339340341342343344345346347348349350
3543553563573583593603613623633643653663673683693
3
3
9
1
4
5
1
3
1
2
2
7
2
1
3
3
4
6
3
1
1
4
7
1
3
3
2
2
9
3
1
5
La sixième est obtenue en concaténant le nombre d’habitants de chacune des communes de l’Ain, ordonnées par ordre alphabétique (2012, Abergement-Clémenciat
→ Vonnas) et en conservant les mille premiers chiffres.
38
7
4
8
9
6
5
0
5
1
7
1
1
2
2
8
1
0
9
1
4
4
1
2
1
1
5
5
3
2
1
7
5
2
8
1
2
4
5
4
2
2
3
1
8
6
6
0
8
1
4
2
2
1
1
6
2
1
6
0
4
3
4
9
0
0
5
3
3
3
8
4
1
0
8
7
0
8
6
2
1
5
1
0
8
9
9
7
7
1
8
1
5
1
7
1
2
1
1
8
6
1
2
1
5
4
2
1
9
4
4
5
2
1
2
0
1
1
0
2
47961660116255775834710873933191653566497422432211
31593211890289056868089238453259119369298350544281
75527146435562748319302962309953134214612793724999
48809525932176274271748148544863020101224421191145
24807096448367373682899421933353321416675166730650
15971591679551381465147217714311872093120109452795
61531224250122887109867962551427527213843791766204
58734427422488698821226395476192910272211181799189
42242943325890536520121474201968460810049591491097
21761999806119536214208174069853146051150119174238
71111033532552189203696011792671081271302156627231
73155538881011581263034406432682109431219932257132
26165024596406741315133124875168822147392215592742
65483411246668247671724539101003351324621066253374
63865325481542128951544138263230536591167371237164
14417885059038678013854545024321641734272223151702
2743240765915781802766814833711898444299597760114
4
7
1
1
9
5
2
3
9
3
1
1
0
7
3
8
0
3
4
8
8
7
8
8
1
2
4
6
0
5
1
8
La dernière est “faite maison”. On a demandé à une personne de réciter mille
chiffres successivement sans réfléchir. Voilà le résultat.
1
4
2
0
4
2
0
4
4
2
5
7
9
1
1
1
1
4
5
5
3
5
9
2
2
3
1
1
9
3
9
2
0
4
2
0
2
5
4
5
5
7
2
4
1
6
4
6
5
4
2
9
1
8
4
2
7
5
4
1
2
1
9
1
7
4
2
4
5
5
9
2
2
8
4
5
0
4
2
8
1
5
3
1
5
7
9
5
3
1
4
3
6
5
3
1
1
1
1
5
7
2
8
4
6
5
4
1
0
2
9
4
3
2
4
2
2
2
3
41601453332878452444442145541240000000001002003004
57859167404044055678814579147953325245425444224425
75421157240130402469514523425102456798552425456514
42456891051456105012014524142798312142412439114512
98749784251298576421140101425414169999105241424524
60145333287842568974212454487823335410614875924101
21689107154501412451220152016201720182019202458101
14987414521002504142524987652145210421255215169879
05420000000000142979542179854312042175024154979411
44503210214424518952114987241924951298567192495261
14567891042123412598764142434445464748494104246801
45211000241521721019876543210979598952415251002416
25132186754123456799114250524215794215205224125415
24152456871024527141245298752125179879152452168910
16248444200704251792421789125432102803203802648567
41257941521496798475214142515149762152421524945521
4241268934672416522416242592324165003472164219671
0
4
5
1
1
4
0
7
4
4
3
2
2
1
8
4
1
4
2
2
4
2
5
5
7
2
5
8
5
1
9
2
Le tableau qui suit donne, pour chacune des suites qui viennent d’être présentées,
le nombre d’occurrences de chacun des dix chiffres dans la suite ainsi que de
quelques nombres à deux chiffres pris au hasard : 00, 11, 32, 66, 69 et 77.
0
1
2
3
4
5
6
7
8
9
00
11
32
66
69
77
1
104
89
98
107
86
112
100
108
99
97
10
8
11
11
12
16
2
107
94
108
106
99
92
87
112
89
106
12
10
9
11
9
13
3
93
116
103
102
93
97
94
95
101
106
7
16
9
11
6
9
4
85
82
80
87
96
164
80
83
113
130
8
6
4
4
8
8
5
66
177
177
148
77
77
77
67
67
67
3
25
25
5
5
4
6
73
171
132
95
104
93
83
83
84
82
5
25
16
10
5
3
7
92
161
167
39
183
131
45
61
51
70
26
13
10
0
4
0
1
2
3
4
dé à dix faces
générateur de nombres aléatoires
décimales de π
numéros de téléphone
5
6
7
nombres entiers par ordre croissant
nombre d’habitants par commune
récitation
39
Pour les trois premières suites, les occurrences sont proches des valeurs asymptotiques produites par une suite indépendante identiquement distribuée. Chaque
chiffre apparaı̂t avec une fréquence proche du dixième, tandis que les mots de
deux lettres ont une fréquence proche du centième. On n’est pas surpris que les
deux premières suites se comportent conformément à la loi des grands nombres.
La question reste ouverte de démontrer qu’il en va vraiment de même pour la
troisième suite constituée par les décimales de π. On ne sait même pas si tous les
chiffres apparaissent une infinité de fois dans le développement décimal de π.
Les chiffres 5 et 9 sont sur-représentés dans la quatrième suite, sans qu’il soit
possible d’en déterminer la raison. On pourrait s’attendre à ce que l’annuaire
produise des valeurs aléatoires uniformément distribuées mais cet exemple ne
permet pas de confirmer cette intuition. Il faudrait une analyse plus fine pour
déterminer si c’est l’échantillon qui est particulier ou si un ordre se cache derrière
la répartition des numéros.
La cinquième suite présente des disparités importantes, avec le chiffre 1 très
largement représenté tandis que le 0 est peu fréquent. On n’est pas surpris que
le chiffre 1 apparaisse souvent dans la liste des premiers entiers naturels. Le
nombre dont les décimales sont obtenues en faisant la liste de tous les entiers par
ordre croissant s’appelle la constante de Champernowne. On peut montrer que la
fréquence de chacun des chiffres finit par converger vers un dixième, contrairement à ce que pourrait laisser penser les premiers termes de la suite. De manière
étonnante, on peut même montrer que la constante de Champernowne est un
nombre normal : pour tout entier n > 0, tous les mots constitués de n chiffres
apparaissent dans la suite de ses décimales avec une fréquence égale à 10−n .
La sixième suite présente aussi des variations importantes avec le chiffre 1 qui
apparaı̂t le plus fréquemment. Ce phénomène est parfois observé quand on étudie
des données statistiques concernant des populations humaines et provient de la
croissance exponentielle de ces populations. Il est relié à la loi de Benford. Cette
loi est bien vérifiée par le nombre d’habitants des trente six mille communes de
France et on l’observe déjà sur l’échantillon que nous avons considéré.
Finalement, la septième suite est loin d’être uniformément répartie, avec le
chiffre 3 sous-représenté tandis que le 4 revient fréquemment. Elle montre à quel
point il est difficile pour un être humain de simuler le hasard. L’absence de certains
mots de longueur deux est typique dans ce genre d’expérimentation et permet de
repérer aisément les suites qui sont le produit d’une intervention humaine plutôt
que d’un procédé aléatoire.
40
4.4
Exercices
Dans les exercices qui suivent, (Xn )n∈N est une suite de variables aléatoires inP
dépendantes identiquement distribuées et Sn = nk=1 Xk .
exercice 1
Xn
On suppose les (Xn ) intégrables. Montrer que
−−−−→ 0 p.s.
n n→∞
p.s.
Si de plus l’espérance des Xk est strictement positive, alors Sn −−−−→ +∞.
n→∞
exercice 2
On suppose les (Xn ) de carrés intégrables. Montrer que les suites suivantes
convergent presque sûrement vers une limite qu’on calculera.
n
1X
Xk2 ,
n k=1
n
1X
Xk Xk+1,
n k=1
X
2
Xi Xj ,
n(n − 1) 1≤i<j≤n
Pn
k=1 Xk
.
2
k=1 Xk
Pn
exercice 3
1
p.s.
Soit x ∈ R. Montrer la convergence #{1 ≤ k ≤ n | Xk (ω) ≤ x} −−−−→ FX0 (x).
n→∞
n
exercice 4
Soit f : [0, 1] → R continue. Montrer que la suite
un =
Z
1
0
...
Z
1
0
f
x
1
+ ... + xn dx1 ...dxn
n
admet une limite que l’on précisera.
exercice 5
P
Soit (pk )k=1..r des nombres réels strictement positifs tels que pk = 1. On suppose
que la loi des Xn est donnée par P (Xi = k) = pk . On considère les variables
aléatoires Πn (ω) = pX1 (ω) pX2 (ω) ...pXn (ω) . Montrer que
r
X
1
ln(Πn ) −−−−→
pk ln(pk ) p.s.
n→∞
n
k=1
exercice 6
On suppose les Xn centrés de carrés intégrables. En inspectant la preuve de la
loi forte des grands nombres, montrer qu’on peut trouver α > 0 tel que
Sn
p.s.
−−−−→ 0.
1−α
n→∞
n
Montrer l’égalité
n X
Xk
1
1
1 Sk +
=
−
Sn .
k
k
k
+
1
n
+
1
k=1
k=1
n
X
En déduire que la série
P
Xk
k
converge presque sûrement.
Chapitre 5
Convergence de suites de
variables aléatoires
5.1
Les différents types de convergence.
Les résultats précédents font appel à différentes notions de convergence. On va
préciser ces notions et étudier les relations qu’elles entretiennent entre elles. Rappelons la définition des normes Lp , p ≥ 1.
Soit (Ω, T , P ) un espace probabilisé. Pour p ∈ [1, +∞[, la norme Lp de la variable
aléatoire Y : Ω → R est définie par
kY kp = (
Z
|Y |p dP )1/p .
La norme L∞ de Y est définie par
kY k∞ = inf{C > 0 | ∃ Ω′ tel que P (Ω′ ) = 1 et |Y (ω)| ≤ C pour tout ω ∈ Ω′ }
Définition 11 Soient Yn , Y des variables aléatoires définies sur (Ω, T , P ) et p ∈
[1, +∞].
– La suite Yn converge en norme Lp vers Y si
kYn − Y kp −−−−→ 0.
n→∞
– La suite Yn converge en probabilité vers Y si
∀ ε > 0,
P (|Yn − Y | > ε) −−−−→ 0.
n→∞
– La suite Yn converge presque sûrement vers Y si
pour presque tout ω ∈ Ω, Yn (ω) −−−−→ Y (ω).
n→∞
– La suite Yn converge en loi vers Y si
pour toute fonction f : R → R continue bornée,
41
Z
f dPYn −−−−→
n→∞
Z
f dPY .
42CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES
Proposition 9 Soient p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. On a les implications
CV L∞ ⇒ CV Lq ⇒ CV Lp ⇒ CV L1 ⇒ CV en proba ⇒ CV en loi.
CV L∞ ⇒ CV p.s. ⇒ CV en proba.
CV L∞ ⇒ CV en proba ⇒ CV p.s. d’une sous-suite.
Remarque
La convergence L2 implique la convergence en probabilité. C’est comme cela
que nous avons démontré la loi faible des grands nombres. Celle-ci affirme que Snn
converge vers E(X0 ) en probabilité, si les (Xi ) sont indépendantes, identiquement
distribuées. On avait obtenu ce résultat en montrant que V ( Snn ) −−−−→ 0. D’après
n→∞
la relation suivante, cela est équivalent à la convergence L2 :
V
S
2 2
S
S
S 2 Sn
n n
n
n
=E −E
=E − E(X0 ) = − E(X0 ) .
2
n
n
n
n
n
Démonstration de la proposition
• CV Lq ⇒ CV Lp si p ≤ q.
Démontrons l’égalité
kY kp ≤ kY kq
en utilisant l’inégalité de Hölder : pour tout p, q ≥ 1 tels que 1/p + 1/q = 1,
Z
|Y Z| dP ≤ kY kp kZkq .
On prend Y constant égal à 1 dans cette inégalité, auquel cas kY kp = 1 et
kZk1 ≤ kZkq . Ceci démontre le résultat pour p = 1. Pour p général, on remplace
q par q/p et Z par Y p , ce qui donne :
Z
Y p dP ≤
Z
Y pq/p dP
p/q
,
kY kp ≤ kY kq .
• CV L∞ ⇒ CV Lp .
On a pour presque tout ω ∈ Ω, |Y (ω)| ≤ kY k∞ . En intégrant, on obtient
kY
kpp
=
Z
p
|Y (ω)| dP (ω) ≤
Z
kY kp∞ dP = kY kp∞ .
• CV L1 ⇒ CV en proba
L1
C’est une conséquence de l’inégalité de Markov. Si Yn −−−−→ Y ,
n→∞
P (|Yn − Y | > ε) ≤
kYn − Y k1
E(|Yn − Y |)
=
−−−−→ 0
n→∞
ε
ε
5.2. FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE FOURIER43
• CV L∞ ⇒ CV p.s.
L∞
Si Yn −−−−→ Y , il existe Ω′ ⊂ Ω de probabilité 1 tel que
n→∞
sup |Yn (ω) − Y (ω)| −−−−→ 0.
n→∞
ω∈Ω′
On en déduit, pour tout ω ∈ Ω′ , Yn (ω) −−−−→ Y (ω).
n→∞
• CV en proba ⇒ CV p.s. d’une sous-suite
Nous savons que pour tout ε > 0, P (|Yn − Y | > ε) −−−−→ 0.
n→∞
Pour tout k ∈ N, on peut donc trouver nk ∈ N aussi grand qu’on veut, tel que
P (|Ynk − Y | > 1/k) ≤ 1/2k . On a alors
∞
X
k=0
P (|Ynk − Y | > 1/k) < ∞
On applique le lemme de Borel-Cantelli : pour presque tout ω ∈ Ω, hormis pour
un nombre fini d’indices k, |Ynk (ω) − Y (ω)| < 1/k. La suite Ynk converge vers Y
presque sûrement.
• CV p.s. ⇒ CV en proba
Nous avons les deux conditions suivantes :
– 1(|Yn −Y |>ε) (ω) −−−−→ 0 pour presque tout ω ∈ Ω car |Yn (ω) − Y (ω)| −−−−→ 0.
n→∞
n→∞
– |1(|Yn −Y |>ε) | ≤ 1Ω et 1Ω est intégrable, ne dépend pas de n.
On peut appliquer le théorème de convergence dominée :
lim P (|Yn − Y | > ε) = lim
n→∞
n→∞
Z
1(|Yn −Y |>ε) dP =
Z
lim 1(|Yn −Y |>ε) dP = 0
n→∞
L’implication CV en proba ⇒ CV en loi sera démontrée dans la suite.
5.2
Fonction caractéristique et transformée de
Fourier
Pour étudier plus en détail la convergence en loi, on va utiliser la notion de fonction caractéristique d’une variable aléatoire et de transformée de Fourier d’une
mesure de probabilité.
Définition 12 La fonction caractéristique d’une variable aléatoire Y : Ω → R
est définie par
ϕY (t) = E(eitY ) =
Z
Ω
eitY dP =
Z
R
eity dPY (y).
La transformée de Fourier d’une mesure de probabilité µ définie sur la tribu des
boréliens de R est définie par
b
µ(t)
=
Z
eitx dµ(x).
R
On a donc l’égalité ϕY (t) = PbY (t).
Propriétés
– |ϕY (t)| ≤ 1 pour tout t ∈ R,
– ϕY (0) = 1,
– t 7→ ϕY (t) est continue sur R,
– si Y est intégrable, alors t 7→ ϕY (t) est dérivable et ϕ′Y (0) = iE(Y ),
– si Y est de carré intégrable, t 7→ ϕY (t) est de classe C 2 et ϕ′′Y (0) = −E(Y 2 ).
La continuité et la dérivabilité découlent des théorèmes de continuité et de dérivabilité sous le signe intégrable. Par exemple, si X est intégrable, on a la majoration
ce qui implique ϕ′Y (t) =
d
dt
∂ itY e = |iY eitY | ≤ |Y |
∂t
R
Ω
eitY dP =
R
∂ itY
Ω ∂t e
dP =
R
Ω
iY eitY dP.
La loi d’une variable aléatoire est complètement caractérisée par sa fonction
caractéristique.
Proposition 10 Deux variables aléatoires qui ont même fonction caractéristique
ont même loi : ϕX = ϕY implique PX = PY .
Ce théorème est admis et ne sera pas utilisé dans la suite. On passe maintenant
à quelques calculs explicites de fonctions caractéristiques.
Cas discret
La variable aléatoire Y prend un nombre fini ou dénombrable de valeurs yk , k ∈ I,
avec I = {1, ..., n} ou I = N.
X
eityk P (Y = yk ).
k∈I
• Loi de Bernoulli de paramètre p ∈ [0, 1]
Si Y obéit à une telle loi, P (Y = 0) = 1 − p, P (Y = 1) = p. On a alors
ϕY (t) = eit×0 P (Y = 0) + eit×1 P (Y = 1),
ϕY (t) = 1 − p + peit .
• Loi uniforme sur {1, ..., n} , n ∈ N∗
45
5.3. CONVERGENCE EN LOI
Si Y obéit à une telle loi, P (Y = k) = 1/n pour k ∈ {1, ..., n}, ce qui implique
Pn−1 it k
P
P
(e ) .
ϕY (t) = nk=1 eitk P (Y = k) = nk=1 n1 (eit )k = n1 eit k=0
ϕY (t) =
1 it 1 − eitn
e
n
1 − eit
si t ∈
/ 2πZ.
Cas continu
La variable aléatoire Y est associée à la densité fY : R → R+ si bien que
R
P (Y ∈ A) = A fY (y) dy.
• Loi uniforme sur [a, b], a < b.
ϕY (t) =
R
R
1
eity b−a
1[a,b] (y) dy =
Z
eity dPY (y) =
1 R b ity
e
b−a a
ϕY (t) =
dy =
eitb − eita
it (b − a)
Z
eity fY (y) dy.
1 eity b
[ ] .
b−a it a
si t 6= 0.
• Loi exponentielle de paramètre l > 0
ϕY (t) =
R
R
eity le−ly 1R (y) dy =
R +∞
0
le(it−l)y dy = [le(it−l)y /(it − l)]+∞
0 .
ϕY (t) =
l
.
l − it
Remarque on utilise parfois à la place de la fonction caractéristique la notion
de fonction génératrice.
Définition 13 On considère l’ensemble des z ∈ C pour lesquels la fonction z Y
est intégrable. La fonction génératrice d’une variable aléatoire Y est définie sur
cet ensemble par l’expression
z 7→ E(z Y )
Attention, elle n’est pas forcément définie pour tout z ∈ C, la fonction z 7→ z Y
n’étant pas forcément intégrable. Lorsque z = eit , elle est bien intégrable et on
retrouve la fonction caractéristique de la variable Y .
5.3
Convergence en loi
Rappelons que Yn converge en loi vers Y si pour toute fonction f : R → R
continue bornée,
Z
Z
f dPYn −−−−→ f dPY .
n→∞
Définition 14 Soit µn et µ des mesures de probabilité définies sur la tribu des
boréliens de R. Nous dirons que µn converge étroitement
vers µ si pour toute
Z
R
fonction f : R → R continue bornée, f dµn −−−−→ f dµ.
n→∞
La suite Yn converge en loi vers Y si et seulement si PYn converge étroitement
vers PY . On va relier la convergence en loi à la convergence simple des fonctions
caractéristiques, dans le but de démontrer le théorème de la limite centrée.
Théorème 6 Soit µ, µn , n ∈ N, des mesures de probabilité définies sur la tribu
des boréliens de R. Les propriétés suivantes sont équivalentes :
–
–
–
Z
Z
Z
f dµn −−−−→
n→∞
f dµn −−−−→
n→∞
f dµn −−
−−→
n→∞
Z
Z
Z
f dµ pour toute fonction f continue bornée,
f dµ pour toute fonction f C ∞ à support compact,
f dµ pour toute fonction f de la forme eitx , t ∈ R.
Le premier point correspond à la convergence étroite des µn vers µ. Le dernier
point correspond à la convergence des transformées de Fourier des µn . On en
déduit le corollaire suivant.
Corollaire 3 Soit µ, µn des mesures de probabilité définies sur la tribu des boréb
liens de R. Si pour tout t ∈ R , µb n (t) −−−−→ µ(t)
, alors µn converge vers µ
n→∞
étroitement.
Soit (Yn ) une suite de variables aléatoires. Si pour tout t ∈ R, ϕYn (t) −−−−→ ϕY (t),
n→∞
alors Yn converge vers Y en loi.
Rappelons que f : R → R est à support compact s’il existe A > 0 tel que f est
nulle hors de [−A, A]. Un exemple de fonction C ∞ à support compact est donné
par
− 1
f (x) = e 1−x2 1[−1,1] (x).
0.5
0.4
0.3
0.2
0.1
0
-1
-0.1 0
-0.5
0.5
1
Pour démontrer le théorème, nous allons avoir besoin de la formule d’inversion
de Fourier. Soit f : R → R une fonction intégrable par rapport à la mesure de
Lebesgue. Sa transformée de Fourier est définie par
fb(t)
=
Z
e−itx f (x) dx.
R
On montre que cette fonction est continue en appliquant le théorème de continuité
sous le signe intégral.
47
Théorème 7 (formule d’inversion de Fourier) Soit f une fonction C ∞ à
support compact. Alors
f (x) =
1
2π
Z
R
eitx fb(t) dt
pour tout x ∈ R.
La preuve du théorème est donnée en annexe, sous des hypothèses un peu plus
générales. La formule d’inversion de Fourier implique la relation suivante entre µ
et sa transformée de Fourier.
Corollaire 4 Soit µ une mesure de probabilité définie sur la tribu des boréliens
de R et f : R → R une fonction C ∞ à support compact. Alors
Z
Z
1
f (x) dµ(x) =
2π
b
fb(t) µ(t)
dt.
Preuve du corollaire
Z
f (x) dµ(x) =
R
Z
R
1
2π
Z
eitx fb(t) dt dµ(x)
R
Z Z
1
eitx fb(t) dµ(x) dt
2π R R
Z
Z
1
itx
b
f (t)
=
e dµ(x) dt
2π R
R
Z
1
fb(t) µb n (t) dt.
=
2π R
=
Ici on a utilisé le théorème de Fubini pour intervertir les deux intégrales. Pour
RR
justifier l’emploi de ce théorème, remarquons que l’intégrale R2 |eitx fb(t)| dµ(x) dt
est finie :
Z Z
R R
|eitx fb(t)| dµ(x) dt =
Z
dµ(x)
R
Z
|fb(t)| dt =
R
La preuve est terminée.
R
Z
R
|fb(t)| dt < ∞.
R
On commence par démontrer que f dµn −→ f dµ pour toute f C ∞ à support
b
compact si µb n (t) −→ µ(t)
pour tout t ∈ R.
D’après le corollaire précédent,
Z
f (x) dµn (x) =
Z
1
2π
Z
Z
fb(t) µb n (t) dt,
1
b
fb(t) µ(t)
dt.
2π
Il suffit d’appliquer le théorème de convergence dominée pour conclure :
Z
f (x) dµ(x) =
fb(t) µb n (t) dt −−−−→
n→∞
Z
b
fb(t) µ(t)
dt.
b
L’emploi du théorème de convergence dominée est justifié ici car µb n (t) −−−−→ µ(t)
n→∞
pour tout t ∈ R par hypothèse et fb µb n est majorée par fb qui est intégrable.
R
R
On cherche à présent à démontrer que si f dµn −→ f dµ pour toute fonction
∞
C à support compact, il en va de même pour toute fonction continue bornée.
Lemme 4 Pour tout ε > 0, il existe A > 0 tel que pour tout n ∈ N,
µn ([−A, A]) ≥ 1 − ε.
Une suite de mesures de probabilité qui vérifie cette propriété est dite tendue.
Preuve du lemme
Soit g une fonction C ∞ telle que
1
• 0 ≤ g ≤ 1,
• g = 1 sur [−A + 1, A − 1],
• g = 0 sur [−A, A]c .
0
Fixons ε > 0. Comme µ([−A + 1, A − 1]) −−−−→ µ(R) = 1, on peut choisir A0 tel
A→∞
que µ[−A0 + 1, A0 − 1] > 1 − ε.
µn ([−A0 , A0 ]) ≥
Z
gdµn −−−−→
n→∞
Z
gdµ ≥ µ([−A0 + 1, A0 − 1]) > 1 − ε.
On peut donc trouver n0 ∈ N tel que pour tout n ≥ n0 , µn ([−A0 , A0 ]) ≥ 1 − ε.
De plus, pour chaque k ∈ {0, ..., n0 }, on peut trouver un ensemble Ak tel que
µk ([−Ak , Ak ]) ≥ 1 − ε. Pour tout A supérieur à max{A0 , ..., An0 }, on a
∀n ∈ N,
µn ([−A, A]) ≥ 1 − ε.
Le lemme est démontré.
Soit f continue bornée. Sur [−A−2, A+2] , on peut approcher f uniformément
par une fonction C ∞ en faisant appel au théorème de Stone-Weierstraß ou en
convolant avec une fonction C ∞ . Cette approximation peut être prolongée en
une fonction C ∞ à support compact définie sur R tout entier en la multipliant
par une fonction de classe C ∞ , comprise entre 0 et 1, qui vaut 1 sur [−A, A] et 0
hors de [−A − 1, A + 1]. Pour tout ε > 0 on peut donc trouver f˜ C ∞ à support
compact telle que
sup |f (x) − f˜(x)| < ε.
x∈[−A,A]
49
R
R
On veut montrer que | f dµn − f dµ| est inférieur à ε pour tout n suffisamment
grand. On décompose comme suit :
Z
f dµn −
Z
f dµ ≤
Z
f dµn −
Z
Z
f˜dµn + f˜dµn −
Z
Z
f˜dµ + f˜dµ −
Z
f dµ R
˜ dµn −→ R f˜ dµ. On peut trouver
• Comme f˜ est C ∞ à support compact,
f
R
R
N ∈ N tel que pour tout n ≥ N, | f˜dµn − f˜dµ| < ε.
R
R
R
˜
|f − f˜| dµn +
• | f dµn − f˜dµn | ≤
c |f − f | dµn
[−A,A]
[−A,A]
≤ ε µn ([−A, A]) + (supR |f | + supR |f˜|) µn ([−A, A]c )
≤ ε + (supR |f | + supR |f˜|) ε.
Cette majoration est valide pour tout n ∈ N.
R
• Le terme | f − f˜ dµ | se majore de la même façon.
Finalement, on remarque que sup |f˜| ≤ sup |f | + ε ≤ sup |f | + 1 sur R par
construction. On a donc, pour tout n ≥ N,
Z
f dµn −
Z
Le théorème est démontré.
f dµ ≤ (4 + 2 sup |f |) ε.
Proposition 11 Soient µn , µ des mesures de probabilités définies sur la tribu
des boréliens de R. On suppose que µn converge étroitement vers µ. Alors pour
tout a, b ∈ R tels que µ({a}) = 0 et µ({b}) = 0, on a
µn ([a, b]) −−−−→ µ([a, b]).
n→∞
De même, pour tout x ∈ R tel que µ({x}) = 0,
µn ([x, +∞[) −−−−→ µ([x, +∞[),
n→∞
µn (] − ∞, x]) −−−−→ µ(] − ∞, x]).
n→∞
Appliquons cette proposition à une suite de variables aléatoires.
Corollaire 5 Soient (Xn )n∈N et X des variables aléatoires définies sur un espace
probabilisé (Ω, T , P ) telles que Xn converge en loi vers X. Alors pour tout a, b ∈ R
tels que P (X = a) = P (X = b) = 0,
P (a ≤ Xn ≤ b) −−
−−→ P (a ≤ X ≤ b).
n→∞
De plus, les fonctions de répartition des Xn convergent vers la fonction de répartition
de X en tout point x ∈ R tel que P (X = x) = 0 :
FXn (x) −−−−→ FX (x) si P (X = x) = 0.
n→∞
Remarque On peut démontrer que la convergence des fonctions de répartition
en tout point x tel que P (X = x) = 0 est en fait équivalente à la convergence en
loi de la suite Xn vers X.
Preuve
Il s’agit d’approcher 1[a,b] par des fonctions continues bornées. Soit hm la fonction
continue bornée, affine par morceaux telle que :
• hm = 1 sur [a + m1 , b − m1 ],
• hm = 0 hors de [a, b].
• la pente de hm vaut m sur [a, a + m1 ] et −m sur [b − m1 , b].
Soit gm la fonction continue bornée, affine par morceaux, telle que
• gm = 1 sur [a, b],
• gm = 0 hors de [a − m1 , b + m1 ],
• la pente de gm vaut m sur [a − m1 , a] et −m sur [b, b + m1 ].
Nous avons la majoration 0 ≤ gm − hm ≤ 1[a− 1 ,a+ 1 ] + 1[b− 1 ,b+ 1 ] si bien que
m
0≤
Z
gm − hm dµ ≤ µ
h
1
1
a− ,a+
m
m
m
i
+µ
m
m
h
1
1i
b − ,b+
m
m
Ce dernier terme converge vers µ({a}) + µ({b}), quantité
qui est nulle par hyR
pothèse. Fixons ε > 0 et choisissons n ∈ N tel que gm − hm dµ ≤ ε.
La suite µn converge vers µ étroitement et hm ≤ 1[a,b] ≤ gm , nous avons donc
pour tout n suffisamment grand,
Z
hm dµ − ε ≤
Z
hm dµn ≤ µn ([a, b]) ≤
Z
gm dµn ≤
Z
Nous avons aussi, en vertu des inégalités hm ≤ 1[a,b] ≤ gm et
Z
gm dµ − ε ≤
Z
hm dµ ≤ µ([a, b]) ≤
Z
gm dµ ≤
Z
gm dµ + ε.
R
gm − hm dµ ≤ ε,
hm dµ + ε,
ce qui donne le résultat recherché :
µ([a, b]) − 2ε ≤ µn ([a, b]) ≤ µ([a, b]) + 2ε.
On termine ce chapitre par la preuve d’un résultat énoncé précédemment.
51
Théorème 8 Soit Xn , X des variables aléatoires. Si Xn converge vers X en
probabilité, alors Xn converge vers X en loi.
Preuve
Soit f : R → R C ∞ à support compact. Par le théorème des valeurs intermédiaires, pour tout x, y ∈ R,
|f (x) − f (y)| ≤ sup |f ′| |x − y|.
R
On veut montrer que la différence
R
R
| f dPXn − f dPX |
R
R
R
f dPXn − f dPX tend vers 0 quand n −→ ∞.
R
= | f (Xn ) dP − f (X) dP |
≤
≤
R
R
|f (Xn ) − f (X)| dP
|Xn −X|>δ
|f (Xn ) − f (X)| dP +
R
|Xn −X|<δ
|f (Xn ) − f (X)| dP
≤ 2 supR |f | P (|Xn − X| > δ) + supR |f ′ | δ.
Comme Xn converge vers X en probabilité, P (|Xn − X| > δ) −−−−→ 0.
n→∞
Pour tout ε > 0 , on choisit δ telle que sup |f ′ | δ < ε/2. Il existe alors N ∈ N tel
que pour tout n ≥ N,
P (|Xn − X| > δ) ≤
R
R
ε
4 supR |f |
ce qui implique | f dPXn − f dPX | < ε. Le théorème est démontré.
5.4
Exercices
exercice 1
Montrer qu’une suite de variables aléatoires (Xn ) converge en loi vers zéro si et
seulement si les lois PXn convergent étroitement vers la mesure de Dirac en zéro.
exercice 2
Soit g une fonction C 1 à support compact et X une variable aléatoire. Montrer que
E(g(X)) = −
Z
R
FX (t) g ′(t) dt.
Soit (Xn ) une suite de variables aléatoires telle que FXn (x) converge vers FX (x)
pour tout x satisfaisant P (X = x) = 0. Montrer que Xn converge en loi vers X.
exercice 3
Soit (Ω, T , P ) un espace probabilisé. On considère sur l’ensemble
descouples de
|X−Y |
fonctions mesurables de Ω dans R l’expression d(X, Y ) = E 1+|X−Y | .
Montrer que cela définit une distance si on identifie les fonctions qui coı̈ncident
presque partout. Montrer que la convergence relativement à cette distance est
proba
équivalente à la convergence en loi : Xn −−−−→ X ⇔ d(Xn , X) −−−−→ 0.
n→∞
n→∞
exercice 4
Soit (Ai ) une suite d’événements indépendants dans leur ensemble.
proba
– Montrer que 1Ai −−−−→ 0 si et seulement si P (Ai ) → 0.
i→∞
p.s.
– Montrer que 1Ai −−−−→ 0 si et seulement si la série
i→∞
X
P (Ai ) est convergente.
i∈N
exercice 5
Étudier la convergence en loi des suites (Xn )n∈N∗ suivantes :
– P (Xn = 1 + n1 ) = 21 = P (Xn = 1 − n1 ).
– P (Xn = 0) = 1 − n1 et P (Xn = 1) = n1 .
, 1}.
– Xn de loi uniforme sur {0, n1 , n2 , ..., n−1
n
exercice 6
Soit Sn,p une variable aléatoire qui obéit à une loi binomiale de paramètres n, p.
– Calculer la fonction caractéristique de Sn,p . Cette fonction est notée ϕn,p .
– La suite ϕn, 1 converge-t-elle simplement lorsque n tend vers +∞ ?
n
– Calculer la fonction caractéristique de la loi de Poisson de paramètre λ > 0.
– Que peut-on dire de la suite Sn, 1 ?
n
exercice 7
Soit (Xn ) et (Yn ) deux suites de variables aléatoires et a ∈ R. Montrer que
loi
proba
n→∞
n→∞
Xn −−−−→ a si et seulement si Xn −−−−→ a.
loi
loi
loi
n→∞
n→∞
n→∞
Xn −−−−→ X et Yn −−−−→ 0 implique Xn + Yn −−−−→ X.
Chapitre 6
Théorème de la limite centrée
Pour démontrer le théorème de la limite centrée, nous allons utiliser la caractérisation de la convergence en loi par le biais des fonctions caractéristiques. On
commence par calculer la fonction caractéristique de la loi normale.
6.1
Fonction caractéristique de la loi normale
Théorème 9 Soit Y une variable aléatoire qui obéit à une loi normale centrée
2
normalisée (m = 0, σ = 1). Sa densité est donnée par fY (y) = √12π e−y /2 et sa
fonction caractéristique vaut
2 /2
ϕY (t) = e−t
.
Preuve
R
2
Par définition, ϕY (t) = R eity √12π e−y /2 dy.
On sait que eity =
Z
ity −y 2 /2
e e
dy =
R
=
P+∞
k=0
Z
(ity)k
k!
+∞
X
(ity)k −y2 /2
e
dy
k!
R k=0
+∞
XZ
k=0 R
=
pour y ∈ R. Remplaçons dans l’intégrale précédente.
(it)k k −y2 /2
y e
dy
k!
+∞
X
(it)k
k!
k=0
Z
y k e−y
2 /2
dy.
R
Pour justifier l’interversion signe somme intégrale, il faut vérifier que la quantité
R P∞ (ity)k y2 /2
| dy est finie.
0 | k! e
R
Z
+∞
−∞
e−y
2 /2
∞
X
0
|ty|k
dy =
k!
Z
+∞
−∞
53
e−y
2 /2
e|ty| dy < +∞.
54
CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE
Il faut maintenant calculer Ik =
R
R
y k e−y
2/2
dy.
Lorsque k est impair, la fonction y 7→ y k e− y 2/2 est une fonction impaire, si bien
que son intégrale est nulle : I2l+1 = 0 pour tout l ∈ N. Pour k pair, k = 2l , on
fait une intégration par partie pour obtenir une relation de récurrence.
I2l+2 =
Z
y
2l+1
−y 2 /2
ye
Nous savons que I0 =
dy = [y
R
−y
Re
2l+1
2 /2
−y 2 /2
(−e
dy =
)]+∞
−∞ +
√
Z
(2l + 1)y 2le−y
2 /2
dy = (2l + 1)I2l
2π, si bien que
√
I2l = (2l − 1)(2l − 3)...3 × 1 × 2π.
La quantité I2l est divisée par (2l)! dans l’expression de la fonction caractéristique.
√
(2l − 1)(2l − 3)...1
I2l
=
2π
(2l)!
(2l)(2l − 1)(2l − 2)(2l − 3)...1
√
1
2π
=
(2l)(2l − 2)(2l − 4)...2
√
1
1
2π
= l
2 l(l − 1)(l − 2)...1
1 √
2π.
= l
2 l!
Nous pouvons calculer ϕY :
1
ϕY (t) = √
2π
Z
eity e−y
2 /2
dy =
+∞
X
(it)2l
l=0
∞
X
(−t2 )l
I2l
−t2 /2
√ =
=
e
.
(2l)! 2π l=0 2l l!
La formule est démontrée.
6.2
Théorème 10 Soit (Ω, T , P ) un espace probabilité, (Xn )n∈N une suite de variables aléatoires indépendantes, identiquement distribuées, de carrés intégrables
P
et de variance non nulle. On pose Sn = ni=1 Xi . Alors la loi de la variable
aléatoire
√ n Sn
− E(X0 )
σ(X0 ) n
converge étroitement vers une loi normale d’espérance nulle et d’écart-type 1. En
particulier, pour tout intervalle [a, b] ∈ R,
√ Z b
n Sn
1
2
P a≤
− E(X0 ) ≤ b −−−−→ √
e−x /2 dx.
n→∞
σ(X0 ) n
2π a
55
6.2. THÉORÈME DE LA LIMITE CENTRÉE
Remarque
L’événement ci-dessus peut s’écrire comme suit :
a≤
√
n
( Sn
σ(X0 ) n
− E(X0 )) ≤ b
=
=
√
n
( Snn
σ(X
0)
√ 0) ≤
E(X0 ) + a σ(X
n
Lorsque n est grand, la probabilité que
"
est proche de
√1
2π
• Pour t = 1, 96,
• Pour t = 2, 58,
Rt
−t
√1
2π
√1
2π
− E(X0 )) ∈ [a, b]
Sn
n
Sn
n
2 /2
√ 0)
≤ E(X0 ) + b σ(X
n
soit dans l’intervalle
σ(X0 )
σ(X0 )
E(X0 ) − t √ , E(X0 ) + t √
n
n
e−x
#
dx.
Rt
−x2 /2
dx
−t e
R t −x2 /2
dx
−t e
= 0, 95.
= 0, 99.
Il y a donc à peu près 99% de hchance, lorsque n est grand, d’avoir unei moyenne
√ 0 ) , E(X0 ) + 2, 58 σ(X
√ 0) .
empirique Snn dans l’intervalle E(X0 ) − 2, 58 σ(X
n
n
Il est d’usage de noter la convergence des lois d’une suite de variables aléatoires
Yn vers la loi normale de paramètres m, σ comme suit :
loi
Yn −−−−→ N (m, σ 2 )
n→∞
Dans le cas où les Xi sont indépendantes identiquement distribuées d’espérance
nulle et d’écart-type égal à un, le théorème de la limite centrée peut se résumer
comme suit :
S
loi
√n −−−−→ N (0, 1).
n→∞
n
Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer que les Xi sont
centrées : E(Xi ) = 0. Quitte à diviser par σ(Xi ), on peut aussi supposer que
Sn
converge vers la loi normale. Il suffit
σ(Xi ) = 1. On veut montrer que la loi de √
n
donc de montrer que
2 /2
ϕ √Sn (t) −−−−→ e−t
n
Calculons :
n→∞
pour tout t ∈ R.
56
Sn
it √
n
ϕ √Sn (t) = E e
n
= E e
= E
=
it
√
n
n
Y
n
Y
Pn
1
e
Xk
it
√
X
n k
k=1
k=1
E e
= E e
= ϕ X0
it
√
X
n k
it
√
X
n 0
√t
n
n
n
par indépendance,
car les Xi sont de même loi,
.
Pour calculer la limite de cette expression quand n tend vers +∞ , on fait un
développement limité. Comme X0 est de carré intégrable, ϕX0 est C 2 et on a :
ϕX0 (t) =
Z
itX0
e
dP,
ϕ′X0 (t)
=
Z
itX0
iX0 e
dP,
ϕ′X0 (0) = iE(X0 ) = 0,
ϕX0 (0) = 1,
2
ϕ′′X0 (t)
=
Z
−X02 eitX0 dP,
ϕ′′X0 (0) = −E(X02 ) = −1.
D’après la formule de Taylor, ϕX0 (x) = 1 − x2 + x2 ε0 (x), avec ε0 (x) −→ 0 lorsque
x → 0. Ceci implique :
t n
t2
t n
t2
ϕ √Sn (t) = ϕX0 √
+
ε0 ( √ ) ,
= 1−
n
n
2n 2n
n
n ln 1 −
t2
t2
t t2
t
1
1 1
t2
t2
+ ε0 ( √ ) = n − + ε0 ( √ ) + ε1 ( √ ) = − + ε2 ( √ ),
2n n
n
2n n
n
n
n
2
n
2
2
t2
t n
t2
− t +ε ( √1 )
− t2
.
−
−
→
e
+ ε0 ( √ ) = e 2 2 n −−
n→∞
n
2n n
n
Le théorème de la limite centrée est démontré.
ϕ √Sn (t) = 1 −
6.3
Illustration numérique
Nous allons illustrer le théorème de la limite centrée à l’aide des graphes des
fréquences de la suite Sn .
Soit X une variable aléatoire discrète. Le graphe des fréquences de X correspond au graphe de la fonction x 7→ P (X = x), où x varie parmi les nombres réels
tels que P (X = x) > 0.
Considérons le lancer d’un dé à six faces, modélisé par une variable aléatoire
X0 qui suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5, 6} : P (X0 = k) = 1/6
pour k entier compris entre 1 et 6. On répète le lancer n fois, n ∈ N∗ , ce qui se
décrit par une suite de variables aléatoires X1 , ... Xn indépendantes entre elles et
P
ayant même loi que X0 . On pose Sn = nk=1 Xk . Voici les graphes des fréquences
de X0 et S2 = X1 + X2 .
57
1
0.16
0.14
0.5
0.12
0.1
0
0.08
0.06
−0.5
0.04
0
2
4
6
8
0
Graphe des fréquences de X0
2
4
6
8
10
12
14
Graphe des fréquences de S2 = X1 + X2
On calcule le graphe des fréquences de Sn pour tout n par récurrence en utilisant
la formule
X
P (Xn+1 = l)P (Sn = k − l)
P (Sn+1 = k) =
j
où la somme porte sur l’ensemble des valeurs l que prend Xn+1 . Si n est suffisamment grand, le graphe des fréquences devrait se rapprocher d’une gaussienne,
pour peu qu’il soit convenablement renormalisé. Dans les figures qui suivent, on
s’est restreint sur l’axe des abscisses aux valeurs de k qui sont à moins de trois
fois l’écart-type de l’espérance de Sn .
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
5
10
15
5
10
Graphe de S3
15
20
Graphe de S4
0.1
0.06
0.08
0.06
0.04
0.04
0.02
0.02
0
0
10
15
20
Graphe de S5
25
20
25
30
35
40
45
Graphe de S10
50
58
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.0
0.02
0.01
0.01
0
0
40
60
50
70
0
50
Graphe de S15
0
80
90
Graphe de S20
Dès n = 5, on voit les probabilités s’ordonner selon la fameuse courbe en cloche,
dont la densité est donnée par la gaussienne.
Il est intéressant de regarder ce qu’on obtient lorsqu’on part d’une loi qui
k2
présente plusieurs maxima. Prenons pour X0 la loi P (X0 = k) = 770
pour k
compris entre −10 et 10. Le graphe des fréquences de X0 est ci-dessous.
P (X0 = k) =
k2
,
770
k ∈ {−10, −9, .., 9, 10}
0.08
0.12
0.1
0.06
0.08
0.06
0.04
0.04
0.02
0.0
0
0
−10
10
20
30
−10
0
10
Graphe de X0
20
30
40
50
Graphe de S2
0.025
0.015
0.02
0.01
0.015
0.01
0.005
0.005
0
0
20
40
60
80
Graphe de S5
100
40
60
80
100
120
140
Graphe de S10
160
59
0.012
0.012
0.01
0.01
0.008
0.008
0.006
0.006
0.004
0.004
0.002
0.002
0
0
100
150
200
150
Graphe de S15
200
250
300
Graphe de S20
La gaussienne met plus de temps à apparaı̂tre. Les premiers graphes présentent
des oscillations qui s’amortissent quand n devient grand.
Un autre cas intéressant est donné par une loi fortement dissymétrique. Considérons un X0 pour lequel
P (X0 = 1) = 0, 95
P (X0 = 2) = P (X0 = 3) = P (X0 = 4) = P (X0 = 5) = P (X0 = 6) = 0, 01.
0.8
0.4
0.6
0.3
0.4
0.2
0.2
0.1
0
0
0
1
2
3
4
5
6
10
7
Graphe de X0
12
14
16
18
20
22
24
Graphe de S2
0.2
0.08
0.15
0.06
0.1
0.04
0.05
0.02
0
25
30
35
40
Graphe de S5
45
0
4
0
60
6
Graphe de S10
70
60
0.0
0.06
0.0
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
0
70
80
0
Graphe de S15
100
100
110
120
130
Graphe de S20
Comme nous pouvons le voir sur ces graphiques, la dissymétrie est encore présente
pour n = 100. Cet exemple doit donc inciter à la prudence quant aux valeurs de
n pour lesquelles l’approximation donnée par la loi normale est pertinente. Il est
d’usage en statistique de faire cette approximation dès que n = 30, mais cela
n’est pas toujours valide en pratique.
61
6.4. EXERCICES
6.4
Exercices
exercice 1
Soit Xk une suite de variables aléatoires indépendantes suivant chacune une loi
P
de Poisson de paramètre un. Quelle est la loi de la somme 1≤k≤n Xk ?
Considérons pour chaque n ∈ N∗ une variable aléatoire Yn suivant une loi de
Poisson de paramètre n ∈ N∗ . Montrer que
Yn − n loi
√
−−
−−→ N (0, 1).
n→∞
n
exercice 2
Soit Y , Yn et Zn des variables aléatoires telles que Yn converge en loi vers Y et Zn
converge presque sûrement vers une constante c ∈ R. Montrer que Yn Zn converge
en loi vers cY . Indication : Yn et Zn sont tendues.
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement
distribuées, de carrés intégrables, centrées. Montrer que
n
X
k=1
Xk
X
n
Xk2
k=1
1/2
−−−−→ N (0, 1).
n→∞
exercice 3
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées, positives, de carrés intégrables et telles que E(Xn ) = 1, σ(Xn ) = 1.
Montrer que
q
√ loi
2 Sn − n −−−−→ N (0, 1).
n→∞
exercice 4
P
Soit (Xn ) une suite de variables aléatoires indépendantes, Sn = nk=1 Xk . Étudier
la convergence en loi de Sn /σ(Sn ) dans les cas suivants :
√
√
– P (Xk = k ) = P (Xk = − k ) = 12
– P (Xk = k) = P (Xk = −k) = 21
– P (Xk = √1k ) = P (Xk = − √1k ) = 12
∞
– P (Xk = ak ) = P (Xk = −ak ) = 21 , où (ak )k∈N∗ est bornée et
X
a2k = +∞.
k=1
exercice 5
Soit ϕ la fonction caractéristique d’une variable aléatoire réelle X non constante.
On suppose que ϕ est réelle et positive.
– Montrer que ϕ(t) =
R
R
cos(tx) dPX (x).
– Montrer que pour tout u ∈ R, cos(u) ≤ 1 −
– Montrer la minoration pour t ∈ R :
1−ϕ(t)
t2
u2
2
≥
+
1
2
u4
.
24
R
[− 1t , 1t ]
x2
1−
t2 x2
12
dPX (x).
– Montrer qu’il existe δ > 0 et ǫ > 0 tels que pour tout t ∈ ]−δ, δ[ , |ϕ(t)| ≤ 1−εt2 .
p
– En déduire que pour tout p > 2, la fonction t 7→ e−|t| n’est la fonction caractéristique d’aucune mesure de probabilité.
62
Chapitre 7
Espérance conditionnelle
Nous allons introduire un nouveau concept pour mesurer l’indépendance de deux
variables aléatoires ou d’une variable aléatoire et d’une tribu.
7.1
Définition de la notion d’espérance conditionnelle
aléatoire intégrable et F ⊂ T une tribu. Alors il existe une unique fonction
intégrable E(X | F ), appelée l’espérance conditionnelle de X sachant F , qui
satisfait les deux conditions suivantes :
– E(X | F ) est F -mesurable,
– pour toute variable aléatoire Y qui est F -mesurable bornée,
E(E(X | F ) Y ) = E(XY ).
L’unicité est à comprendre “presque partout”. Deux fonctions qui satisfont les
conditions précédentes sont égales presque partout.
Définition 16 La probabilité conditionnelle d’un événement A ⊂ Ω relativement
à la tribu F est la fonction définie par
P (A | F ) = E(1A | F ).
Attention, P (A | F ) est une fonction définie presque partout sur Ω. Il n’est pas
garanti qu’il y ait, pour presque tout ω ∈ Ω, une mesure de probabilité µω définie
sur T telle que µω (A) = P (A | F )(ω).
63
64
CHAPITRE 7. ESPÉRANCE CONDITIONNELLE
Preuve de l’existence de E(X | F )
On commence par le cas où X est de carré intégrable. L’espace L2 (Ω, T , P ) est
muni d’un produit scalaire :
hX, Y i =
Z
X Y dP = E(XY ).
On a donc une notion d’orthogonalité et de projection orthogonale. Considérons
le sous-espace fermé L2 (Ω, F , P ) constitué des fonctions de carré intégrable qui
sont F -mesurables. L’espérance conditionnelle de X est la projection orthogonale
de X sur ce sous-espace. Cette projection orthogonale appartient au sous-espace
si bien que E(X | F ) est F -mesurable. C’est la première condition.
La variable aléatoire X − E(X | F ) est orthogonale à tous les éléments Y de
L (Ω, F , P ) :
hX − E(X | F ), Y i = 0
2
Autrement dit, E((X − E(X | F )) Y ) = 0. C’est la seconde condition. Ces deux
conditions caractérisent de manière unique la projection orthogonale.
On peut généraliser cela aux variables aléatoires positives. Soit X ≥ 0, on pose
Xl = min(X, l). La variable aléatoire Xl est borné donc de carré intégrable et Xl
converge en croissant vers X. On va vérifier dans la suite que E(Xl | F ) est une
fonction positive et que la suite E(Xl | F ) est croissante. On définit alors
E(X | F ) = lim E(Xl | F ) ∈ [0, +∞].
l→∞
En utilisant le théorème de convergence croissante, on montre que E(X | F )
satisfait les conditions voulues pour tout Y ≥ 0.
Pour les variables aléatoires intégrables, on les écrit comme différence de variables aléatoires intégrables positives, pour lesquelles on a vu comment définir
l’espérance conditionnelle.
Le passage du cadre L2 au cadre des variables aléatoires positives puis intégrables est justifié par les propriétés de l’espérance conditionnelle qui vont être
détaillées après les exemples qui suivent.
7.2
Exemples
Tribu associée à une partition finie
On considère une partition finie (Ei )i=1..n de Ω :
–Ω=
n
[
Ei
i=1
– Ei ∩ Ej = ø pour tout i, j tels que i 6= j.
65
7.2. EXEMPLES
– P (Ei ) 6= 0 pour tout i.
On peut associer à cette partition une tribu
F=
n[
i∈S
o
Ei | S ⊂ {1, ..., n} .
C’est l’ensemble des parties de Ω qui peuvent s’écrire comme union d’éléments
de la partition.
Proposition 12
E(X | F )(ω) =
n
X
i=1
Z
n X
E(X 1Ei )
1
1Ei (ω) =
X dP 1Ei (ω)
P (Ei )
i=1 P (Ei ) Ei
P (A | F )(ω) =
avec la notation P (A | B) =
n
X
i=1
P (A | Ei ) 1Ei (ω)
P (A∩B)
.
P (B)
On a donc P (A | F )(ω) = P (A | Ei ) si ω ∈ Ei .
Preuve de la proposition
P E(X 1Ei )
On montre que la variable aléatoire
1Ei satisfait les deux propriétés qui
P (Ei )
définissent l’espérance conditionnelle.
Commençons par vérifier que toute fonction F -mesurable est combinaison
linéaire des fonctions indicatrices des Ei . Pour cela, montrons qu’une telle fonction f est constante sur chacun des Ei . Soit x, y ∈ Ei , l’ensemble f −1 ({f (x)}) est
dans F et contient x, il contient donc Ei . Le point y ∈ Ei est dans cet ensemble,
par conséquent f (y) = f (x).
L’espérance conditionnelle E(X | F ) est F -mesurable, nous venons de voir
P
qu’elle est de la forme E(X | F ) =
ck 1Ek , où les ck restent à déterminer.
On utilise la deuxième propriété définissant l’espérance conditionnelle en prenant
Y = 1Ei pour un certain i.
E(E(X | F ) Y ) =
=
=
E(XY )
=
P
E(( ck 1Ek )1Ei )
E(ci 1Ei )
ci P (Ei )
E(X 1Ei ).
Ces deux expressions sont égales, ce qui donne ci =
E(X 1Ei )
P (Ei )
comme souhaité.
Le cas d’un espace produit
On considère l’espace produit Ω = Ω1 × Ω2 muni de la probabilité P = P1 ⊗ P2
et la tribu F = {A × Ω2 | A ⊂ Ω1 }. Vérifions qu’une fonction f est mesurable
par rapport à F si et seulement si elle ne dépend que de la première coordonnée.
66
Soit (ω1 , ω2 ) ∈ Ω ; posons f (ω1 , ω2 ) = t. Nous avons (ω1 , ω2) ∈ f −1 ({t}) ∈ F . Il
existe donc A ⊂ Ω1 tel que f −1 ({t}) = A×Ω2 . Le résultat (ω1 , ω2 ) est dans A×Ω2
et ω1 est dans A. Pour tout ω ∈ Ω2 , (ω1 , ω) appartient à A × Ω2 = f −1 ({t}), si
bien que f (ω1 , ω) = t = f (ω1 , ω2 ).
Calculons l’espérance conditionnelle d’une variable aléatoire X relativement à
la tribu F .
Proposition 13 E(X | F )(ω1 ) =
R
X(ω1 , ω2 ) dP2(ω2 ).
Preuve
Nous savons que E(X | F )(ω1 , ω2 ) est de la forme f (ω1 ) pour une certaine fonction f par F -mesurabilité. On doit avoir de plus pour tout Y : Ω1 → R
R
E(E(X | F ) Y ) =
f (ω1 )Y (ω1 ) dP1 (ω1 ) dP2 (ω2 )
R
=
f (ω1 )Y (ω1 ) dP1 (ω1 ).
Ceci doit être égal à E(XY ) =
donc l’égalité, pour tout Y ,
Z
f (ω1 )Y (ω1 ) dP1 (ω1 ) =
ce qui implique f (ω1 ) =
7.3
R
R
X(ω1, ω2 )Y (ω1 ) dP1(ω1 ) dP2 (ω2 ). Nous avons
Z Z
X(ω1 , ω2 )dP2 (ω2 ) Y (ω1 ) dP1 (ω1 )
X(ω1 , ω2 ) dP2(ω2 ).
Propriétés de l’espérance conditionnelle
L’espérance conditionnelle jouit d’un certain nombre de propriétés proches de
celles de l’intégrale. Soient X, Y deux variables aléatoires intégrables ou positives
et F une tribu.
Proposition 14
– E(X | {ø, Ω}) = E(X),
– E(E(X | F )) = E(X).
E(X | T ) = X,
E(1 | F ) = 1.
– Si X est F -mesurable, alors E(X | F ) = X.
– Si X est indépendante de F , alors E(X | F ) = E(X).
– Linéarité : pour tout λ ∈ R, E(λX + Y | F ) = λE(X | F ) + E(Y | F ).
– Positivité : si X ≥ 0 alors E(X | F ) ≥ 0.
– Monotonie : si X ≤ Y alors E(X | F ) ≤ E(Y | F ).
– Pour tout Y F -mesurable, positive si X est positive, bornée si X est intégrable,
E(Y X | F ) = Y E(X | F ).
7.3. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE
67
– Si X est dans Lp et 1 ≤ p ≤ ∞, alors kE(X | F )kp ≤ kXkp .
– Si F1 ⊂ F2 , alors
E(E(X | F1 ) | F2 ) = E(X | F1 ),
E(E(X | F2 ) | F1 ) = E(X | F1 ).
Preuve
Toutes ces propriétés sont d’abord démontrées pour des variables aléatoires de
carré intégrables en utilisant le fait que l’espérance conditionnelle est une projection orthogonale. Elles sont ensuite généralisées aux variables aléatoires positives par un argument de convergence croissante, et enfin aux variables aléatoires
intégrables en les décomposant comme différence de deux fonctions croissantes
intégrables.
– La variable E(X | T ) est la projection de X sur L2 (Ω, T , P ), cette projection
est égale à l’identité. Pour E(X | {ø, Ω}), toute fonction mesurable relativement
à la tribu {ø, Ω} est constante. La variable E(X | {ø, Ω}) est donc constante.
Prenons Y = 1, nous avons E(E(X | F )) = E(X), cette constante vaut donc
E(X).
– Si X est F -mesurable, X est dans L2 (Ω, F , P ), elle est donc égale à sa projection
sur L2 (Ω, F , P ) : E(X | F ) = X.
– Si X est indépendante de F , elle est indépendante de toute variable aléatoire
Y F -mesurable. Nous avons alors
E(E(X | F ) Y ) = E(XY ) = E(X)E(Y ) = E(E(X | F )) E(Y ).
Prenons Y = E(X | F ) qui est bien F -mesurable. Nous avons
E(E(X | F )2) = E(E(X | F ))2
ou encore V (E(X | F )) = 0. Ceci montre que E(X | F ) est constante p.s. En
conséquence, E(X | F ) = E(X).
– Linéarité : c’est la linéarité de la projection orthogonale.
– Positivité : soit X ≥ 0 ; on prend Y = 1(E(X|F )<0) .
E(E(X | F ) Y ) = E(E(X | F ) 1(E(X|F )<0) ) ≤ 0
E(XY ) = E(X1(E(X|F )<0) ) ≥ 0
Ces deux expressions sont égales, elles sont donc toutes les deux nulles, ce qui
implique E(X | F ) 1(E(X|F )<0) = 0 p.s. et par conséquent E(X | F ) ≥ 0 p.s.
68
– Monotonie : soit Y, Z tels que Y ≥ Z. D’après le point précédent,
E(Y | F ) − E(Z | F ) = E(Y − Z | F ) ≥ 0.
– Soit Y F -mesurable. La fonction Y E(X | F ) est aussi F -mesurable. De plus
pour tout Z F -mesurable,
E(ZY E(X | F )) = E(ZY X)
car ZY est F -mesurable. La fonction Y E(X | F ) satisfait donc les deux propriétés
caractérisant E(Y X | F ) et nous avons l’égalité
E(Y X | F ) = Y E(X | F ) p.s.
– Soit F1 ⊂ F2 . La fonction E(X | F1 ) est F2 -mesurable si bien que
E E(X | F1 ) | F2 = E(X | F1 ).
Démontrons l’égalité E E(X | F2 ) | F1 = E(X | F1 ).
La fonction E E(X | F2 ) | F1 est F1 -mesurable. De plus, pour tout Y F1 mesurable, Y est à la fois F1 et F2 -mesurable et d’après la propriété précédente,
E Y E E(X | F2 ) | F1
= E E E(Y X | F2 ) | F1
= E E(Y X | F2 )
= E(Y X)
Ce sont les deux propriétés qui caractérisent E(X | F1 ).
La majoration de la norme Lp de E(X | F ) découle de l’inégalité de Jensen,
qui fait l’objet de la proposition qui suit.
Proposition 15 (Inégalité de Jensen) Soit (Ω, T , P ) un espace probabilisé,
X : Ω → R une variable aléatoire et ϕ : R → R une fonction convexe. On
suppose que X et ϕ(X) sont intégrables ou positives. Alors
ϕ E(X | F ) ≤ E ϕ(X) | F
presque sûrement.
Preuve
Une fonction convexe est continue, admet des
dérivées à gauche et à droite en chaque point
et on a l’inégalité pour tout x, x0 ∈ R,
′
ϕ(x) ≥ ϕ(x0 ) + ϕ+ (x0 )(x − x0 )
où ϕ′+ (x0 )est la dérivée à droite en x0 . Le graphe
de ϕ se trouve au-dessus de ses tangentes.
-
- -
-
7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE69
Appliquons cette inégalité pour x = X(ω) et x0 = E(X | F )(ω).
ϕ(X) ≥ ϕ(E(X | F )) + ϕ′+ (E(X | F ))(X − E(X | F ))
On prend maintenant l’espérance conditionnelle des deux termes de cette inégalité.
E ϕ(X) | F ≥ E ϕ E(X | F ) | F + E
′
X −E(X | F )
ϕ′+
E(X | F ) | F
Les fonctions ϕ E(X | F ) et ϕ+ E(X | F ) sont F -mesurables si bien que
E ϕ E(X | F ) | F = ϕ E(X | F ) ,
E
′
X −E(X | F ) ϕ+ E(X | F )
L’inégalité est démontrée.
′
= ϕ+ E(X | F ) E X −E(X | F ) | F = 0.
Exemple
Les fonctions x 7→ |x|, x 7→ ex , x →
7 |x|p pour p ≥ 1 sont convexes. Appliquons
l’inégalité de Jensen à la fonction x →
7 |x|p .
|E(X | F )|p ≤ E(|X|p | F ).
Utilisons la monotonie de l’espérance :
kE(X | F )kpp = E |E(X | F )|p ≤ E E(|X|p | F ) = E(|X|p ) = kXkpp .
Nous avons démontré l’inégalité recherchée entre la norme Lp d’une variable
aléatoire et celle de son espérance conditionnelle.
7.4
Conditionnement relativement à une variable
aléatoire
On commence par associer à toute variable aléatoire X une tribu dont les éléments
sont composés d’union de lignes de niveau de X.
aléatoire. La tribu associée à X, notée TX ou S(X), est définie par :
TX = S(X) = {X −1 (A) ∈ T | A borélien de R}
Proposition 16 Une variable aléatoire Y : Ω → R est TX -mesurable si et seulement si il existe une fonction f : R → R borélienne telle que
Y = f ◦ X.
70
Preuve
Si Y = f (X), pour tout A borélien, l’ensemble Y −1 (A) = X −1 (f −1 (A)) est bien
dans TX .
Soit Y une variable aléatoire TX -mesurable. Montrons que Y est de la forme
f (X) pour une certaine fonction f borélienne.
• Traitons le cas où Y est étagée :
Y =
n
X
i=1
ci 1Ai , Ai ∈ TX .
Pour chaque i, on peut trouver un borélien Bi ⊂ R tel que Ai = X −1 (Bi ).
Y =
X
ci 1X −1 (Bi ) =
X
ci 1Bi ◦ X = (
X
ci 1Bi ) ◦ X
La variable aléatoire Y est bien de la forme h ◦ X avec h =
P
ci 1Bi .
• Passons au cas où Y ≥ 0. On peut l’approcher de manière croissante par une
suite de fonctions étagées (Yn )n∈N qui sont TX -mesurables, donc de la forme
hn ◦ X. Nous avons :
Yn = hn ◦ X ≤ (sup hn ) ◦ X = sup(hn ◦ X) = sup Yn = Y
n
n
Comme Yn converge vers Y , on en déduit Y = (supn hn ) ◦ X et Y est bien une
fonction de X.
• Toute variable aléatoire TX -mesurable peut s’écrire comme différence de deux
fonctions TX -mesurables positives de la forme h◦X. La proposition est démontrée.
Nous somme en mesure de définir l’espérance conditionnelle d’une variable
aléatoire relativement à une autre variable aléatoire.
Définition 18 Soit X, Y deux variables aléatoires définies sur Ω. L’espérance
conditionnelle de Y relativement à X, notée E(Y | X), est définie par
E(Y | X) = E Y | TX .
Soit A ∈ T . La probabilité conditionnelle de A relativement à X est définie par
P (A | X) = E(1A | X) = E(1A | TX ).
La fonction E(Y | X) est TX -mesurable. Elle peut donc s’exprimer comme une
fonction de X. Cette fonction est notée E(Y | X = x). C’est l’espérance de Y
sachant que X a pris la valeur x et on a pour P -presque tout ω ∈ Ω,
E(Y | X)(ω) = E Y | X = X(ω) ,
P (A | X)(ω) = P A | X = X(ω) .
Notons que l’espérance conditionnelle E(Y | X = x) est une fonction de R dans
R qui est définie PX -presque partout. De fait, deux fonctions f et g sont égales
PX -presque partout si et seulement si f ◦X et g◦X sont égales P -presque partout,
d’après la formule de transfert.
On peut exprimer E(Y | X) en fonction de la loi du couple (X, Y ). Rappelons
que cette loi est donnée par la formule
P(X,Y ) (A) = P (X, Y ) ∈ A = P {ω ∈ Ω | (X(ω), Y (ω)) ∈ A}
pour tout sous-ensemble borélien A ⊂ R2 . La mesure P(X,Y ) est une mesure de
probabilité définie sur la tribu des boréliens de R2 . Elle est dite à densité si on
peut trouver fX,Y : R2 → R+ , d’intégrale un sur R2 , telle que
P(X,Y ) (A) =
Z
A
A ⊂ R2 .
fX,Y (x, y) dxdy,
Soit g : R → R une fonction borélienne telle que g(y) est positive ou intégrable.
L’espérance conditionnelle E(g(Y ) | X) est uniquement déterminée par le fait
qu’elle est TX -mesurable et qu’elle satisfait l’égalité
E E(g(Y ) | X) Z = E g(Y ) Z
pour tout Z TX -mesurable, c’est-à-dire pour tout Z de la forme f (X). La fonction
x 7→ E(g(Y ) | X = x) est donc uniquement déterminée par la relation :
Z
f (x) E(g(Y ) | X = x) dPX (x) =
Z
f (X) g(Y )dP =
Z
f (x) g(y) dP(X,Y ) (x, y).
Cas d’une loi P(X,Y ) à densité
Cherchons à donner une expression pour l’espérance conditionnelle dans le cas à
densité. Lorsque P(X,Y ) admet une densité fX,Y , la loi PX admet la densité
fX (x) =
Z
R
fX,Y (x, y) dy.
En remplaçant dans l’expression précédente, on doit avoir pour tout f : R → R
borélienne bornée,
Z
f (x) E(g(Y ) | X = x)
Z
fX,Y (x, y)dy dx =
Z
f (x)
Z
g(y) fX,Y (x, y) dy dx.
Comme cette relation doit être vérifiée pour toute fonction f , on en déduit la
proposition suivante.
72
Proposition 17 Soit X, Y deux variables aléatoires telles que le couple (X, Y )
admette une densité fX,Y et soit g : R → R une fonction borélienne positive ou
PY -intégrable. Alors, pour PX -presque tout x ∈ R,
E(g(Y ) | X = x) =
R
R
g(y)fX,Y (x, y) dy
.
R fX,Y (x, y) dy
R
Cas d’une loi PX discrète
Étudions maintenant le cas où P (X = x0 ) > 0 pour un certain x0 ∈ R, ce qui se
produit par exemple si X est une variable aléatoire discrète. Prenons pour f la
fonction indicatrice du singleton {x0 }. Nous avons la relation :
P (X = x0 )E(g(Y ) | X = x0 ) =
=
=
R
{x0 }
R
Ω
R
E(g(Y ) | X = x) dPX (x)
g(Y (ω)) 1(X=x0 ) (ω) dP (ω)
(X=x0 )
g(Y (ω)) dP (ω).
On retrouve l’expression habituelle de l’espérance conditionnelle pour les variables
aléatoires discrètes.
Proposition 18 Soit X, Y deux variables aléatoires et g : R → R une fonction
borélienne positive ou PY -intégrable. Pour tout x ∈ R tel que P (X = x) > 0,
E(g(Y ) | X = x) =
Z
E(g(Y ) 1(X=x) )
1
=
g(Y ) dP.
P (X = x)
P (X = x) (X=x)
On termine par une formule qui permet de calculer la probabilité d’un événement
à partir des probabilités conditionnelles.
Proposition 19 Soit X une variable aléatoire, A ∈ T et I ⊂ R un intervalle
ou un borélien de R. Alors
P A ∩ X −1 (I) =
P (A) =
Z
R
Z
I
P (A | X = x) dPX (x),
P (A | X = x) dPX (x).
Ces formules découlent des égalités
R
I
E(1A | X = x) dPX (x) = E(1(X∈I) E(1A | X))
= E(1(X∈I) 1A )
= P (A ∩ (X ∈ I)).
Généralisation à n variables
Les considérations précédentes se généralisent à un nombre quelconque de variables aléatoires.
Définition 19 Soient X1 , ..., Xn des variables aléatoires définies sur Ω. La tribu
engendrée par les Xi est notée TX1 ,...,Xn ou S(X1 , ..., Xn ).
TX1 ,...,Xn = S(X1 , ..., Xn ) = {(X1 , ..., Xn )−1 (A) | A ⊂ Rn borélien}
On pose
E(Y | X1 , X2 , ..., Xn ) = E Y | TX1 ,X2 ,...,Xn .
On démontre comme précédemment que toute fonction TX1 ,X2 ,...,Xn -mesurable est
de la forme f (X1 , X2 , ..., Xn ) où f : Rn → R est borélienne. On a donc une
fonction (x1 , ..., xn ) 7→ E(Y | X1 = x1 , ..., Xn = xn ) définie de Rn dans R qui,
composée avec (X1 , X2 , ..., Xn ), redonne E(Y | X1 , X2 , ..., Xn ).
74
7.5
Exercices
exercice 1
On considère un espace probabilisé (Ω, T , P ), une tribu F ⊂ T et deux événements
A ∈ T , F ∈ F . Montrer la formule suivante :
R
P (A | F ) dP
.
Ω P (A | F ) dP
P (F | A) = RF
Quelle formule obtient-on lorsque F est associée à une partition
`
Ei = Ω ?
exercice 2
Soit X une variable aléatoire de carré intégrable. Montrer que E(X 2 | X+1) = X 2 .
exercice 3
Soit X : Ω → R+ une variable aléatoire positive définie sur (Ω, T , P ) et F ⊂ T
une tribu. Montrer que presque sûrement, X > 0 implique E(X | F ) > 0.
exercice 4
Soit X, Y deux variables aléatoires telle que le couple (X, Y ) suit une loi uniforme
sur le disque unité : fX,Y (x, y) = π1 1[0,1] (x2 + y 2 ). Calculer E(X 2 | Y ).
exercice 5
Soit X une variable aléatoire de densité fX . On considère sa valeur absolue |X|.
– Montrer que |X| admet la densité f|X| (x) = fX (x) + fX (−x) 1R+ (x).
– Montrer que E g(X) | |X| = x =
g(x)fX (x) + g(−x)fX (−x)
fX (x) + fX (−x)
p.s.
exercice 6
On considère une variable aléatoire suivant une loi exponentielle de paramètre λ.
Sa densité est donc donnée par : f (x) = λ e−λx 1[0,∞[ (x)
– Pour s, t > 0, calculez P (X ≥ t) et P (X ≥ t + s | X ≥ s). On dit que la loi
exponentielle est sans mémoire.
– Montrer que cette propriété est aussi vraie pour une variable aléatoire discrète
suivant une loi géométrique de paramètre p.
exercice 7
Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ), F ⊂ T
2
une tribu et un nombre réel t > 0. Montrer que P (|X| ≥ t | F ) ≤ E(Xt2 |F ) .
exercice 8
Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ) et F ⊂ T
une tribu. On définit la variance conditionnelle de X relativement à F comme
suit :
V (X | F ) = E(X 2 | F ) − E(X | F )2
Montrer que V (X) = E(V (X | F )) + V (E(X | F )).
Chapitre 8
Théorie des martingales
Pour obtenir des théorèmes de convergence pour les séries de variables aléatoires
indépendantes, nous allons introduire le concept de martingale.
8.1
La notion de martingale
Définition 20 Soit (Ω, T , P ) un espace probabilisé, Fn ⊂ T des tribus, n ∈ N.
On dit que les Fn forment une filtration si elles constituent une suite croissante
pour l’inclusion : Fn ⊂ Fn+1 pour tout n ∈ N.
Une suite de variables aléatoires (Mn ) est dite adaptée à la filtration Fn si Mn
est Fn -mesurable pour tout n ∈ N.
La suite (Mn )n∈N est une martingale relativement à la filtration Fn si
– les Mn sont intégrables,
– la suite (Mn ) est adaptée à Fn ,
– E(Mn+1 | Fn ) = Mn pour tout n ∈ N.
Si la filtration Fn n’est pas spécifiée, on prend Fn = TM1 ,...,Mn .
Lorsque la suite est composée de fonctions de carrés intégrables, la variable Mn
s’obtient en projetant orthogonalement Mn+1 sur L2 (Ω, Fn ). Montrons que la
projection de Mn+k , k > 0, sur L2 (Ω, Fn ) est aussi égale à Mn .
Proposition 20 Pour tout k > 0, E(Mn+k | Fn ) = Mn .
Cette proposition se démontre par récurrence sur k. Supposons là vérifiée pour
k > 0 et démontrons là pour k + 1. Comme Fn ⊂ Fn+k ,
E(Mn+k+1 | Fn ) = E(E(Mn+k+1 | Fn+k ) | Fn ) = E(Mn+k | Fn ) = Mn .
La proposition est démontrée.
75
76
CHAPITRE 8. THÉORIE DES MARTINGALES
Donnons quelques exemples de martingales.
Premier exemple
Soit (Xk )k∈N une suite de variables aléatoires indépendantes entre elles et centrées
(E(Xn ) = 0 pour tout n ∈ N). Posons Sn = X1 + X2 + ... + Xn . Alors la suite
(Sn )n∈N est une martingale relativement à la filtration Fn = TX1 ,X2 ,...,Xn .
Preuve
La variable aléatoire Sn est bien intégrable et Fn -mesurable.
E(Sn+1 | Fn ) =
=
=
=
=
E(Sn+1 | X1 , ..., Xn )
E(Xn+1 + Sn | X1 , ..., Xn )
E(Xn+1 | X1 , ..., Xn ) + E(Sn | X1 , ..., Xn )
E(Xn+1 ) + Sn
Sn
C’est la relation voulue.
Remarquons qu’on a l’égalité TX1 ,X2 ,...,Xn = TS1 ,S2 ,...,Sn car les Xi s’expriment en
fonction des Si et réciproquement. La suite (Sn ) est une martingale aussi bien
par rapport aux (Xi ) qu’aux (Si ).
Second exemple
Soit M une variable aléatoire intégrable et (Fn ) une filtration. La suite
Mn = E(M | Fn )
est une martingale.
Preuve
E(Mn+1 | Fn ) = E E(M | Fn+1) | Fn = E(M | Fn ) = Mn .
Troisième exemple
On considère sur l’espace Ω = [0, 1[, muni
de la mesure de Lebesgue, les fonctions
Mn (x) = 2n 1[0,1/2n [ (x).
n −1
2a
h
k k + 1h
,
.
2n 2n
k=0
La suite (Mn ) est une martingale relativement à la filtration Fn .
On prend pour Fn la tribu associée à la partition [0, 1[ =
Preuve
Z 1
|Mn (x)| dx = 1.
Les fonctions Mn sont intégrables :
0
La variable aléatoire Mn est mesurable relativement à la tribu Fn car elle est
constante sur chacun des éléments de la partition associée à Fn . On a vu précédemment une formule explicite pour l’espérance conditionnelle relativement aux Fn .
77
8.1. LA NOTION DE MARTINGALE
Notons Ik =
h
k k+1
,
2n 2n
E(Mn+1 | Fn ) =
h
X
k
∈ Fn .
E(Mn+1 1Ik )
1Ik = 2n E 2n+1 1[0, 1 [ 1I0 = 2n 1I0 = Mn .
P (Ik )
2n+1
La suite Mn satisfait bien les propriétés qui définissent les martingales.
Quatrième exemple
Voici un autre exemple en lien avec les jeux de hasard.
Proposition 21 Soit (Mn )n∈N une martingale et (Hn )n∈N une suite de variables
aléatoires telle que Hn est Fn−1-mesurable pour tout n ≥ 1. On suppose que Hn
est bornée pour chaque n ∈ N. On pose G0 = 0 et
Gn =
n
X
m=1
Hm (Mm − Mm−1 )
Alors (Gn )n∈N est une martingale.
Preuve
P
E(Gn+1 | Fn ) = E( n+1
Hm (Mm − Mm−1 | Fn )
1
P
= E(Hn+1 (Mn+1 − Mn ) | Fn ) + E( n1 Hm (Mm − Mm−1 ) | Fn )
= Hn+1 E(Mn+1 − Mn | Fn ) + E(Gn | Fn )
= Gn .
De plus Gn est bien Fn -mesurable et Gn est intégrable.
Prenons (Xn )n∈N∗ une suite de variables aléatoires indépendantes identiquement distribuées telle que P (Xn = −1) = P (Xn = 1) = 1/2 et définissons
M0 = 0,
Mn =
n
X
Xi ,
H1 = 1,
i=1
2Hn−1 si Xn−1 = −1
1
sinon.
Il s’agit ici de modéliser une succession de mises à la roulette. On suppose que
rouge et noir sortent chacun avec probabilité 1/2. La variable Xn vaut 1 si le
joueur gagne au tirage n et vaut −1 sinon. La quantité Hn est la mise engagée
par le joueur au nième tirage, elle est fonction des résultats observés au cours des
précédents tirages. Dans la martingale classique, le joueur double sa mise s’il a
perdu au tirage précédent ; sinon il mise 1 euro. La valeur Gn représente le gain
(ou la perte) à l’étape n. Notons F0 la fortune initiale du joueur. Après avoir joué
n fois, sa fortune vaut Fn = Gn + F0 . C’est une martingale.
Hn =
Proposition 22 Soit Mn une martingale. Alors
E(Mn ) = E(Mn−1 ) = ... = E(M1 ) = E(M0 ).
78
Preuve
E(Mn ) = E(E(Mn+1 | Fn )) = E(Mn+1 ) pour tout n ∈ N.
Dans l’exemple précédent, nous avons E(Fn ) = E(F0 ). Le joueur ne peut pas
augmenter l’espérance de sa fortune par une stratégie Hn judicieuse.
8.2
Convergence des martingales
On va montrer qu’une martingale est convergente dès qu’elle est bornée en norme
L2 .
Définition 21 Une martingale (Mn ) est dite bornée dans L2 si il existe C > 0
telle que pour tout n ∈ N, kMn k2 ≤ C.
Théorème 11 (convergence L2 ) Toute martingale bornée dans L2 converge
au sens de la norme L2 et presque sûrement : il existe une variable aléatoire M
de carré intégrable telle que
L2
Mn −−−−→ M,
n→∞
p.s.
Mn −−
−−→ M.
n→∞
Remarque On a alors Mn = E(M | Fn ). On peut montrer que ce théorème se
généralise à Lp pour p ∈]1, ∞[.
Preuve de la convergence L2
Posons Yi = Mi − Mi−1 si bien que
Mn =
n
X
Yi + M0 .
i=1
Vérifions que la famille des Yi est orthogonale. Comme Mn est une martingale,
E(Yi | Fi−1) = E(Mi | Fi−1 ) + E(Mi−1 | Fi−1 ) = Mi−1 − Mi−1 = 0
La variable Yj est Fi−1 -mesurable pour tout j < i, ce qui donne
hYi , Yj i = E(Yi Yj ) = E(E(Yi | Fi−1 ) Yj ) = E(0) = 0.
On a donc :
n
X
i=1
E(Yi2 ) = E
n
X
i=1
Yi2 = E (Mn − M0 )2 = E(Mn2 ) − E(M02 ) ≤ C.
Cette série à termes positifs est bornée, elle converge. Elle est donc de Cauchy.
On en déduit que la suite Mi est aussi de Cauchy pour la norme L2 :
kMn − Mm k22 = E((Mn − Mm )2 ) = E
X
n
i=m+1
Yi
2 =
n
X
m+1
E(Yi2 )
79
8.2. CONVERGENCE DES MARTINGALES
P
pour n ∈ N et m ≥ n. La série E(Yi2 ) étant de Cauchy, la dernière somme est
inférieure à ε dès que m et n sont suffisamment grands. La suite (Mn ) est bien
de Cauchy pour la norme L2 , elle converge donc.
Pour démontrer la convergence presque sûre, on utilise le lemme suivant :
Lemme 5 (inégalité maximale) Soit (Mn )n∈N une martingale. Alors pour tout
N ∈ N et tout λ > 0,
P max |Mi | ≥ λ ≤
0≤i≤N
E(MN2 )
.
λ2
Preuve du lemme
On s’intéresse au premier indice pour lequel la martingale dépasse λ.
A0 = (|M0 | ≥ λ)
A1 = (|M0 | < λ, |M1 | ≥ λ)
Aj = (|M0 | < λ, ..., |Mj−1 | < λ, |Mj | ≥ λ)
Nous avons alors
max |Mi | ≥ λ =
0≤i≤N
N
a
Aj .
j=0
Cherchons à minorer E(MN2 1Aj ) en insérant le terme Mj dans le carré.
E(MN2 1Aj ) = E((MN − Mj )2 1Aj ) + E(Mj2 1Aj ) + 2E((MN − Mj )Mj 1Aj ).
Le premier terme à droite de l’égalité est positif, tandis que le second terme est
supérieur à E(λ2 1Aj ) car Mj est supérieur à λ sur Aj . Vérifions que le dernier
terme est nul en utilisant le fait que Mn est une martingale :
E(MN Mj 1Aj ) = E(E(MN Mj 1Aj | Fj )) = E(Mj 1Aj E(MN | Fj )) = E(Mj 1Aj Mj )
car Mj et 1Aj sont Fj -mesurables. On en déduit E((MN −Mj )Mj 1Aj ) = 0 comme
souhaité. Au final,
E(MN2 1Aj ) ≥ λ2 E(1Aj ) = λ2 P (Aj ).
On conclut en faisant la somme pour j allant de 0 à n.
E(MN2 ) ≥ E(MN2
X
1A j ) ≥ λ 2 P (
a
Aj ) = λ2 P (max |Mi | ≥ λ).
Preuve de la convergence presque sûre
On a vu que pour tout ε > 0, il existe N tel que pour tout m, n ≥ N
E((Mn − Mm )2 ) < ε.
80
On peut donc construire par récurrence une suite croissante ni telle que n0 = 0
et
E((Mni − Mni−1 )2 ) ≤ 1/2i .
Soit n ∈ N et i le plus grand entier tel que ni ≤ n. Nous avons l’encadrement
ni ≤ n < ni+1 . Décomposons la martingale Mn comme suit :
Mn = (Mn − Mni ) +
i
X
(Mnj − Mnj−1 ) + M0 .
j=1
Appliquons l’inégalité maximale à la martingale M̃n = Mn+ni , N = ni+1 − ni et
λ = i12 :
P
max
ni ≤n≤ni+1
2
|Mn − Mni | ≥ 1/i
E((Mni+1 − Mni )2 )
i2
≤ i.
≤
1/i2
2
La série de terme général i2 /2i converge, on peut appliquer le lemme de BorelCantelli : presque sûrement, pour i assez grand,
max
ni ≤n≤ni+1
|Mn − Mni | ≤
1
−−−−→ 0.
i2 i→∞
En particulier, pour n = ni+1 et i supérieur à un certain i0 ∈ N dépendant de ω,
|Mni+1 − Mni | ≤
1
.
i2
P
P
La série i≥i0 |Mni+1 − Mni | ≤ i0 1/i2 est de nature convergente, ce qui montre
P
que la série Mni+1 −Mni est absolument convergente. Le théorème est démontré.
8.3
Séries de variables aléatoires indépendantes
Le premier résultat que nous pouvons déduire du théorème de convergence des
martingales bornées dans L2 est un critère pour la convergence presque sûre d’une
série de variables aléatoires indépendantes.
Corollaire 6 Soit (Xi ) une suite de variables aléatoires indépendantes centrées
(E(Xi ) = 0 pour tout i) et de carrés intégrables. On suppose que
X
i∈N
Alors la série
P
V (Xi ) < ∞.
Xi converge presque sûrement et en norme L2 .
81
8.3. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Preuve
Nous avons vu précédemment que sous les hypothèses du corollaire, la suite Sn =
Pn
i=1 Xi est une martingale. Remarquons que l’espérance de Sn est nulle :
E(Sn ) =
n
X
E(Xi ) = 0.
1
Sa variance est donc égale au carré de sa norme L2 que nous évaluons comme
suit :
kSn k22 = E(Sn2 ) = V (Sn ) = V (
n
X
Xi ) =
1
n
X
1
V (Xi ) ≤
∞
X
V (Xi ).
1
La martingale Sn est bornée dans L2 , elle converge presque sûrement et dans L2 .
Exemple
k
P
P
La série harmonique k1 est divergente. La série alternée (−1)
est convergente.
k
Qu’en est-il lorsque nous choisissons les signes des termes de la série de manière
aléatoire ?
Proposition 23 Soit (εk ) une suite de variables aléatoires indépendantes identiquement distribuées telles que
P (εk = 1) = P (εk = −1) = 1/2.
Alors la série
X
k
εk
converge presque sûrement.
k
Cela se déduit du corollaire. Il suffit de remarquer d’abord que E( εii ) = 0 puis
que
∞
∞
∞
ε X
X
X
1
1
k
=
V (εk ) =
< ∞.
V
2
2
k
k=1 k
k=1 k
k=1
Comme exemple d’une telle suite de variables aléatoires, on peut prendre
Ω = {−1, 1}⊗N,
On a alors
P
n
P =
1
1 ⊗N
δ−1 + δ1
,
2
2
εi (xk )k∈N = xi .
X
(xi )i∈N ∈ Ω o
xk
converge
= 1.
k≥1 k
P
On se pose maintenant la question générale de la convergence d’une série Xi
lorsque les Xi sont indépendantes entre elles. Le théorème suivant est dû à A.
Kolmogorov.
82
Théorème 12 (théorème des trois séries) Soit (Xi )i∈N une suite de variables
P
aléatoires indépendantes entre elles. Posons Yi = Xi 1(|Xi |≤1) . Alors la série Xi
converge presque sûrement si et seulement si les trois séries suivantes convergent :
–
–
–
P
P
P
P (|Xi | ≥ 1),
E(Yi ),
V (Yi ).
Preuve
Ce théorème se déduit du corollaire précédent. On se contente de démontrer que
P
la convergence des trois séries implique la convergence presque sûre de
Xi .
P
Comme
P (|Xi | ≥ 1) converge, nous pouvons appliquer le lemme de BorelCantelli : pour presque tout ω, il existe i0 tel que pour tout i ≥ i0 , |Xi (ω)| ≤ 1.
P
P
On a alors Yi (ω) = Xi (ω). Les séries Xi et Yi sont donc de même nature.
P
Posons Ỹi = Yi − E(Yi ). Comme E(Yi ) converge, il suffit de démontrer la
P
convergence presque sûre de Ỹi . Les Ỹi sont centrées et leur variance est égale
à celle des Yi :
kỸi k22 = V (Ỹi ) = V (Yi ).
P
P
On sait que la série V (Ỹi ) = V (Yi ) converge. Le corollaire s’applique, la série
P
Ỹi est convergente presque sûrement et le théorème est démontré.
Complément
Donnons une preuve de la loi des grands nombres dérivée des théorèmes précédents
et valide pour toute suite de variables aléatoires (Xn )n∈N indépendantes identiquement distribuées intégrables.
On considère les variables Yk = Xk 1(|Xk |≤k) . Montrons que la série
convergente.
P
V (Yk )
k2
est
Z ∞ X
x
E(Yk2 ) X 1 Z ∞ 2
x 1{x≤k} dP|Xk | (x) =
=
1
x dP|X0 | (x).
2 0
2 {k≥x}
k2
0
k≥1 k
k≥1 k
k≥1
X
La somme qui apparaı̂t sous l’intégrale dans le dernier terme est majorée par
P
2 k≥1 k12 pour x ∈ [0, 2]. Pour x ≥ 2, on effectue une comparaison série-intégrale.
X
x
1
≤
{k≥x}
2
k≥x
k≥1 k
X
Z
x
dt ≤
k−1 t2
k
Z
∞
x−1
x
x
dt ≤
≤ 2.
2
t
x−1
Nous avons de plus V (Yk − E(Yk )) = V (Yk ) ≤ E(Yk2 ), si bien que la série
P Yk −E(Yk )
P
k)
) est convergente. La série
converge donc presque sûV ( Yk −E(Y
k
k
rement, en vertu du théorème vu précédemment.
83
8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES
P
De manière générale, pour toute suite (xk ) telle que xii converge, la moyenne
P
1
xk converge vers 0. Cela découle de la formule suivante
n
n
k
n X
n
xi
1X
xi X
1X
=
xi
−
n k=1 i=1 i
n i=1
i=1 i
qui se démontre en intervertissant les deux signes sommes. On en déduit
n
1 X
p.s.
(Yk − E(Yk )) −−−−→ 0.
n→∞
n k=1
R
Par convergence dominée, la suite E(Yk ) = x1{|x|≤k} dPX0 (x) converge vers
P
E(X0 ). Il en va donc de même pour n1 E(Yk ). Il reste à remarquer que
∞
X
k=1
P (Yk 6= Xk ) =
∞
X
k=1
P (|X0| ≥ k) =
Z X
∞
k=1
1{k≤x} dP|X0 | (x) ≤
Z
x dP|X0| (x) < ∞
D’après le lemme de Borel-Cantelli, pour presque tout ω, les suites Xk (ω) et Yk (ω)
P
P
coı̈ncident à partir d’un certain rang et la différence n1 Xk (ω) − n1 Yk (ω) tend
vers 0. Le résultat est démontré.
8.4
Convergence des espérances conditionnelles
Théorème 13 Soit (Ω, T , P ) un espace probabilisé et Fn ⊂ T une suite de tribus
croissante pour l’inclusion telle que T soit engendrée par tous les Fn . Alors pour
tout X : Ω → R de carré intégrable,
E(X | Fn ) −−−−→ X presque sûrement et en norme L2 .
n→∞
Remarque Ce théorème est encore vrai si X est juste intégrable, on a alors
convergence presque sûrement et en norme L1 .
Preuve
On a vu précédemment que la suite E(X|Fn ) est une martingale. On sait aussi
qu’elle est bornée dans L2 : kE(X | Fn )k2 ≤ kXk2 .
Elle converge donc presque sûrement et en norme L2 , notons X̃ sa limite et
montrons que X̃ = X. Soit n0 ∈ N et n ≥ n0 .
kE(X − X̃ | Fn0 )k2 = kE(E(X | Fn ) − X̃ | Fn0 )k2 ≤ kE(X | Fn ) − X̃k2 −−−−→ 0
n→∞
On a donc pour tout n0 ∈ N et A ∈ Fn0 , E(X − X̃ | Fn0 ) = 0. Ceci implique :
Z
A
X − X̃ dP = E(1A (X − X̃)) = E(1A E(X − X̃ | Fn0 )) = 0.
On en déduit que X = X̃ en posant A =
d’intégration suivant.
S
n∈N
Fn et en appliquant le résultat
84
Proposition 24 Soit (Ω, T , P ) un espace probabilisé, Y : Ω → R intégrable,
R
A ⊂ T une algèbre de parties de T . Si A Y dP = 0 pour tout A ∈ A, alors Y = 0
presque sûrement.
Donnons deux applications du théorème de convergence précédent. Notons
T(Xk , k≥N ) ou S(Xk , k ≥ N) la tribu engendrée par toutes les variables Xk , k ≥ N.
Théorème 14 (Loi du 0-1 de Kolmogorov) Soit (Xk )k∈N une suite de variables aléatoires indépendantes et
A∈
\
N ∈N
T(Xk , k≥N ) .
Alors la probabilité de l’événement A vaut 0 ou 1 : P (A) ∈ {0, 1}.
Preuve
Pour n ∈ N, l’événement A appartient à la tribu T(Xk ,k≥n+1) . Il est donc indépendant
de X0 , X1 , ..., Xn . On en déduit
P (A) = P (A | X0 , ..., Xn ).
Les tribus Fn = TX0 ,...,Xn sont croissantes et engendrent F = T(Xk , k≥0) . On peut
appliquer le théorème précédent en se plaçant sur l’espace (Ω, F , P ) :
P (A) = P (A | X0 , ..., Xn ) = E(1A | Fn ) −−−−→ 1A
n→∞
p.s.
On peut donc trouver ω ∈ Ω tel que P (A) = 1A (ω) ∈ {0, 1}.
Exemple
Soit (Xn )n∈N une suite de variables aléatoires indépendantes et A = {ω ∈ Ω |
P
k≥0 Xk converge}. On peut écrire A sous la forme suivante, pour tout N ∈ N :
A = {ω ∈ Ω |
X
k≥N
Xk converge} ∈ T(Xk ,k≥N ).
D’après la loi du 0-1, l’événement A a pour probabilité 0 ou 1. Par conséquent, ou
P
bien pour presque tout ω ∈ Ω, la série Xk (ω) converge, ou bien pour presque
P
tout ω ∈ Ω, la série Xk (ω) diverge.
Posons Sn =
Pn
k=1 Xk .
Par le même raisonnement, l’ensemble
{ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée}
a comme probabilité 0 ou 1. De fait, N étant donné, la suite (Sn (ω))n≥1 est bornée
P
si et seulement si la suite ( nk=N Xk (ω))n≥N est bornée et cette dernière suite ne
dépend que de Xk pour k ≥ N.
Comme autre application, montrons qu’on peut approcher presque partout
toute fonction de carré intégrable définie sur [0, 1[ par des fonctions en escalier
explicites.
8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES
85
Proposition 25 Soit f ∈ L2 ([0, 1[, dx). Alors
n −1
2X
k=0
2n
Z
k+1
2n
k
2n
p.s.
−−
−−→ f
f (x) dx 1[ kn , k+1
n [
n→∞
2
2
n −1
Preuve
2a
[ . On a vu
On prend pour Fn la tribu associée à la partition [0, 1[ =
[ 2kn , k+1
2n
k=0
précédemment que
E(f | Fn ) =
n −1
2X
k=0
2n
Z
k+1
2n
k
2n
f (x) dx 1[ kn , k+1
.
n [
2
2
[ , n ∈ N et k ∈ {0, ..., 2n − 1}, enDe plus, les intervalles de la forme [ 2kn , k+1
2n
gendrent la tribu des boréliens. Le théorème précédent montre que E(f | Fn ) → f
p.s. et en norme L2 .
Complément
Une martingale (Mn ) est dite bornée dans L1 s’il existe C ≥ 0 tel que pour tout
n ∈ N, kMn k1 ≤ C. On peut montrer qu’une telle martingale converge presque
sûrement mais on n’a pas forcément la convergence en norme L1 .
Cette convergence a lieu en norme L1 si et seulement si (Mn ) satisfait la condition suivante :
sup E(|Mn | 1|Mn|≥λ) ) −−−−→ 0.
λ→∞
n∈N
Une suite de variable aléatoires (Mn ) qui satisfait cette condition est dite équiintégrable.
Voici un exemple d’une telle suite. Considérons une variable aléatoire X intégrable et Fn une filtration. Alors la suite E(X | Fn ) est une martingale équiintégrable. C’est une conséquence du calcul suivant.
R
(|E(X|Fn )|≥λ)
|E(X | Fn )| dP
R
≤ (E(|X| | Fn )≥λ) E(|X| | Fn ) dP
R
≤ (E(|X| | Fn )≥λ) |X| dP
√
R
≤ (|X|≥√λ) |X| dP + λ P E(|X| | Fn ) > λ
≤
R
√
(|X|≥ λ)
|X| dP +
E(|X|)
√
λ
La première inégalité provient de la majoration |E(X | F )| ≤ E(|X| | F ) et
de la croissance de la fonction x 7→ x1x≥λ . La dernière majoration provient de
l’inégalité de Markov.
Comme application, on peut montrer que la suite E(X | Fn ) converge vers X
aussi bien en norme L1 que presque sûrement lorsque les Fn engendrent toute la
tribu T et que X est intégrable.
86
8.5
Temps d’arrêt
Définition 22 Soit (Fn ) une filtration. Une variable aléatoire τ : Ω → N ∪ {∞}
est un temps d’arrêt relativement à la filtration Fn si l’événement (τ = n) est
dans Fn pour tout n ∈ N.
Remarque
On a alors (τ ≤ n) ∈ Fn pour tout n ∈ N car
(τ ≤ n) =
a
0≤k≤n
(τ = k) ∈
[
0≤k≤n
Fk = Fn .
Théorème 15 Soit (Mn ) une martingale et τ un temps d’arrêt. On pose
(n ∧ τ )(ω) = min(n, τ (ω)),
(Mn∧τ )(ω) = M(n∧τ )(ω) (ω).
Alors (Mn∧τ ) est une martingale.
Remarque
Considérons un résultat ω ∈ Ω pour lequel τ (ω) est fini. Nous avons
Mn∧τ (ω) =
Mn (ω)
Mτ (ω) (ω)
si n ≤ τ (ω)
si n ≥ τ (ω)
Nous voyons que si τ (ω) < ∞, la suite (Mn∧τ )(ω) est stationnaire, c’est-à-dire
constante à partir d’un certain rang. La suite (Mn∧τ )n∈N converge sur l’ensemble
(τ < ∞) vers la variable aléatoire ω 7→ Mτ (ω) (ω), notée Mτ . Sur l’ensemble
(τ = ∞), elle coı̈ncide avec la suite (Mn ).
Exemple
On revient à l’exemple de la fortune Fn d’un joueur qui joue au casino. On a
vu que c’est une martingale et que E(Fn ) = E(F0 ). Le joueur peut-il augmenter
l’espérance de sa fortune en s’arrêtant de jouer au bon moment ?
Reprenons l’exemple de la martingale consistant à doubler la mise si on est perdant. Plutôt que de jouer un nombre de fois n fixé, le joueur décide de s’arrêter au
premier gain s’il y a effectivement un gain qui se produit au cours des n tirages.
La variable
τ (ω) = min{k ∈ N∗ | Xk (ω) = 1}
est un temps d’arrêt :
(τ = n) = (X1 = −1, ..., Xn−1 = −1, Xn = 1) ∈ TX1 ,...,Xn .
La fortune du joueur est maintenant égale à Fn∧τ . C’est une martingale, nous
avons donc E(Fn∧τ ) = E(F0∧τ ) = E(F0 ) = F0 . On ne peut pas améliorer les
gains par cette méthode.
8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE
87
On pose Hn = 1(τ ≥n) . Cette fonction est Fn−1 -mesurable :
Posons Gn =
Nous avons
Pn
(τ ≥ n) = (τ < n)c = (τ ≤ n − 1)c ∈ Fn−1 .
m=1
Hm (Mm − Mm−1 ) =
Pn
m=1
1(m≤τ ) (Mm − Mm−1 ).
Gn (ω) = Mτ (ω) (ω) − M0 (ω) si n ≥ τ (ω),
= Mn (ω) − M0 (ω)
si n ≤ τ (ω).
ce qui montre que Gn = Mn∧τ − M0 et nous avons vu plus haut que Gn est une
martingale.
8.6
Illustration par une marche aléatoire
On se donne une suite de variables aléatoires (Xk )k∈N∗ indépendantes identiquement distribuées telle que
P
P (Xk = 1) = P (Xk = −1) = 1/2.
Posons Sn = nk=1 Xk . La suite (Sn (ω))n∈N est ici interprétée comme un déplacement sur l’ensemble des entiers Z. L’entier Sn (ω) correspond à la position de
la marche au temps n, en considérant que nous sommes à l’origine au temps 0.
Si nous sommes à la position Sn au temps n, nous avons une chance sur deux de
nous déplacer d’un pas vers la droite au temps n + 1, et une chance sur deux de
nous déplacer d’un pas vers la gauche :
P (Sn+1 = Sn + 1) = P (Xn+1 = 1) = 1/2,
P (Sn+1 = Sn − 1) = P (Xn+1 = −1) = 1/2.
On parle ici d’une marche aléatoire symétrique sur Z.
Voici une présentation imagée de cette marche aléatoire et des problématiques associées. Un individu passablement éméché se déplace sur un chemin, de réverbères
en réverbères, de manière aléatoire, avec probabilité 1/2 de partir vers la gauche
88
ou la droite à chaque étape. Sa maison se trouve en −a, le bar en b avec a, b ∈ N∗ .
Deux questions se posent :
- Parviendra-t-il à atteindre sa maison ou à retourner au bar ?
- Quelle est la probabilité qu’il atteigne la maison avant le bar ?
Théorème 16 Presque sûrement, la marche atteint −a ou b :
P ({ω ∈ Ω | ∃ n ∈ N∗ tel que Sn = −a ou Sn = b}) = 1.
La probabilité que la marche atteigne −a avant b est égale à
b
a+b
:
P ({ω | ∃ n ∈ N∗ tel que −a < Sk (ω) < b pour tout k < n et Sn (ω) = −a}) =
b
.
a+b
preuve
Posons τ (ω) = inf{k ∈ N∗ | Sk = −a ou Sk = b} si la suite (Sn (ω)) atteint
effectivement −a ou b et τ (ω) = +∞ sinon. Cette variable aléatoire τ est un
temps d’arrêt à valeurs dans N ∪ {∞}. La preuve du théorème se fait en deux
temps. On commence par vérifier que τ est fini presque sûrement :
P (τ < ∞) = 1.
La variable aléatoire ω 7→ Sτ (ω) (ω) est alors bien définie, on la note Sτ , elle ne
prend que les deux valeurs −a et b. On montre ensuite que cette variable est
d’espérance nulle :
E(Sτ ) = 0.
On a alors le système de deux équations
P (Sτ = −a)
+ P (Sτ = b) = 1
−a P (Sτ = −a) + b P (Sτ = b) = E(Sτ ) = 0
qu’il suffit de résoudre pour trouver la probabilité P (Sτ = −a).
Montrons que τ est fini presque sûrement. On a vu précédemment que l’événement
{ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée}
a pour probabilité 0 ou 1. C’est une conséquence de la loi du 0-1. On veut montrer
que cette probabilité vaut 0. Si cela n’est pas le cas, pour presque tout ω ∈ Ω, la
suite (Sn (ω)) est bornée, ce qui implique
Sn (ω)
√ −−−−→ 0,
n n→∞
et pour toute f continue bornée, par convergence dominée,
Z
R
f dP √Sn
n
Z
Sn
= f √ (ω) dP (ω) −−−−→
n→∞
n
Ω
Z
f (0) dP = f (0) =
Z
f (ω)dδ0(ω).
8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE
89
Sn
converge en loi vers la mesure de Dirac en zéro, ce qui contredit
La suite √
n
le théorème de la limite centrée. La suite n’est pas bornée, elle atteint −a ou b
presque sûrement.
Nous savons maintenant que la variable Sτ est bien définie, montrons que son
espérance est nulle.
p.s.
Sn∧τ −−
−−→ Sτ et − a ≤ Sn∧τ ≤ b pour tout n ∈ N∗ .
n→∞
Appliquons le théorème de convergence dominée :
E(Sτ ) = lim E(Sn∧τ ).
n→∞
Comme (Sn∧τ ) est une martingale, nous avons E(Sn∧τ ) = E(S1∧τ ) = E(S1 ) = 0,
ce qui montre que E(Sτ ) = 0. Le théorème est démontré.
Complément
Donnons une autre preuve des deux résultats P (τ < ∞) = 1 et E(Sτ ) = 0 en
utilisant le théorème de convergence des martingales plutôt que la loi du 0-1.
Nous savons que la suite (Sn∧τ ) est une martingale dont l’espérance est nulle et
qui est toujours comprise entre −a et b. Elle est donc bornée dans L2 et converge
en norme L2 vers une certaine variable aléatoire Y . Par l’inégalité de CauchySchwarz, la convergence L2 implique la convergence des espérances :
E(Y ) = lim E(Sn∧τ ) = 0.
n→∞
Sur l’ensemble (τ = ∞), nous avons pour presque tout ω et pour tout n,
Sn∧τ (ω) = Sn (ω),
−a < Sn (ω) < b.
La suite Sn converge donc vers Y en norme L2 sur (τ = ∞) et la suite |Sn+1 − Sn |
doit converger vers 0 sur cet ensemble. Comme elle est constante égale à un, on
en déduit que l’ensemble (τ = ∞) est négligeable et Y = Sτ presque sûrement.
90
8.7
Exercices
exercice 1
Soit (Xn ) une suite de variables aléatoires indépendantes identiquement disP
tribuées centrées de carrés intégrables. On pose Sn = nk=1 Xk . Montrer que
pour tout ε > 0, la série suivante converge presque sûrement :
X
k≥2
En déduire que la suite
Sn
√
n ln(n)1/2+ε
√
|Xk |
k ln(k)1/2+ε
est bornée, puis qu’elle converge vers zéro.
exercice 2
Soit (Mk )k∈N une martingale relativement à une filtration (Fk ). On suppose les
Mk de carrés intégrables. Montrer que si les Mk sont indépendants entre eux,
chacun des Mk est constant presque partout.
exercice 3
Soit (Xi )i∈N une suite de variables aléatoires positives, indépendantes entre elles,
telles que E(Xi ) = 1 pour tout i. On pose Mn = X1 X2 ...Xn .
– Montrer que Mn est une martingale.
– En déduire que Mn converge presque sûrement. La limite est notée M.
On suppose maintenant que P (Xi = 1/2) = P (Xi = 3/2) = 1/2. Posons
– Montrer que
τn
n
τn (ω) = Card{1 ≤ k ≤ n | Xk (ω) = 3/2}.
converge presque sûrement vers une limite qu’on calculera.
– Vérifier que Mn = 3τn /2n .
– En déduire que M = 0 presque sûrement puis que E
∞
Y
i=1
!
Xi 6=
∞
Y
E(Xi ).
i=1
exercice 4
Soit a un entier strictement positif, (Xi )i∈N∗ une suite de variables aléatoires
indépendantes identiquement distribuées, telles que P (Xi = 1) = P (Xi = −1) =
P
1/2. On pose Sn = ni=1 Xi , Fn = TX1 ,...,Xn et on s’intéresse au premier entier τ
tel que Sτ est égal à a en valeur absolue :
τ (ω) = inf{k ∈ N | |Sk (ω)| = a}.
– Montrer que la suite Mn = (Sn )2 − n est une martingale relativement aux (Fn ).
– Montrer que τ est un temps d’arrêt relativement aux (Fn ).
– Montrer que E(Mn∧τ ) = 0 pour tout n ∈ N∗ .
– Montrer la convergence E(n ∧ τ )−−
−−→ E(τ ).
n→∞
– Montrer que pour presque tout ω ∈ Ω, il existe k ∈ N∗ tel que |Sk (ω)| = a.
En déduire que |Sn∧τ | ≤ a pour tout n ∈ N∗ et (Sn∧τ )2 −−
−−→ a2 p.s.
n→∞
– Déduire de ce qui précède que E(τ ) = a2 .
Annexe A
Rappels d’intégration
On rappelle dans cette annexe un certain nombre de résultats d’intégration utilisés dans le cours. Le cadre est l’intégrale de Lebesgue. On adopte les notations
probabilistes : (Ω, T , P ) est un espace probabilisé, c’est-à-dire un espace mesuré
pour lequel P (Ω) = 1.
A.1
Théorèmes de convergence
Théorème 17 (convergence croissante) Soit fn : Ω → R+ une suite de fonctions mesurables positives. On suppose que pour presque tout ω ∈ Ω, la suite
(fn (ω))n∈N est croissante et on note f (ω) la limite de cette suite. Alors
lim
n→∞
Z
Ω
fn (ω) dP (ω) =
Z
Ω
f (ω) dP (ω).
Commentaire : la valeur des intégrales peut être égale à +∞.
Cas particulier : en appliquant ce théorème à une suite de fonctions indicatrices
1An , où (An )n∈N est une suite d’ensembles croissante pour l’inclusion, alors
P
∞
[
0
An = lim P (An ).
n
Théorème 18 (lemme de Fatou) Soit fn : Ω → R+ une suite de fonctions
mesurables positives. Alors
Z
lim inf fn (ω) dP (ω) ≤ lim inf
Ω n→∞
n→∞
Z
Ω
fn (ω) dP (ω).
Théorème 19 (convergence dominée) Soit fn : Ω → R une suite de fonctions mesurables qui converge presque partout vers une fonction f . On suppose que
pour presque tout ω ∈ Ω, la suite fn (ω) est dominée par une fonction g : Ω → R+
intégrable :
|fn (ω)| ≤ g(ω) pour presque tout ω ∈ Ω.
91
92
ANNEXE A. RAPPELS D’INTÉGRATION
Alors
lim
Z
n→∞ Ω
Z
fn (ω) dP (ω) =
Ω
f (ω) dP (ω).
Commentaire : Nous avons supposé P (Ω) = 1 si bien que toute suite fn bornée
est dominée par une fonction constante, qui est intégrable. Le théorème s’applique
donc à une telle suite.
Théorème 20 (interversion somme intégrale, cas positif) Soit fn : Ω →
R+ une suite de fonctions mesurables positives. Alors
Z X
∞
fn (ω) dP (ω) =
Ω n=0
∞ Z
X
n=0
Ω
fn (ω) dP (ω).
Commentaire : la somme de la série peut être égale à +∞.
Théorème 21 (interversion somme intégrale, cas intégrable) Soit fn : Ω →
R une suite de fonctions mesurables. On suppose que
∞ Z
X
n=0
Alors
Z X
∞
Ω
|fn (ω)| dP (ω) < +∞.
fn (ω) dP (ω) =
Ω n=0
∞ Z
X
n=0
Ω
fn (ω) dP (ω).
Commentaire : la série qui apparaı̂t dans le second terme est convergente.
A.2
Intégrales dépendant d’un paramètre
Théorème 22 (continuité sous le signe intégral) Soit I un intervalle de R.
Soit f : I × Ω → R une fonction mesurable telle que
– pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est continue sur I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
|f (t, ω)| ≤ g(ω)
Alors la fonction t 7→
R
Ω
lim
t→t0
f (t, ω) dP (ω) est continue sur I : pour tout t0 ∈ I
Z
Ω
f (t, ω) dP (ω) =
Z
Ω
f (t0 , ω) dP (ω).
93
A.3. INTÉGRALES MULTIPLES
Théorème 23 (dérivée sous le signe intégral) Soit I un intervalle de R et
f : I × Ω → R une fonction mesurable telle que
– pour tout t ∈ I, ω 7→ f (t, ω) est intégrable,
– pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est dérivable en tout point t ∈ I,
– il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I,
∂
f (t, ω)
∂t
≤ g(ω)
Alors en tout point t ∈ I,
d
dt
A.3
Z
Ω
f (t, ω) dP (ω) =
Z
∂
f (t, ω) dP (ω).
∂t
Ω
Intégrales multiples
Ici, (Ω1 , T1 , P1 ) et (Ω2 , T2 , P2 ) sont des espaces probabilisés.
Théorème 24 (Fubini, cas positif) Soit f : Ω1 × Ω2 → R+ une fonction
T1 ⊗ T2 -mesurable positive. Alors
RR
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) =
=
R
R
Ω1 f (ω1 , ω2 ) dP1 (ω1 ) dP2 (ω2 )
Ω2
R
R
Ω1
Ω2
f (ω1 , ω2) dP2 (ω2 ) dP1 (ω1 )
Commentaire : les intégrales peuvent valoir +∞.
Théorème 25 (Fubini, cas intégrable) Soit f : Ω1 × Ω2 → R une fonction
T1 ⊗ T2 -mesurable. On suppose que
Z Z
Ω1 ×Ω2
|f (ω1 , ω2)| dP1 ⊗ P2 (ω1 , ω2 ) < +∞.
Alors
RR
Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 )
=
=
R
R
Ω2
Ω1
R
R
Ω1 f (ω1 , ω2 )dP1 (ω1 ) dP2 (ω2 )
Ω2 f (ω1 , ω2 )dP2 (ω2 ) dP1 (ω1 ).
Commentaire : la fonction f est dans L1 (Ω1 × Ω2 ).
Théorème 26 (changement de variables) Soient U, V deux ouverts de Rd ,
ϕ : U → V un difféomorphisme de classe C 1 , f : V → R une application
mesurable relativement à la mesure de Lebesgue sur V . On suppose f positive ou
intégrable. Alors
Z
Z
f (ϕ(u))Jϕ(u) du =
f (v) dv
U
V
où Jϕ(u) est le jacobien de ϕ : Jϕ(u) = |det(du ϕ)|.
Commentaire : pour le changement de variables en coordonnées polaires, u =
(r, θ), v = ϕ(u) = ϕ(r, θ) = (r cos(θ), r sin(θ)), du = drdθ et Jϕ(r, θ) = r.
94
A.4
Espaces Lp
Rappel :
||f ||p =
Z
Ω
|f |p dP
1/p
pour 1 ≤ p < ∞.
||f ||∞ = inf{M ≥ 0 | pour presque tout ω ∈ Ω, |f (ω)| ≤ M}.
Théorème 27 (convergence normale dans Lp ) Soit p ∈ [1, ∞] et (fn ) une
suite de fonctions dans Lp (Ω). On suppose que
X
n∈N
||fn ||p < ∞.
P
Alors la série fn converge presque partout et en norme Lp vers une certaine
fonction f ∈ Lp (Ω).
Théorème 28 (inclusion des espaces Lp ) Soit p, q ∈ R tels que 1 ≤ p ≤ q ≤
∞. Alors
L∞ (Ω) ⊂ Lq (Ω) ⊂ Lp (Ω) ⊂ L1 (Ω).
De plus, pour tout f : Ω → R mesurable,
||f ||1 ≤ ||f ||p ≤ ||f ||q ≤ ||f ||∞.
Commentaire : le cas p = 2 est important : L∞ (Ω) ⊂ L2 (Ω) ⊂ L1 (Ω).
Théorème 29 (extraction de sous-suites) Soit (fn )n∈N une suite de fonctions de Lp (Ω) qui converge au sens de la norme Lp vers une certaine fonction
f dans Lp (Ω). Alors il existe une sous-suite nk telle que fnk converge presque
partout vers f .
Commentaire : en général, la convergence Lp n’implique pas la convergence
presque partout.
A.5
Inégalités
Théorème 30 (inégalité de Minkowski) Soit p ∈ [1, ∞] et f, g ∈ Lp (Ω).
Alors
||f + g||p ≤ ||f ||p + ||g||p.
Commentaire : c’est l’inégalité triangulaire pour les normes Lp .
95
A.6. FORMULE D’INVERSION DE FOURIER
Théorème 31 (inégalité de Cauchy-Schwarz) Soit f, g ∈ L2 (Ω). Alors f g
est intégrable et
Z
f g dP ≤ ||f ||2 ||g||2.
Ω
Commentaire : on a égalité si et seulement si f et g sont proportionnelles.
Théorème 32 (inégalité de Hölder) Soit p, q ∈ [1, ∞] tels que 1/p + 1/q =
1/r ainsi que f ∈ Lp (Ω), g ∈ Lq (Ω). Alors f g est dans Lr (Ω) et
||f g||r ≤ ||f ||p ||g||q .
Commentaire : l’inégalité de Cauchy-Schwarz correspond à p = q = 2, r = 1.
Théorème 33 (inégalité de Jensen) Rappelons que P (Ω) = 1. Soit ϕ : R →
R une fonction convexe et f : Ω → R telle que f et ϕ ◦ f sont intégrables. Alors
ϕ
A.6
Z
Ω
f dP ≤
Z
Ω
ϕ ◦ f dP
Formule d’inversion de Fourier
Le théorème suivant est une version ponctuelle de la formule d’inversion de Fourier ; c’est l’analogue du théorème de Dirichlet pour les séries de Fourier. On donne
un énoncé est un peu plus général que celui utilisé dans le cours. La convention
utilisée pour la transformée de Fourier est la suivante :
fˆ(t) =
Z
e−itx f (x)dx.
R
Lorsque f est intégrable, sa transformée fˆ est continue. Elle tend vers 0 en l’infini,
en vertu du lemme de Riemann-Lebesgue.
1
Lemme 6 (Riemann-Lebesgue) Soit f ∈ L . Alors lim
Z
t→∞ R
e−itx f (x) dx = 0.
Ce lemme se démontre par un calcul explicite lorsque f est la fonction indicatrice
d’un intervalle. Dans le cas général, il suffit d’approcher en norme L1 la fonction
f par une combinaison linéaire de fonctions indicatrices.
Théorème 34 (formule d’inversion de Fourier) Soit f ∈ L1 (R) et t ∈ R.
On suppose que f admet une limite à gauche et une limite à droite en t, notées
f (t− ) et f (t+ ). On suppose également que f est dérivable à droite et à gauche en
t. Alors,
Z A
dx
1 −
+
eitx fˆ(x)
f (t ) + f (t ) = lim
.
A→∞ −A
2
2π
96
Lorsque f est intégrable de classe C 1 et que fˆ est intégrable, la formule devient
f (t) =
Z
1
2π
R
eitx fˆ(x) dx pour tout t ∈ R.
Remarquons que fˆ est intégrable dès que f est C 2 et f ′′ est intégrable. En effet,
fˆ est alors continue et majorée par une constante multipliée par t12 , comme le
montre l’égalité
1
fˆ(t) = − 2 fc′′ (t), t ∈ R∗ ,
t
qui s’obtient par une intégration par partie. En particulier, la formule d’inversion
est vraie pour toute fonction C ∞ à support compact.
Preuve de la formule d’inversion
Quitte à translater la variable, on peut supposer t = 0. On a
Z
dx Z
dx
dx Z 2 sin Ax
d
ˆ
1[−A,A](x)f (x)
=
=
f (x)
.
1[−A,A](x)f (x)
2π
2π
x
2π
R
R
R
On va montrer que
Z
lim
A→∞
∞
0
!
dx 1
2 sin Ax
f (x)
− f (0+ ) = 0.
x
2π 2
Faisons le changement de variable y = Ax et remarquons que
Z
∞
0
Z
sin Ax
dx =
x
Z
∞
0
π
sin y
dy = ,
y
2
Z
∞
2 sin Ax
f (x) − f (0+ ) dx
dx 1
et qu’ainsi
2 sin(Ax)
f (x)
− f (0+ ) =
.
x
2π 2
x
2π
0
0
Sans le facteur 1/x, il suffirait d’appliquer le lemme de Riemann-Lebesgue. On
découpe en deux l’intégrale pour analyser ce qui se passe près de 0 et loin de 0.
∞
Près de 0, on utilise l’hypothèse suivante :
f (x) = f (0+ ) + xf ′ (0+ ) + x ε(x), avec lim ε(x) = 0.
x→0
+
(0 )
est borné sur ]0, δ]. La fonction
Par conséquent, il existe δ > 0 tel que f (x)−f
x
+
f (x)−f (0 )
1]0,δ] (x) est intégrable et par le lemme de Riemann-Lebesgue,
x
lim
Z
δ
A→+∞ 0
sin(Ax)
f (x) − f (0+ )
dx = 0.
x
Loin de 0, sur [δ, +∞[, on a 0 < 1/x < 1/δ, et la fonction
intégrable. Par Riemann-Lebesgue,
lim
Z
A→+∞ δ
∞
sin(Ax)
f (x)
dx = 0.
x
f (x)
x
1[δ,∞[(x) est
A.6. FORMULE D’INVERSION DE FOURIER
97
Enfin, par définition des intégrales généralisées, on a :
lim
Z
A→+∞ δ
∞
Z ∞
sin(Ax)
sin y
+
f (0 ) dx = lim
dy f (0+ ) = 0.
A→+∞
x
y
Aδ
On démontre de même que lim
la preuve.
Z
0
A→∞ −∞
dx
1
2 sin Ax
f (x)
= f (0− ), ce qui termine
x
2π
2
98
A.7
Exercices
exercice 1 Z n x n
1−
Calculer n→∞
lim
dx.
n
0
exercice 2
Z
Soit f : [0, 1] → R une fonction mesurée. Calculer lim
n→∞ 0
exercice 3
Montrer l’égalité
Z
1
0
Z
1
0
1
1
dx.
1 + n f (x)2
∞
X
1
1
dx dy =
.
2
1 − xy
n=1 n
exercice 4
Soit t > 0, calculer l’intégrale
Z
0
En déduire la valeur de
∞ sin x 2
R ∞ sin x 2
0
x
x
e−tx dx.
dx.
exercice 5
Calculer de deux manières différentes l’intégrale
En déduire la valeur de l’intégrale
R∞
0
ln(x)
(x2 −1)
dx.
exercice 6
On considère la série suivante, pour x ∈ [0, 1],
X
1
n
q
2n |x − sin(n)|
Z
0
∞Z ∞
0
1
dxdy.
(1 + y)(1 + x2 y)
.
Montrer qu’elle converge pour presque tout x ∈ [0, 1], mais qu’elle diverge pour
un ensemble dense de x ∈ [0, 1].
exercice 7
Z 1Z
Calculer l’intégrale
0
0
1
1
dx dy en effectuant le changement de variables
1 − xy
x = cos θ − t
y = cos θ + t
exercice 8
On se place sur R+ muni de la mesure de Lebesgue et on considère
1
.
f (x) =
x (1 + |ln(x)|)2
Montrer que :
– f ∈ L1 ([1, ∞[) et f ∈
/ Lp ([1, ∞[) si p < 1.
– f ∈ L1 ([0, 1]) et f ∈
/ Lp ([0, 1]) si p > 1.
– f ∈ L1 ([0, ∞[) et f ∈
/ Lp ([0, ∞[) si p 6= 1.
99
A.8. CONTRE-EXEMPLES
A.8
Contre-exemples
Vérifier les assertions suivantes en calculant les deux termes de chacune des
inégalités. Expliquer pourquoi les théorèmes classiques ne s’appliquent pas dans
chacun des cas.
Linéarité :
Z
1
1
−
dx
x(x + 1) x
1
0
6=
Z
0
1
Z
1
dx −
x(x + 1)
0
1
1
dx
x
Interversion limite intégrale :
lim
n→∞
Z
0
1
n
nx
dx
6=
Z
1
lim nxn
n→∞
0
dx
Interversion somme intégrale :
Z
0
1 +∞
X
k=0
xk − x2k − x2k+1
dx
6=
+∞
X
k=0
Z
1
xk − x2k − x2k+1 dx
0
Continuité sous le signe intégral :
lim
t→0
Z
0
∞
|t|
dx
1 + t2 x2
6=
Z
6=
Z
∞
lim
t→0
0
|t|
1 + t2 x2
dx
Intégrales multiples :
Z
1
∞
Z
1
∞
!
x−y
dx dy
max (x3 , y 3)
1
∞
Z
1
∞
!
x−y
dy dx
max (x3 , y 3)
100
Annexe B
Formulaire
On collecte dans cette annexe les formules vues dans le cours.
B.1
Loi d’une variable aléatoire
Loi d’une variable aléatoire X
PX (A) = P (X ∈ A) = P (X −1(A))
Espérance
E(X) =
Z
Ω
X dP =
Z
x dPX (x)
R
Variance
V (X) = E (X − E(X))
V (X) = E(X 2 )−E(X)2 =
2
Z
Z
=
2
Ω
(X − E(X)) dP =
Z
X 2 dP −
Ω
Formule de transfert
E(g(X)) =
Z
Ω
Ω
X dP
g(X) dP =
2
Z
R
=
Z
Z
R
R
(x − E(X))2 dPX (x)
g(x) dPX (x)
Fonction de répartition
FX (x) = P (X ≤ x) =
Z
x
−∞
dPX (x)
Fonction caractéristique
itX
ϕX (t) = E(e
)=
Z
itX
Ω
e
101
dP =
Z
R
Z
x2 dPX (x)−
eitx dPX (x)
R
x dPX (x)
2
102
ANNEXE B. FORMULAIRE
Cas discret
X
PX =
pxk δxk ,
Z
R
V (X) =
X
k∈I
x dPX (x) =
E(g(X)) =
Ω
X
xk P (X = xk )
k∈I
X
(xk − E(X))2 P (X = xk ) =
Z
px k
xk ∈A
k∈I
E(X) =
X
PX (A) =
g(X) dP =
Z
k∈I
x2k P (X = xk ) −
g(x) dPX (x) =
R
X
X
xk P (X = xk )
k∈I
g(xk )P (X = xk )
k∈I
X
FX (x) =
P (X = xk )
xk ≤x
ϕX (t) =
X
eitxk P (X = xk )
k
Cas continu
dPX (x) = fX (x) dx,
PX (A) =
Z
E(X) =
R
V (X) =
Z
R
E(g(X)) =
Ω
g(X) dP =
Z
R
FX (x) =
ϕX (t) =
B.2
Z
A
fX (x) dx
x fX (x) dx
(x − E(X))2 fX (x) dx =
Z
Z
Z
R
x2 fX (x) dx −
g(x) dPX (x) =
Z
x
−∞
R
Z
R
Z
R
g(x)fX (x) dx
fX (x) dx
eitx fX (x) dx
Inégalités
Inégalité de Cauchy-Schwarz
Z
E(|XY |) =
Ω
|XY | dP ≤
sZ
Ω
X 2 dP
sZ
Ω
Y 2 dP = kXk2 kY k2
Inégalité de Markov
P (Y ≥ λ) ≤
E(Y )
λ
si λ > 0, Y ≥ 0.
2
x fX (x) dx
2
103
B.3. COUPLES DE VARIABLES ALÉATOIRES
Inégalité de Bienaymé-Tchebichev
P (|X − E(X)| ≥ t) ≤
V (X)
t2
si t > 0, E(X 2 ) < ∞.
Majoration Lp , 1 ≤ p ≤ ∞, pour l’espérance conditionnelle
si X est dans Lp .
kE(X | F )kp ≤ kXkp
Inégalité de Jensen conditionnelle
ϕ E(X | F ) ≤ E ϕ(X) | F
p.s.
si ϕ est convexe et X, ϕ(X) intégrables.
Inégalité maximale pour les martingales
P max |Mi | ≥ λ ≤
0≤i≤N
B.3
E(MN2 )
λ2
si (Mn ) est une martingale.
Couples de variables aléatoires
Soit X et Y deux variables aléatoires. La loi du couple (X, Y ) est donnée par
P(X,Y ) (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω | (X(ω), Y (ω)) ∈ A})
Covariance
Cov(X, Y ) = E(XY ) − E(X)E(Y ) =
Z
Ω
XY dP −
Z
Ω
X dP
Z
Ω
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y )
Formule de transfert
E(g(X, Y )) =
Z
Ω
g(X, Y ) dP =
Z
R2
g(x, y) dP(X,Y ) (x, y)
Espérance d’un produit de variables indépendantes
E(f (X)g(Y )) = E(f (X)) E(g(Y ))
Loi d’un couple de variables indépendantes
E(g(X, Y )) =
Z
R2
g(x, y) dP(X,Y ) (x, y) =
Cas discret
P(X,Y ) =
X
Z
R2
g(x, y) dPX (x) dPY (y)
pxi ,yj δ(xi ,yj )
i,j
P(X,Y ) (A) =
X
i,j tels que (xi ,yj )∈A
P (X = xi , Y = yj )
Y dP .
104
E(g(X, Y )) =
Z
g(x, y) dP(X,Y ) (x, y) =
R2
X
g(xi , yj ) P (X = xi , Y = yj )
i,j
P (X = xi ) =
X
P (X = xi , Y = yj )
j
Cas continu
dP(X,Y ) (x, y) = fX,Y (x, y) dxdy,
E(g(X, Y )) =
Z
R2
g(x, y) dP(X,Y ) (x, y) =
fX1 (x1 ) =
B.4
P(X,Y ) (A) =
Z
R
Z
R2
Z
A
fX,Y (x, y) dxdy
g(x, y) fX,Y (x, y) dxdy
fX1 ,X2 (x1 , x2 ) dx2
Convergence de variables aléatoires
Convergence presque sûre
p.s.
Xn −−−−→ X
P ({ω ∈ Ω | Xn (ω) −−−−→ X(ω)}) = 1.
si
n→∞
n→∞
Convergence Lp
Lp
Xn −−−−→ X
kXn − Xkp −−−−→ 0.
si
n→∞
n→∞
Convergence en probabilité
proba
Xn −−
−−→ X
n→∞
si
P (|Xn − X| > ε) −−
−−→ 0 pour tout ε > 0.
n→∞
Convergence en loi
loi
Xn −−−−→ X
n→∞
B.5
si
Z
f dPXn −−−−→
n→∞
Z
f dPX pour toute f continue bornée.
Théorèmes limites
On pose Sn =
n
X
Xk . Alors E(Sn ) =
k=1
V (Sn ) =
n
X
E(Xk ). De plus,
k=1
n
X
V (Xk )
si les Xi sont indépendantes.
k=1
Si les Xi sont i.i.d. intégrables,
Sn proba
−−−−→ E(X1 )
n n→∞
105
B.6. ESPÉRANCE CONDITIONNELLE
Loi forte des grands nombres
Sn p.s.
−−−−→ E(X1 )
n n→∞
Si les Xi sont i.i.d. intégrables,
S
loi
√n −−−−→ N (0, σ 2)
n→∞
n
Si les Xi sont i.i.d. centrées telles que 0 < σ(Xi )2 < ∞,
Convergence des martingales bornées dans L2
Si Mn est une martingale et kMn k2 ≤ C, Mn converge p.s. et L2
Convergence de la somme dans le cas de variance bornée
X
Si les Xi sont indépendantes centrées et
Théorème des trois séries
V (Xi ) < ∞, Sn converge p.s. et L2
Soit Yi = Xi 1(|Xi |≤1) . Si les Xi sont indépendantes,
Sn converge p.s. ⇔
X
X
P (|Xi | ≥ 1),
E(Yi ),
Convergence des espérances conditionnelles
X
V (Yi ) convergent.
Si X est de carré intégrable et les Fi sont croissantes et engendrent T ,
p.s. et L2
E(X | Fn ) −−
−−→ X
n→∞
B.6
Espérance conditionnelle
Caractérisation de l’espérance conditionnelle
E(X | F ) est F -mesurable
Propriétés
E(E(X | F ) Y ) = E(XY ) pour tout Y F -mesurable
E(E(X | F )) = E(X)
E(Y X | F ) = Y E(X | F )
si Y est F -mesurable
E(E(X | F1 ) | F2 ) = E(E(X | F2 ) | F1 ) = E(X | F1 )
Conditionnement relativement à une variable aléatoire
Z
f (x) E(g(Y ) | X = x) dPX (x) =
Cas discret
E(g(Y ) | X = x) =
Z
si F1 ⊂ F2
f (x) g(y) dP(X,Y ) (x, y) si f est bornée
Z
E(g(Y ) 1(X=x) )
1
=
g(Y ) dP
P (X = x)
P (X = x) (X=x)
Cas continu
E(g(Y ) | X = x) =
R
R
g(y)fX,Y (x, y) dy
R fX,Y (x, y) dy
R
106
B.7
Martingales
Caractérisation
Mn est Fn − mesurable,
E(Mn+1 | Fn ) = Mn pour tout n.
Propriétés
E(Mn+k | Fn ) = Mn
pour tout k > 0.
E(Mn ) = E(M0 ) pour tout n.
Annexe C
Références
Références en français concernant les probabilités
Jean Jacod, Philip Protter
L’essentiel en théorie des probabilités
Cassini. ISBN 978-2842250508
Dominique Foata, Aimé Fuchs
Calcul des probabilités
Dunod. ISBN 978-2100574247
Références en anglais concernant les probabilités
Rick Durrett
Probability : theory and examples.
Cambridge University Press. ISBN 978-0-521-76539-8
Patrick Billingsley
Probability and measure.
John Wiley & Sons, Inc. ISBN 0-471-00710-2
Référence en français pour la théorie de l’intégration
Marc Briane, Gilles Pagès
Théorie de l’intégration, cours et exercices
Vuibert. ISBN 978-2311402261
Référence en anglais pour la théorie de l’intégration
Richard Mansfield Dudley
Real analysis and probability.
Cambridge University Press. ISBN 0-521-00754-2
Yves Coudène, Janvier 2015.
107

Cours de probabilités, master 1

Transcription

Documents pareils

Télécharger l`article au format PDF - ALE 08

03 Siska Gaeremyn

Nini peau de chien

MAP 311 - X2009 Fonction caractéristique, Vecteur

Simulations et Méthode de Monte Carlo

Formulaire de Probabilités et Statistiques

1 Simulation de la loi normale centrée réduite

INTÉGRATION SUR UN INTERVALLE QUELCONQUE Exercice 1

Télécharger la fiche produit - La fromagerie 1860 du village

MAT2112: Calcul II