Rappels de théorie des probabilités

Transcription

Rappels de théorie des probabilités
Rappels de théorie des probabilités
1. modèle probabiliste.
1.1. Univers, événements. Soit Ω un ensemble non vide. Cet ensemble sera appelé
l’univers des possibles ou l’ensemble des états du monde. Dans beaucoup de cas (notamment
lorsqu’il n’est pas fini ou dénombrable), on ne l’explicite pas.
Exemple. On suppose que l’on veut modéliser une expérience aléatoire qui a un ensemble
fini ou dénombrable d’issues possibles. L’ensemble Ω sera alors l’ensemble de ces issues. Par
exemple :
(i) On jette deux dés discernables en même temps, l’ensemble des résultats possibles
peut-être modélisé par l’ensemble Ω = {1, ..., 6}2 .
(ii) On jette un nombre infini de fois une pièce de monnaie. On peut choisir Ω = {0, 1}N .
Certains sous-ensembles de Ω, appelés des événements, jouent un rôle essentiel dans la
modélisation probabiliste. Ce sont les parties de Ω dont on veut connaı̂tre la probabilité. Les
événements ne contenant qu’un seul point de Ω sont appelés des événements élémentaires.
1.2. Tribus. Il paraı̂t naturel de demander que l’ensemble des événements soit stable par
les opérations ensemblistes élémentaires. Plus précisément, on a la définition suivante :
Définition 1.1. On appelle tribu de parties de Ω toute famille F de parties de Ω satisfaisant
(i) ∅ ∈ F;
(ii) A ∈ F =⇒ Ac ∈ F;
(iii) Si (An )n≥1 est une suite de F alors
[
An ∈ F.
n≥1
Le couple (Ω, F) où F est une tribu de parties de Ω est appelé un espace probabilisable.
Exemple. Souvent, lorsque Ω est fini ou dénombrable, on peut considérer tout sousensemble de Ω comme un événement. On note P(Ω) cette tribu, c’est la tribu la plus
fine dont on peut munir Ω.
A l’inverse, la tribu la plus grossière, appelée la tribu triviale, est F = {∅, Ω}.
Il arrive qu’on souhaite que certaines parties données de Ω soient des événements. Si
l’ensemble des parties de Ω de ce type n’est pas une tribu, on a besoin de considérer la plus
petite tribu contenant ces parties :
Définition 1.2. Soit A un ensemble non vide de parties de Ω. On appelle tribu engendrée
par A et on note σ(A) la plus petite tribu contenant A.
On peut montrer que la tribu engendrée par une famille A ⊂ P(Ω) est aussi l’intersection
de toutes les tribus contenant A. Remarquons également que si A est déjà une tribu de
parties de Ω, alors σ(A) = A.
1
2
Exemple. Cas d’une partition de Ω. Soit A = {A1 , ..., An } une partition de Ω. Alors
(
)
[
σ(A) =
Ai / I ⊂ {1, ..., n} .
i∈I
Un corollaire immédiat de ce résultat est que si Ω est fini et si A est l’ensemble des
singletons de Ω alors σ(A) = P(Ω).
Pour conclure cette présentation sur les tribus, donnons deux exemples qui illustrent le
fait que la tribu à considérer dans une modélisation n’est pas nécessairement P(Ω).
Exemple. Dans le cas non dénombrable, considérer tout sous-ensemble de Ω comme un
événement peut ne pas avoir de sens. Par exemple, considérons le lancer d’une fléchette
sur une cible de rayon 1 et notons Ω = [0, 1] l’ensemble des résultats possibles donnant la
distance de la fléchette au centre de la cible. Il semble clair que les événements doivent au
moins consister en les intervalles de [0, 1]. On sait (cf. le cours de première année) que la
tribu engendrée par les intervalles de [0, 1] forme l’ensemble des boréliens qui est strictement
inclus dans P([0, 1]).
Exemple. Même dans le cas fini, on peut avoir besoin de considérer des tribus moins fines
que P(Ω). Considérons par exemple que l’on a lancé N fois une pièce de monnaie mais
que l’on ne connaı̂t que le résultat du premier jet. On a Ω = {0, 1}N mais l’information à
laquelle on a accès à l’issue du premier jet est seulement constituée du résultat de ce premier
jet. Si on note A l’événement “le premier jet a donné pile” et Ac l’événement “le premier jet
a donné face” alors la tribu des événements accessibles à l’issue du premier jet est la tribu
engendrée par {A, Ac }, soit F = {∅, A, Ac , Ω}.
Remarquer que A peut s’écrire (si 1 représente “pile”)
A = {ω = (ω1 , ..., ωN ) ∈ {0, 1}N / ω1 = 1}.
A titre d’exercice, construire la tribu “naturelle” des événements connus à l’issue du n-ième
jet pour n ≥ 2.
1.3. Probabilités. Soit (Ω, F) un espace probabilisable.
Définition 1.3. On appelle probabilité sur (Ω, F) toute application P : F → [0, 1] satisfaisant
(i) P [Ω] = 1;
(ii) pour toute suite (An )n≥1 d’éléments de F deux à deux disjoints de F, (on dit que
les événements sont deux à deux incompatibles), on a :


[
X
P
An  =
P [An ].
n≥1
n≥1
Le triplet (Ω, F, P) s’appelle alors un espace probabilisé.
Définition 1.4. Soit (Ω, F, P) un espace probabilisé. On dit que
- un événement A ∈ F est négligeable si P [A] = 0. Une propriété dépendant de
ω ∈ Ω est dite presque sûre (ou est satisfaite presque sûrement) si elle est satisfaite
en dehors d’un ensemble négligeable.
3
- Deux événements A et B de F sont dits indépendants si
P [A ∩ B] = P [A]P [B].
- Une suite d’événements (An )n≥1 ⊂ F est appelée suite d’événements deux à deux
indépendants si, pour tous n, m ≥ 1, n 6= m, An et Am sont indépendants.
- Une suite d’événements (An )n≥1 ⊂ F est appelée suite d’événements indépendants
si, pour tout I ⊂ N∗ fini,
#
"
Y
\
Ai =
P [Ai ].
P
i∈I
i∈I
2. Variables aléatoires.
Soit (Ω, F, P) un espace probabilisé.
2.1. Définition.
Définition 2.1. On dit que l’application X définie sur Ω et à valeurs dans Rn est une
variable aléatoire sur (Ω, F, P) si elle est mesurable de (Ω, F) dans (Rn , B(Rn )).
Rappelons que B(Rn ) est la tribu des boréliens de Rn , c’est-à-dire la tribu engendrée par
les pavés de Rn . Rappelons également que X est dite mesurable de (Ω, F) dans (Rn , B(Rn ))
si, pour tout borélien B ∈ B(Rn ), X −1 (B) ∈ F.
Notation. On note en général [X ∈ B] l’événement X −1 (B).
Exemple. Soit X une application définie sur Ω et à valeurs dans Rn .
(1) Si F est la tribu triviale, alors X est mesurable de (Ω, F) dans (Rn , B(Rn )) si et
seulement si X est constante.
(2) Si F est une tribu engendrée par une partition finie de Ω, alors X est mesurable
de (Ω, F) dans (Rn , B(Rn )) si et seulement si X est constante sur chacune des
composantes de la partition.
Remarquons que la tribu P(Ω) rend toutes les applications mesurables. Autrement dit,
si X est une application de Ω dans Rn , X est mesurable de (Ω, P(Ω)) dans (Rn , B(Rn )).
La plus petite tribu qui rend X mesurable est appelée la tribu engendrée par X et notée
σ(X). On peut la définir facilement. C’est l’objet de la proposition suivante.
Proposition 2.1. Soit X une application de Ω dans Rn . La tribu engendrée par X est
σ(X) = {X −1 (B)/ B ∈ B(Rn )}.
2.2. Loi d’une variable aléatoire.
Définition 2.2. Soit X une variable aléatoire définie sur (Ω, F, P) prenant ses valeurs dans
Rn . On appelle loi de X et on note µX la mesure borélienne (i.e. définie sur les boréliens)
définie, pour tout B ∈ B(Rn ), par
£
¤
µX (B) = P X −1 (B) = P [X ∈ B].
Cette mesure s’appelle également la mesure image de P par X. C’est une mesure de probabilité sur Rn (mesure positive de masse totale est 1).
4
Connaı̂tre la loi de X permet donc de déterminer la probabilité de tous les événements
que l’on peut écrire avec la variable X. Parmi les lois les plus courantes, on comptes les lois
discrètes et les lois à densité.
Les lois discrètes sont les mesures qui sont portées par un ensemble dénombrable de
Rn . Une variable aléatoire discrète sera une variable aléatoire dont la loi est discrète. Plus
précisément, si la variable aléatoire X prend ses valeurs dans un ensemble {xk , k ≥ 1}, alors
sa loi est donnée par
X
µX =
P [X = xk ]δxk
k≥1
où, pour tout x ∈ Rn , δx est la mesure de Dirac au point x, c’est-à-dire la mesure définie,
pour tout B ∈ B(Rn ), par
(
1 si x ∈ B
δx (B) =
0 sinon.
Parmi les variables aléatoires discrètes bien connues, on a : la loi uniforme sur un ensemble
fini, la loi de Bernoulli, la loi binomiale, la loi hypergéométrique, la loi de Poisson, la loi
géométrique, etc.
Les lois à densité sont les lois qui sont absolument continues par rapport à la mesure de
Lebesgue. Une mesure de probabilité µ est absolument continue par rapport à la mesure
de Lebesgue sur Rn s’il existe f : Rn → R, Lebesgue-mesurable telle que, pour tout
B ∈ B(RN ),
Z
µ(B) =
f (x)dx.
B
En particulier, la fonction f , qui s’appelle alors la densité de µ (sous-entendu : par rapport
à la mesure de Lebesgue) est positive et d’intégrale sur Rn égale à 1.
Parmi les lois à densité les plus courantes, on a : la loi uniforme, la loi de Gauss (ou loi
normale), la loi de Cauchy, les lois exponentielles, les lois gamma, bêta, etc.
2.3. Moments d’une variable aléatoire. Comme on l’a fait pour les fonctions Lebesguemesurables en première année, on peut construire l’intégrale d’une variable aléatoire réelle
par rapport à une mesure quelconque. Rappelons brièvement la méthode de construction
de l’intégrale sur (Ω, F, P).
Etape 1 : On intègre les fonctions indicatrices d’ensembles mesurables. Soit A ∈ F. La
fonction indicatrice de A est mesurable de (Ω, F) dans (R, B(R)) (l’image réciproque d’un
borélien quelconque de R ne peut être que ∅, A, Ac ou Ω). On la note 1A , et on définit son
intégrale par
Z
1A dP = P [A].
Ω
Noter que cette intégrale est nécessairement finie car la mesure P est finie.
Etape 2 : On intègre les fonctions étagées, c’est-à-dire qui sont combinaisons linéaires finies
de fonctions indicatrices d’ensembles mesurables. Si X est une fonction étagée, elle s’écrit
donc
n
X
X=
αi 1Ai
i=1
où n est un entier positif quelconque, A1 ,...,An sont n éléments de F et α1 ,...,αn sont n
réels. L’intégrale d’une telle fonction est alors définie par
Z
n
X
XdP =
αi P [Ai ].
Ω
i=1
5
Etape 3 : On intègre les fonctions mesurables positives. On montre que ces fonctions peuvent
s’écrire comme limite croissante ponctuelle de fonctions étagées. C’est-à-dire que si X est
une variable aléatoire réelle positive, il existe une suite croissante (Xn )n≥1 de fonctions
étagées qui converge simplement vers X. On définit alors l’intégrale de X par
Z
Z
XdP = lim
Xn dP
n→+∞
Ω
Ω
en montrant que cette limite ne dépend pas de la suite choisie. Remarquons que cette
intégrale peut être infinie.
Etape 4 : Soit alors X une variable aléatoire réelle. Si
Z
|X|dP < +∞,
Ω
on dit que X est intégrable et on définit son intégrale par
Z
Z
Z
+
XdP =
X dP −
X − dP
Ω
Ω
Ω
où, pour tout a ∈ R, a+ = max(a, 0) et a− = max(−a, 0).
Comme dans le cours d’intégration de première année, on définit la classe des applications
intégrables L1 (Ω, F, P), celles des applications de carré intégrable L2 (Ω, F, P) et celle des
application presque sûrement bornées L∞ (Ω, F, P). Ces espaces sont complets pour les
normes k·k1 , k·k2 et k·k∞ respectivement et l’espace L2 (Ω, F, P), muni du produit scalaire
Z
hX, Y i = E [XY ] =
XY dP,
Ω
est un espace de Hilbert.
Définition 2.3. Soit X une variable aléatoire réelle définie sur (Ω, F, P).
(i) Si X est intégrable, on appelle espérance de X le réel
Z
E [X] =
XdP.
Ω
(ii) Si X est de carré intégrable, on appelle variance de X le réel
£
¤
£ ¤
2
Var [X] = E (X − E [X])2 = E X 2 − E [X] .
Remarquer que, si X est de carré intégrable alors X est intégrable puisque, d’après
Cauchy-Schwarz,
µZ
¶1/2 µZ
¶1/2
Z
2
|X|dP ≤
dP
X dP
.
Ω
Ω
Ω
Théorème 2.1. (Formules de transfert). Soit X une variable aléatoire définie sur (Ω, F, P)
et à valeurs dans Rn .
Alors pour toute fonction ϕ : Rn → R borélienne (c’est-à-dire mesurable de (Rn , B(Rn ))
dans (R, B(R))) bornée ou positive, on a :
Z
Z
E [ϕ(X)] =
ϕ(X)dP =
ϕ(x)dµX (x).
Rn
Ω
En particulier, si X est une variable alátoire discrète prenant ses valeurs dans {xk , k ≥ 1},
X
ϕ(xk )P [X = xk ],
E [ϕ(X)] =
k≥1
6
et si X admet pour densité fX ,
Z
E [ϕ(X)] =
Rn
ϕ(x)fX (x)dx.
Remarquer que ces formules sont également satisfaites dès que la variable aléatoire réelle
ϕ(X) est intégrable. Par exemple, si X est une variable aléatoire réelle intégrable et ϕ = Id,
on obtient une formule pour le calcul de E [X].
3. Exercices.
Exercice 3.1. Soit Ω un ensemble non vide et soit A = {A1 , ..., An } une partition de Ω.
Montrer que
(
)
[
σ(A) =
Ai / I ⊂ {1, ..., n} .
i∈I
Exercice 3.2. Soit (Ω, F) un espace probabilisable. Soit X une application définie sur Ω
et à valeurs dans Rn .
(1) Montrer que si F est la tribu triviale, alors la variable aléatoire X est mesurable de
(Ω, F) dans (Rn , B(Rn )) si et seulement si X est constante.
(2) Plus généralement, montrer que si F est une tribu engendrée par une partition finie
de Ω, alors X est mesurable de (Ω, F) dans (Rn , B(Rn )) si et seulement si X est
constante sur chacune des composantes de la partition.
Exercice 3.3. Soit Ω un ensemble non vide et soit X une application de Ω dans Rn .
Montrer que la tribu engendrée par X (i.e. la plus petite tribu rendant X mesurable) est
σ(X) = {X −1 (B)/ B ∈ B(Rn )}.
Exercice 3.4. Soit ϕ une fonction borélienne sur Rn et soit x ∈ Rn . Montrer, en vous
inspirant de la construction d’une intégrale par rapport à une mesure de probabilité, que
Z
ϕ dδx = ϕ(x).
Rn