Cours élémentaire de probabilité pour ingénieurs.

Transcription

Cours élémentaire de probabilité pour ingénieurs.
Cours élémentaire de probabilité pour ingénieurs.
André Mas, Polytech Montpellier
Coincidences, in general are great stumbling-blocks in the way of that class of
thinkers who have been educated to know nothing of the theory of probabilitiesthat theory to which the most glorious objects of human research are indebted
for the most glorious illustration.
Edgar Allan POE,
The murders of the Rue Morgue.
2
Chapitre 1
Introduction
1.1
Expérience aléatoires, évènements
Une expérience est aléatoire dès lors que son résultat ne peut pas être prédit
exactement : la valeur lue sur la face du dé que l’on jette, la température à 8h
du matin demain, le prochain résultat du loto... Dans tous les cas, on connaı̂t
par contre l’ensemble des issues possibles de notre expérience : la face du dé
vaudra nécessairement 1, 2, ..., ou 6, la température à toute les chances de se
trouver comprise entre −50◦ et 35◦ quant au résultat du loto il sera consitué de
8 nombres compris entre 1 et 49, tous dictincts.
Un mécanisme sous-jacent -météorologique- existe qui va permettre de fixer,
par exemple, la température à 14◦ demain matin à 8h. Mais celui-ci est trop
complexe pour être modélisé et l’on préfère parler d’une résultat aléatoire.
Notons que, dans tous les cas nous sommes capables de définir avec plus ou
moins de précision l’ensemble des valeurs possibles pour l’expérience aléatoire
qui nous péoccupe. Ainsi nous noterons Ω l’ensemble des valeurs possibles de
notre expérience aléatoire.
Nous allons apprendre à affecter des probabilités aux résultats de ces expériences
aléatoires, c’est à dire calculer la valeur d’expressions du type :
Probabilité (Evènement)
Nous allons définir ce que l’on entend par ”probabilité” mais auparavant il est
nécesssaire de donner une tournure mathématique à la notion d’”évènements”.
Remarquons tout d’abord qu’un évènement peut toujours être vu comme un
sous ensemble de Ω. Reprenons les exemple vus au-dessus et considérons le jet
d’un dé. Il est clair qu’ici Ω = {1, 2, ..., 6}. L’évènement {Le résultat du jet est
supérieur à 5} peut être vu comme un sous-ensemble A de Ω avec A = {5, 6}.
Dans le cas d’un relevé de température et sur la base d’un choix raisonnable
de Ω = [−50◦ , 35◦ ] l’évènement : {Il fera entre 15 et 20 degrée} peut là aussi
s’écrire sous la forme d’un sous ensemble A′ = [15, 20] ⊂ Ω.
On veut aussi pouvoir définir à partir de deux évènements élémentaires A et
B de nouveaux évènements du type ”A et B”, ”A ou B” ou ”contraire de A”.
En d’autre terme si A et B sont des évènements il faut que A ∩ B et A ∪ B et
A soient des évènements.
Enfin il nous faut envisager le cas de répétitions éventuellement infinies. Par
exemple, supposons que l’on s’amuse à lancer un dé en décidant de nous arrêter
3
dès que le 6 sort. Si nous souhaitons nous intéresser à la probabilité que ce jeu
puisse s’arrêter, c’est à dire la probabilité que 6 sorte nous sommes amenés à
considérer une suite infinie d’évènements An = {le 6 sort au n ième coup} car
nous ne savons pas a priori quand le 6 va sortir. Puis nous devons calculer la
probabilité de
A = ∪n An .
Il faut donc que A soit aussi un évènement. Les propriétés que nous venons
d’évoquer sont reprises dans la
Dfinition 1 Soit Ω un ensemble (l’ensemble des valeurs possibles associé au
résultat d’une expérience aléatoire). Nous appellerons tribu sur Ω (ou famille
des évènements) une famille de sous-ensembles de Ω, notée A, telle que :

 (i) Ω ∈ A
(ii) si A ∈ A, A ∈ A

(iii) si pour tout n ∈ N, An ∈ A, ∪n An ∈ A
Un élément de A est un évènement.
Remarque 2 Attention : A est une famille d’ensembles de Ω, ce qui signifie
qu’écrire A ⊂ A n’a aucun sens. Par contre A ∈ A à un sens (tout comme
A ⊂ Ω).
Remarque 3 L’”intersection” ne manque pas. Montrons que si A, B ∈ A,
A ∩ B ∈ A En effet A ∩ B = A ∪ B. Il suffit alors d’invoquer (ii) (A et B sont
dans A) puis (iii) (A ∪ B est donc dans A) et enfin (ii) à nouveau (A ∪ B ∈ A)
pour conclure. De la même façon,
Proposition 4
(i bis) ∅ ∈ A
(iii bis) Si pour tout n ∈ N, An ∈ A, ∩n An ∈ A
Exemple 5 Si Ω = R on peut facilement montrer que la famille d’ensembles
A = {(−∞, t[ , t ∈ R}
est une tribu.
Exemple 6 Si Ω = N la famille des singletons :
A = {{k} , k ∈ N}
consitute aussi une tribu.
1.2
Mesure de probabilité
Une mesure de probabilité va associer à un évènement un ”poids” compris
entre 0 et 1. Plus ce poids sera grand, plus l’évènement sera probable. Il est
donc logique de munir une mesure de probabilité de propriétés qui seraient
celles d’une bonne balance.
4
Dfinition 7 Soit E = (Ω, A) un espace mesurable. Une mesure de probabilité
sur E est un application P de A vers [0, 1] qui vérifie les deux propriétés suivantes
(i) P (Ω) = 1
(ii) Si pour tout n ∈ N les An ∈ A et sont deux à deux disjoints,
X
P (∪n An ) =
P (An ) .
n
On dit que (Ω, A, P) est un espace probabilisé
On déduit facilement de la propriété ci-dessus les propriétés ci-dessous.
Proposition 8 P A = 1 − P (A)
P (∅) = 0
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ,
si A ⊂ B, P (A) ≤ P (B) ,
si B ⊂ A, P (A\B) = P A ∩ B = P (A) − P (B) ,
si An ↑ A, (i.e. An ⊂ An+1 et ∪n An = A), P (An ) ↑ P (A) ,
si An ↓ A, P (An ) ↓ P (A)
Exemple 9 Si Ω = {1, ..., n} , on peut construire la probabilité ”uniforme” en
posant
card (A)
.
P (A) =
n
Et dans ce cas, par exemple, P ({1} ∪ {n − 1}) = 2/n.
Exemple 10 Si Ω = [0, 1] , on peut définir la mesure de Lebesgue de la façon
suivante
longueur (A)
P (A) =
.
n
Ainsi, P (]0.15, 0.23[ ∪ [0.70, 0.93[) = 0.31.
1.3
1.3.1
Probabilités conditionnelles, Formule de Bayes,
Introduction à l’indépendance
Probabilités conditionnelles
Un exemple pour débuter :
On dispose de deux dés parfaits : un noir et un blanc. On lance les deux
dés et on s’intéresse à l’évènement A ={la somme des dés vaut 5}. Il y a quatre
résultats possibles et cette probabilité vaut donc 4/36. Supposons maintenant
que nous disposions d’une information supplémentaire.
(i) L’évènement B ={Le dé blanc vaut 5} est réalisé. Il est alors clair que
l’évènement A ne se réalisera pas quelle que soit la valeur du dé noir. On
dit que la probabilité que A se réalise sachant (que) B (s’est réalisé) est
nulle. Avec des symboles : P (A|B) = 0.
(ii) L’évènement C ={Le dé blanc vaut 1} se réalise. Dans ce cas il n’y a qu’une
situation qui verra la survenue de A : c’est la cas où le dé noir vaut 4. Il
n’y a plus qu’une chance sur 6 et P (A|C) = 1/6
5
Remarque 11 Il est clair que l’on peut définir la notion d’évènement conditionnel. Il n’est ni interdit, ni absurde -mais fortement conseillé- de parler de
A|C par exemple et de le traiter comme un évènement ”standard” en comprenant bien que l’issue de l’évènement C est alors certaine et connue.
Nous allons généraliser l’exemple vu ci-dessus au calcul général de P (A|B).
L’idée est la suivante : si l’on peut prendre en compte une information (i.e. un
évènement, ici B) il faut actualiser le calcul des probabilités ; si B s’est réalisé il
est logique de ne prendre en compte dans le calcul de la probabilité de A que ce
qui est lié à B. Ainsi P (A|B) est lié à P (A ∩ B) . Pour être cohérent, P (B|B)
doit valoir 1. Nous allons voir que la définition ci-dessous permet de définir une
mesure de probabilité qui remplit bien les conditions souhaitées.
Dfinition 12 Soit (Ω, A, P) un espace probabilisé et B un évènement fixé de
probabilité non-nulle, A un évènement quelconque. La probabilité conditionnelle
de A sachant B est :
P (A ∩ B)
.
P (A|B) =
P (B)
Elle permet bien de définir une nouvelle mesure de probabilité :
QB (•) =
1.3.2
P (• ∩ B)
.
P (B)
Formule de Bayes
Nous commençons par donner une définition puis la formule des probabilités
totales
Dfinition 13 On dit que la famille d’évènements (Bi )i∈N est un système complet d’évènements (s.c.e.) si (Bi )i∈N forme une partition de Ω. Dans ce cas
Bi ∩ Bj = ∅,
∪i Bi = Ω.
Proposition 14 Soit (Bi )i∈N un système complet d’évènements de Ω alors pour
tout A ∈ A
X
P (A ∩ Bi )
P (A) =
i
et si de plus pour tout i P (Bi ) 6= 0,
X
P (A|Bi ) P (Bi )
P (A) =
i
Voici maintenant la formule de Bayes. C’est une formule d’”inversion”qui
permet d’exprimer P (A|B) en fonction de P (B|A) . Sa démonstration est très
simple.
Thorme 15 Soient A et B deux évènements de probabilité non-nulle et (Bi )i∈N
un système complet d’évènements alors
P (B|A) = P (A|B)
P (B)
,
P (A)
P (Bi |A) = P (A|Bi ) P
6
P (Bi )
.
P
(A|B
j ) P (Bj )
j
1.3.3
Indépendance
L’indépendance est un concept fondamental de la théorie des probabilités.
Elle permet de conceptualiser le fait que deux événèments ne peuvent pas interagir l’un sur l’autre.
Dfinition 16 Soient A et B deux évènements. On dit que A et B sont indépendants
ssi :
P (A ∩ B) = P (A) P (B) .
Il est équivalent de dire que
P (A|B) = P (B|A) = 0.
On écrit alors A ⊥ B.
Remarque 17 Un évènement de probabilité nulle est toujours indépendant de
tous les autres. La notion d’évènement n’est pas une notion ensembliste : elle
dépend du choix de la probabilité (deux évènements indépendants sous telle probabilité ne le seront pas nécessairement sous telle autre).
Remarque 18 Indépendance et intersection vide n’ont rien à voir ! ! ! Deux
évènement disjoints sont nécessairement dépendants...
Proposition 19 Soient A et B deux évènements
A⊥B
ssi
A ⊥ B.
On peut étendre la notion d’indépendance à une famille d’évènements. Soit
(Ai )i∈N une famille quelconque d’évènements.
Dfinition 20 On dit que les Ai sont mutuellement indépendants si pour tout
sous-ensemble fini I d’indices
P (∩i∈I Ai ) = Πi∈I P (Ai )
On dit que les Ai sont indépendants deux à deux si pour tous i 6= j, Ai ⊥ Aj .
Proposition 21 L’indépendance mutuelle des Ai implique leur indépendance
deux à deux. La première est donc plus ”forte” que la seconde.
7
8
Chapitre 2
Intermède sur les variables
aléatoires
Les résultats d’une expérience aléatoire ne sont pas toujours quantifiables
(La choisirai-je brune ou blonde ?... Je parle de bières bien sûr). Cependant
quand cela est possible il peut-être intéressant de leur associer un nombre (ou
un vecteur de nombre) les décrivant ou résumant une information partielle qui
se trouve contenue dans l’expérience aléatoire. Ce nombre est appelé variables
aléatoire Voilà deux exemples pour vous convaincre :
Evènement ”brut”
A ={Je tire le numéro 6 sur mon dé}
Variable aléatoire
X =”Numéro de la face tirée”
Evènement réécrit via la v.a.
A = {X = 6}
Evènement ”brut”
B ={Demain la température
sera comprise entre 18 et 21
degrés}
T =”Température demain”
B = {18 ≤ T ≤ 21}
Variable aléatoire
Evènement réécrit via la v.a.
Les deux exemples précédents nous montrent aussi que nous devons d’ores et
déjà envisager deux sortes de variables aléatoires. Nous les traiterons séparément
par la suite même si une présentation unifiée -nécessitant plus de formalismeserait possible.
Dfinition 22 Une variable aléatoire est dite discrète si elle ne prend qu’un
nombre fini ou infini dénombrables de valeurs. Elle est dite continue ou réelle
si elle prend ses valeurs dans R ou dans un intervalle de R.
Nous verrons qu’il est possible de caractériser ces variables aléatoires par des
concepts similaires (densité, fonction de répartition, fonction caractéristique). Le
présent chapitre s’intéresse aux variables discrètes. Le suivant développera le cas
de variables continues.
9
10
Chapitre 3
Variables aléatoires
discrètes
Dfinition 23 Une variable aléatoire X est dite discrète (v.a.d) si X prend un
nombre fini ou infini dénombrable de valeurs.
Remarque 24 Le cas général qu’embrasse la définition ci-dessus est celui où
les valeurs de X sont énumérables sous la forme {a1 , ..., an , ...} où ai est un réel.
Puisque cela ne change rien au formalisme et que cela simplifie grandement le
discours, nous supposerons toujours que X est à valeurs dans N.
3.1
Loi d’une variable aléatoire discrète
Dfinition 25 La loi d’une vad est entièrement déterminée par la donnée des
P (X = k) ≥ 0, k ∈ N ou par la donnée de P (X ≤ t) = FX (t), t ∈ R. La
fonction FX est appelée fonction de répartition de X, c’est ici une fonction en
escalier continue à droite avec une limite à gauche (càdlàg).
Proposition 26 On a les relations suivantes :
X
P (X = k) = 1
k∈N
P (X ≤ t) =
X
P (X = k)
k≤t
P (X = k) = FX (k) − FX (k − 1)
Proposition 27 (fonction d’une variable aléatoire discrète). Soit g une fonction de R+ vers R. Notons Y = g (X). L’ensemble des valeurs possibles de Y
est g (N). Sa loi est donnée par :
X
P (X = i)
P (Y = g (k)) =
i:g(i)=g(k)
Si la fonction g est injective P (Y = g (k)) = P (X = k) mais cela n’est pas
toujours le cas.Prenons immédiatement un exemple.
11
Exemple 28 Soit X la variable aléatoire définie par P (X = −1) = P (X = 1) =
1/4 et P (X = 0)) = 1/2. Prenons g (x) = |x| (qui n’est pas injective). On voit
bien que P (Y = 1) = P (X = 1) + P (X = −1) = 1/2.
3.2
Moments d’une variable aléatoire discrète
Dfinition 29 (Espérance)
On dit que X possède un moment d’ordre 1 ou un
P
kP
(X = k) est convergente. Si X est à valeurs dans
espérance si la série P
k∈N
Z on doit imposer que k∈Z |k| P (X = k) le soit aussi. Dans ce cas l’espérance
de X, qui est aussi sa moyenne mathématique vaut :
X
EX =
kP (X = k) .
k∈N
Remarque 30 Si X prend un nombre fini de valeurs la série ci-dessus est
toujours convergente. La série des pk = P (X = k) est positive et tend vers 0.
Remarque 31 Il existe des vad sans espérance. Par exemple si P (X = k) =
6 1
π 2 k2 , EX n’existe pas.
La définition suivante est particulièrement importante
Dfinition 32 Soit g une fonction de R vers R telle que
X
|g (k)| P (X = k) < +∞.
k∈N
Nous pouvons définir :
Eg (X) =
X
g (k) P (X = k) .
k∈N
La variables aléatoire Z = X − EX est toujours bien discrète au sens de la
définition donnée au-dessus mais elle n’est plus à valeurs dans N. On vérifie que
EZ = 0. On dit que Z est centrée.
Proposition 33 La fonction espérance est linéaire c’est à dire qu’elle dispose
des deux propriétés suivantes :
E (aX + b) = a (EX) + b
si a et b sont deux nombres déterministes (i.e. non aléatoires) et
E (X + Y ) = EX + EY.
Enfin si X est une variable aléatoire constante (i.e. si X vaut c tout le temps)
on a en particulier EX = Ec = c.
Dans le cas où la fonction g de la définition ci-dessus est de la forme g (x) =
xp on parle de ”moment non centré d’ordre p” pour désigner EX p = E (X p ) .et
p
de ”moment centré d’ordre p” pour désigner E (X − EX) L’espérance est donc
le moment d’ordre 1. Le moment d’ordre 2 va aussi beaucoup nous intéresser.
12
2
Dfinition 34 On dit que la vad X admet une variance si la vad (X − EX)
admet une espérance. On note alors :
2
VX = E (X − EX) ,
√
σX = VX
pour désigner la variance et l’écart-type de X. La variance et l’écart-type sont
toujours des grandeurs positives.
Proposition 35 On a l’identité cruciale suivante qui résulte de la linéarité de
2
l’espérance : VX = EX 2 −(EX) . Pour que la variance existe il suffit que la série
2
définissant EX soit convergente. Enfin on peut montrer (avec les notations du
dessus) que :
V (aX + b) = a2 VX.
On peut étendre la Définition 32 au cas où la fonction g est à valeurs complexes. Ainsi dans le cas où g (x) = gt (x) = exp (itx) (exponentielle complexe)
on aboutit à une dernière défintion tout aussi importante pour la suite de ce
cours.
Dfinition 36 On appelle fonction cractéristique de la vad X :
φ (t) = E eitX
Il est très important de se rappeler que la fonction φ est à valeurs complexes.
3.3
Quelques variables discrètes usuelles
Vous trouverez ci-dessous une petite liste, loin d’être exhaustive, de vad que
vous retrouverez souvent dans les exercices ou les applications de ce cours. En
annexe une table présente un récapitulatif englobant d’autres lois importantes.
Loi uniforme sur l’ensemble {1, ..., n} : U[1,n] .
Valeurs
{1, ..., n}
Loi
P (X = k) =
1
n
Espérance
EX = n+1
2
Variance
2
VX = n 12−1
Loi de Bernoulli de paramètre p : B (p)
Valeurs
{0, 1}
Loi
P (X = 1) = p
Espérance
EX = p
Variance
VX = p (1 − p)
Fonction caractéristique
Pn
φ (t) = n1 k=1 exp (ikt)
Fonction caractéristique
φ (t) = 1 − p + peit
Loi de Rademacher de paramètre p : R (p)
Valeurs
{−1, 1}
Loi
P (X = 1) = p
Espérance
EX = 2p − 1
Variance
VX = 4p (1 − p)
Loi Binômiale de paramètres n et p : B (n, p)
13
Fonction caractéristique
φ (t) = cos t
Valeurs
{0, ..., n}
Loi
n−k
P (X = k) = Cnk pk (1 − p)
Espérance
EX = np
Variance
VX = np (1 − p)
Fonction caractéristique
n
φ (t) = 1 − p + peit
Loi géométrique de paramètre p : G (p)
Valeurs
N∗
Loi
k−1
P (X = k) = p (1 − p)
Espérance
EX = p1
Variance
VX = 1−p
p2
Fonction caractéristique
p exp(it)
φ (t) = 1−(1−p)
exp(it)
Loi de Poisson de paramètre λ : P (λ)
Valeurs
N
Loi
k
P (X = k) = e−λ λk!
Espérance
EX = λ
14
Variance
VX = λ
Fonction caractéristique
φ (t) = exp λ eit − 1
Chapitre 4
Variables aléatoires réelles
Dfinition 37 Une variable aléatoire réelle (var) prend ses valeurs dans R ou
dans un sous ensemble de R.
4.1
Loi d’une variable aléatoire réelle
Dfinition 38 On appelle fonction de répartition de la var X la fonction t →
FX (t) = P (X ≤ t). Cette fonction est croissante. De plus en a toujours :
lim FX (t) = 0,
t→−∞
lim FX (t) = 1.
t→+∞
Si cette fonction est dérivable, sa dérivée notée fX ou plus simplement f est
appelée densité de la var X. Ces deux fonctions f et F caractérisent à elle
seules parfaitement la loi de X c’est à dire permettent de calculer la probabilité
associée à n’importe quel évènement faisant intervenir X.
Cette définition est cruciale. En fait on peut montrer que toute fonction de
répartition est au moins continue par morceaux et quelle admet un nombre au
plus dénombrable de points de discontinuité. Dans toute la suite nous supposerons que FX est dérivable, pour plus de ”tranquillité”. Cela a une conséquence
immédiate :
P (X ≤ t) = P (X < t) et P (X = {t}) = 0
pour tout réel t. De la définition ci-dessus nous déduisons deux relations importantes :
Proposition 39
P (X ≤ t) = FX (t) =
Z
t
f (s) ds
−∞
P (a < X ≤ b) = FX (b) − FX (a) =
= P (a ≤ X ≤ b)
Z
b
f (s) ds
a
La dernière relation étant obtenue via la remarque qui précède cette proposition.
15
Nous pouvons maintenant mieux comprendre le terme de ”densité” : la probabilitéde l’évènement élémentaire {a ≤ X ≤ b}, son ”poids”, vaut l’aire sous la
densité entre les points a et b, tout comme on calculerait le poids de n’importe
quel objet -même inhomogène- en intégrant sa densité sur son volume.
Remarque 40 Si X prend ses valeurs dans un sous-ensemble D de R, sa densité est nulle au-dehors de D.
Proposition 41 La densité fRde la variable X est une fonction positive, continue par morceaux et telle que R f (x) dx = 1
R
R
Bien entendu si f est nulle en dehors de D, R f (x) dx = D f (x) dx.
Notation 42 Nous appellerons fonction indicatrice de l’ensemble D (qui n’est
pas nécessiarement un intervalle) la fonction constante par morceaux notée et
définie par :
1 si x ∈ D,
x → 1ID (x) =
0 sinon.
Exemple 43 Voici quelques exemples de densités :
f (x) = 1I[0,1] (x) ,
1
f (x) =
1I[a,b] (x) ,
b−a
f (x) = 2 exp (−2x) 1IR+ (x) .
Le Théorème suivant permet de préciser la densité de la variable aléatoire
image g (X) quand celle de X est connue et sous certaines hypothèses sur g.
Thorme 44 Soit X une variable aléatoire de densité fX . On suppose que X est
à valeurs dans D ⊂R. Soit g : R → R satisfaisant les deux conditions suivantes :
sa restriction à D est inversible et g ′ ne s’annule jamais. Alors la var g (X) est
à valeurs dans g (D) et admet une densité donnée par la formule
fg(X) (y) =
4.2
fX ◦ g
(y)
g ′ ◦ g −1
y ∈ g (D) .
Moments d’une variable aléatoire réelle
Dfinition 45 (Espérance)
On dit que X possède un moment d’ordre 1 ou un
R
espérance si l’intégrale |x| f (x) dx est convergente. Dans ce cas l’espérance de
X, qui est aussi sa moyenne mathématique vaut :
Z
EX = xf (x) dx.
Remarque 46 L’intégrale est a priori prise sur R mais peut être restreinte
à D. Comme dans le cas discret il est toujours possible d’exhiber des var sans
espérance. L’espérance étant bien la moyenne de X. Si, par exemple a ≤ X ≤ b,
nécessairement, a ≤ EX ≤ b.
La définition suivante est particulièrement importante
16
Dfinition 47 Soit g une fonction de R vers R telle que
Nous pouvons alors poser :
Z
Eg (X) = g (x) f (x) dx.
R
|g (x)| f (x) dx < +∞.
La variables aléatoire Z = X − EX est dite centrée et vérifie encore EZ = 0.
Proposition 48 La fonction espérance est, comme dans le cas discret linéaire :
E (aX + b) = a (EX) + b
si a et b sont deux nombres déterministes (i.e. non aléatoires) et
E (X + Y ) = EX + EY.
Dans le cas où la fonction g de la définition ci-dessus est de la forme g (x) =
xp on parle de ”moment non centré d’ordre p” pour désigner EX p = E (X p ) et
p
de ”moment centré d’ordre p” pour désigner E (X − EX) . Nous définissons la
variance.
2
Dfinition 49 On dit que la vad X admet une variance si la vad (X − EX)
admet une espérance. On note alors : :
2
VX = E (X − EX)
√
σX = VX
pour désigner la variance et l’écart-type de X. La variance et l’écart-type sont
toujours des grandeurs positives.
Proposition 50 On a l’identité cruciale suivante qui résulte de la linéarité de
l’espérance : VX = EX 2 −(EX)2 . Pour que la variance existe il suffit que la série
définissant EX 2 soit convergente. Enfin on peut montrer (avec les notations du
dessus) que :
V (aX + b) = a2 VX.
On peut étendre la Définition 32 au cas où la fonction g est à valeurs complexes. Ainsi dans le cas où g (x) = gt (x) = exp (itx) (exponentielle complexe)
on aboutit à une dernière défintion tout aussi importante pour la suite de ce
cours.
Dfinition 51 On appelle fonction caractéristique de la vad X :
φ (t) = E eitX
Il est très important de se rappeler que la fonction φ est à valeurs complexes.
4.3
Quelques variables réelles usuelles
La aussi la liste est loin d’être complète. Les densités sont nulles en dehors
du support de la loi. En annexe une table présente un récapitulatif englobant
17
d’autres lois importantes, notamment les dérivées de la loi normale : Student,
Chi-Deux, Fischer.
Loi uniforme sur l’ensemble [a, b] : U[a,b] .
Valeurs
Densité
[a, b]
f (x) = 1I[a,b] (x)
Loi de Gauss N m, σ 2
Valeurs
Variance
2
(b − a)
VX =
12
Espérance
√ 1
2πσ2
Fonction caractéristique
eitb − eita
φ (t) =
it (b − a)
Densité
f (x) =
R
Espérance
a+b
EX =
2
2
exp − (x−m)
2
2σ
EX = m
Variance
VX = σ
2
Fonction caractéristique
φ (t) = exp itm − σ 2 t2 /2
2
Loi Gamma de paramètres (α, λ) ∈ (R+∗ ) : γ (α, λ)
Valeurs
R
+
Densité
λα α−1
f (x) =
x
exp (−λx)
Γ (α)
Espérance
α
EX =
λ
Variance
α
VX = 2
λ
Fonction caractéristique
φ (t) = (1 − it/λ)−α
Loi Exponentielle de paramètre λ > 0 : E (λ)
Valeurs
R+
Densité
f (x) = λ exp (−λx)
Espérance
EX = 1/λ
Variance
VX = 1/λ2
Fonction caractéristique
−1
φ (t) = (1 − it/λ)
Loi de Cauchy C
Valeurs
Densité
Espérance
Variance
Fonction caractéristique
R
1
f (x) =
π (1 + x2 )
EX = +∞
VX = +∞
φ (t) = exp (− |t|)
18
Chapitre 5
Vecteurs aléatoires et
indépendance
Dfinition 52 Un vecteur aléatoire de Rn est un vecteur dont les composantes
sont des vad ou des var. Sa notation générique sera :


X1
 X2 

X =
 ... 
Xn
L’espérance du vecteur X est un vecteur non aléatoire de Rn défini par (écriture
en ligne) :
EX = (EX1 , EX2 , ..., EXn )
Pour un vecteur l’équivalent de la variance prend les traits d’une matrice. On
appelle matrice de variance-covariance du vecteur X (plus simplement matrice
de variance) la matrice carrée, symétique et positive Σ définie par :


VX1
cov (X1 , X2 )
 cov (X1 , X2 )

VX2
...




...
... cov (Xi , Xj )
Σ = VX = 



cov (Xi , Xj )
...
...
VXn
où cov (Xi , Xj ) = E (Xi Xj )−EXi EXj = E [(Xi − EXi ) (Xj − EXj )] est appelée
covariance entre Xi et Xj . Son calcul sera explicité plus loin.
Dans toute la suite nous nous limiterons au cas des vecteurs de taille 2.
La généralisation est souvent intellectuellement immédiate quoique pénible à
rédiger. Le terme de vecteur sera donc souvent remplacé par celui plus précis
de ”couple”. Ce couple sera invariablement noté (X, Y ).
5.1
Couples de variables aléatoires discrètes.
Les réalisations d’un couple de variables discrètes peuvent être représentées
dans le plan : les points forment donc un nuage mais se situent sur une grille.
19
5.1.1
Lois d’un couple
Dfinition 53 Soit (X, Y ) un couple de vad. La loi du couple ou loi jointe est
la probabilité définie sur Ω = N × N par
P(X,Y ) (i, j) = P (X = i, Y = j) = P ({X = i} ∩ {Y = j})
Exemple 54 On lance deux dés en notant D1 et D2 les valeurs lues sur chacun.
Il ets simple de voir que
P (D1 = i, D2 = j) =
1
36
pour toutes valeurs de i et j dans {1, ..., 6} . Mais on pourrait aussi s’intéresser
au nouveau couple (X = D1 + D2 , Y = |D1 − D2 |) . On voit par exemple que les
valeurs prises par X sont dans {2, ..., 12} et celles de Y dans {0, ..., 5}. Mais le
clacul de la loi est plus compliqué... Car les valeurs prises par X et Y dépendent
l’une de l’autre.
Exemple 55 Le résultat du loto est un bel exemple de vecteur aléatoire discret
dans l’espace N7 . En fait l’espace Ω est ici nettement plus petit que N7 (puisqu’il
n’y a pas remise des boules dans l’urne).
De la loi jointe on déduit les lois de chacune des composantes (ou lois marginales de X et de Y ). Ainsi :
X
P (X = i, Y = j)
PX (i) = P (X = i) =
j
PY (j) = P (Y = j) =
X
P (X = i, Y = j)
i
5.1.2
Espérance et moments d’un couple
Nous pouvons désormais introduire l’espérance d’une fonction quelconque
des deux variables X et Y .
Dfinition 56 Soit g : N × N → R une fonction telle que
X
|g (i, j)| P (X = i, Y = j) < +∞.
i,j
On peut alors définir :
Eg (X, Y ) =
X
g (i, j) P (X = i, Y = j) .
i,j
Le moment croisé d’ordre 1 se définit et s’écrit simplement :
X
ijP (X = i, Y = j)
EXY =
i,j
Nous disposons désormais de définitions qui nous permettent de revenir à la
notion de covariance introduite en tête de ce chapitre, lors de la définition de la
matrice de variance d’un vecteur.
On rappelle qu’en toute généralité cov (X, Y ) = E (XY ) − EXEY et nous
savons calculer cette grandeur dans le cas où (X, Y ) forme un couple de vad. La
covariance dispose de propriétés que ous ne pouvons éviter de mentionner.
20
Proposition 57 Soit (X, Y ) un couple de vad et α un réel fixé. On a
cov (X, Y ) = cov (X, Y )
cov (αX, Y ) = α · cov (X, Y )
V (X + Y ) = V (X) + V (Y ) + 2cov (X, Y )
Ces trois formules sont aussi valables quand X et Y sont des var. Nous
montrons la dernière.
Il suffit de partir de la définition ”développée” de la variance :
V (X + Y ) = E (X + Y )2 − [E (X + Y )]2
2
2
= EX 2 + EY 2 + 2EXY − (EX) − (EY ) − 2EXEY.
En regroupant les termes nous arrivons à la formule souhaitée pusique, par
2
exemple, V (X) = EX 2 − (EX) .
5.1.3
Couple de vad indépendantes
Dfinition 58 Soit (X, Y ) un couple de vad. On dit que X et Y sont indépendantes
si et seulement si pour tous i et j dans N
P (X = i, Y = j) = P (X = i) P (Y = j) .
Remarque 59 Les vad X et Y sont indépendantes si tous les évènements de
la forme {X = i} sont indépendants des évènemenst de la forme {Y = j}.
On peut bien entendu généraliser cette déinfition au cas de n vad. Et les n vad
X1 , ..., Xn sont (mutuellement indépendantes) ssi pour tout n-uplet {i1 , ..., in }
P (X1 = i1 , ..., Xn = in ) = P (X1 = i1 ) ...P (Xn = in )
Proposition 60 Soit (X, Y ) un couple de vad. Les vad X et Y sont indépendantes
si et seulement si pour tout couple (f, g) fonctions (intégrables par rapport à la
loi du couple) :
E [f (X) g (Y )] = Ef (X) · Eg (Y )
Une conséquence immédiate de cette Proposition apparaı̂t immédiatement
lors du calcul de la covariance.
Corollaire 61 Soit (X, Y ) un couple de vad indépendantes alors cov (X, Y ) =
0. La réciproque est fausse.
5.1.4
Quelques propriétés remarquables de stabilité des
vad
Soit X1 , ..., Xn une suite de vad.indépendantes. Dans certains cas explicités
ci-dessous la loi de la somme Sn = X1 +...+Xn de ces vad possède des propriétés
remarquables.
Proposition 62 Si Xi ∼ B (p) (les Xi sont de même loi) alors Sn ∼ B (n, p) .
Si P
Xi ∼ B (ki , p) (le paramètre p est le même pour tous les Xi alors Sn ∼
n
B ( i=1 ki , p) .
P
Si Xi ∼ P (λi ) alors Sn ∼ P ( ni=1 λi ) .
21
5.2
Couples de variables aléatoires réelles
Les réalisations d’un couple de variables réelles forment un nuage du plan.Dans
toute la suite on se concentrera sur le cas des vecteurs aléatoires admettant des
densités par rapport à la mesure de Lebesgue.
Dfinition 63 La loi d’un vecteur aléatoire réel est entièrement déterminée par
sa densité. Celle-ci est une fonction positive
f(X,Y ) : R × R → R+
telle que
Z Z
f(X,Y ) (x, y) dxdy = 1.
R2
On a alors pour a ≤ b et c ≤ d
P(X,Y ) ([a, b] × [c, d]) = P (X ∈ [a, b] , Y ∈ [c, d])
Z
Z
=
f(X,Y ) (s, t) dsdt
[a,b]
[c,d]
On peut, dans la foulée, défnir la fonction de répartition du couple
F(X,Y ) : R × R → [0, 1]
: (x, y) → F(X,Y ) (x, y) =
Z
x
−∞
Z
y
f(X,Y ) (s, t) dsdt
−∞
En d’autre termes F(X,Y ) (x, y) = (X ≤ x, Y ≤ y) .
Il est bien important de comprendre que la densité du vecteur (X, Y ) se
représente par une surface et que P (X ∈ [a, b] , Y ∈ [c, d]) , probabilité du pavé
[a, b] × [c, d] , n’est rien d’autre que le volume sous la surface f(X,Y ) . Il est bien
légitime qu’un volume (dans le cas d’un couple) fasse écho à une surface (dans
le cas d’une var). On renvoie le lecteur à la Proposition 39 pour un comparaison
fort utile à la compréhension de l’interprétation ”physique” d’une densité de
probabilité.
Dfinition 64 De la densité du couple on déduit les densités de chacune des
composantes (les marges) appelées densitées marginales en intégrant une seule
fois et de façon croisée la densité du couple. Ainsi :
Z
f(X,Y ) (x, y) dy,
fX (x) =
ZR
fY (y) =
f(X,Y ) (x, y) dx.
R
5.2.1
Espérance et moments d’un couple
Les nouvelles formules sont cousines de celles obtenues dans le cas des vecteurs discrets.
22
Dfinition 65 Soit g : R × R → R une fonction telle que
Z Z
|g (x, y)| f(X,Y ) (x, y) dxdy < +∞.
R2
On peut alors définir :
Eg (X, Y ) =
Z
g (x, y) f(X,Y ) (x, y) dxdy.
R2
Le moment croisé d’ordre 1 se définit et s’écrit simplement :
Z
x · y · f(X,Y ) (x, y) dxdy.
EXY =
R2
Les trois formules sur la variance demeurent. Nous les rappelons par souci de
complétude.
Proposition 66 Soit (X, Y ) un couple de var et α un réel fixé. On a
cov (X, Y ) = cov (X, Y )
cov (αX, Y ) = α · cov (X, Y )
V (X + Y ) = V (X) + V (Y ) + 2cov (X, Y )
5.2.2
Couple de var indépendantes
Dfinition 67 Soit (X, Y ) un couple de var. On dit que X et Y sont indépendantes
ssi
f(X,Y ) (x, y) = fX (x) fY (y)
Autrement dit la densité du coule peut se scinder en deux fonctions. Chacune
de ces deux fonctions ne dépend que d’une seule variable. On en déduit comme
corollaire la
Proposition 68 On a alors pour a ≤ b et c ≤ d :
P (X ∈ [a, b] , Y ∈ [c, d]) = P (X ∈ [a, b]) P (Y ∈ [c, d])
et en particulier
F(X,Y ) (x, y) = FX (x) FY (y) .
Nous étendons égalment la définition à un vecteur quelconque de var.
Dfinition 69 Les var X1 , ..., Xn sont (mutuellement indépendantes) ssi la densité du vecteur X est scindable en n fonctions chacune d’une seule variable :
fX (x1 , ..., xn ) = fX1 (x1 ) ...fXn (xn ) .
Proposition 70 Soit (X, Y ) un couple de var. Les var X et Y sont indépendantes
si et seulement si pour tout couple (f, g) de fonctions (intégrables par rapport à
la loi du couple) :
E [f (X) g (Y )] = Ef (X) · Eg (Y )
Les conclusions sur la covariance de X et Y sont identiques à celles obtenues
pour les vad.
23
5.3
Quelques remarques générales
Je place dans cette section des points généraux, récapitulatifs ou qui valent
à la fois pour les vad et les var.
Coefficient de corrélation linéaire.
Nous avons vu que deux variables indépendantes ont une covariance nulle. La
covariance est considérée comme un indicateur de la liaison entre deux variables.
On se tient à la règle suivante -qui a pris avec le temps la valeur d’adage : ”Plus
la variance est elevée plus les variables X et Y sont liées”. Une inexactitude
consisterait à affirmer -ce que les lecteurs attentifs de ces pages se garderont
bien de faire- ”les variables sont indépendantes quand la covariance est nulle.
Mais la covariance dipose d’un inconvénient majeur : elle dépend des unités de X
et de Y. Si nous voulons comparer la liaison entre X et Y puis entre X et 100Y ,
il y aura un rapport de 100 entre les deux covariances, rapport uniquement dû
aux différences d’ordre de grandeur, puisque la liaison probabiliste entre X et Y
est la même qu’entre X et 100Y . Pour corriger ce défaut on introduit un autre
indicateur : le coefficient de corrélation defini par :
ρX,Y =
cov (X, Y )
.
σX σY
On peut alors montrer que
−1 ≤ ρX,Y ≤ 1,
que ρX,Y ne dépend plus des ordres de grandeur des variables et que la nullité
de ρX,Y équivaut à l’existence de deux constantes α et β telles que Y = α + βX.
Calcul de la variance d’une somme :
On sera amené à calculer la variance d’un somme de variables aléatoires
P
n
V ( i=1 Xi ). Un calcul simple (examiner le cas où n = 3 pour s’en convaincre)
amène au :
Thorme 71 Soit X1 , ..., Xn des va, alors
!
n
n
X
X
X
cov (Xi , Xj ) .
V (Xi ) + 2
Xi =
V
i=1
i<j
i=1
En particulier si les Xi sont indépendantes (mais il suffit qu’elles soient
non-corrélées),
!
n
n
X
X
V (Xi ) .
Xi =
V
i=1
i=1
Si, de plus les Xi ont la même loi (mais il suffit qu’elles aient la même variance)
on a :
!
n
X
Xi = nV (X1 ) .
V
i=1
24
Indépendance par bloc :
Soit X = (X1 , ..., Xn ) un vecteur dont les coordonnées sont des va mutuellement indépendantes et soit {i1 , ..., ik−1 } un k − 1-uplet. Alors
(X1 , ..., Xi1 ) , (Xi1 +1 , ..., Xi2 ) ... (Xik +1 , ..., Xn )
sont des vecteurs aléatoires (de tailles distinctes) indépendants.
Inversement si l’on dispose d’un vecteur X lui-même scindable en k vecteurs
aléatoires indépendants selon le schéma ci-dessus alors en extrayant de chacun
de ces k vecteurs une coordonnée (et une seule), on dispose de k va mutuellement
indépendantes. Par exemple Xi1 , Xi1 +1 et Xn sont indépendantes mais X1 et
Xi1 n’ont a priori aucune raison de l’être.
Espérance et matrice de covariance de l’image d’un vecteur par
une application linéaire :
Même si nous nous sommes cantonnés au cas des vecteurs de taille 2, il
est très important de mentionner un résultat général portant sur l’image dun
vecteur aléatoire par une application linéaire (une matrice).
Thorme 72 Soit X = (X1 , ..., Xn ) un vecteur aléatoire d’espérance EX ∈ Rn
et de matrice de variance-covariance ΣX (on rappelle que ΣX ets carrée, de
taille n, symétrqiue et positive). Soit A une matrice de taille (p × n) c’est à dire
de p lignes et de n colonnes. Alors Y = AX est un nouveau vecteur aléatoire
de l’espace Rp . Son espérance et sa matrice de covariance sont données respectivement par :
EY = EAX = A (EX)
ΣY = ΣAX = AΣX At
où At désigne la tranposoée de la matrice A.
On peut faire quelques remarques de bon sens à l’énoncé de ce théorème.
Tout d’abord la matrice A admet nécaissrement n colonnes afin que le produit
AX (puis el produit A (EX)) ait un sens... Enfin Y étant unvceteur de Rp sa
matrice de covariance est nécessairement carrée de taille p, symétrique et positive. On peut s’assurer que dans la deuxième formule AΣX At définit bien une
matrice disposant de ces quatre propriétés. Et s’il est permis d’hésiter -en appliquant de tête cette formule- entre AΣX At et At ΣX A... de simples considération
de dimensions lèveront le doute.
5.4
Vecteurs gaussiens
Les vecteurs gaussiens pourraient à eux seuls donner lieu à tout un chapitre.
La loi de gauss ou loi normale a été introduite plus haut dans le chapitre consacré
aux var. Nous rappelons ici sa définition que nous complèterons par quelques
propriétés remarquables.
5.4.1
Définition
Dfinition 73 On dit que la var X suit la loi de Gauss (ou loi
normale) de
moyenne m et de variance σ 2 (on notera alors X ∼ N m, σ 2 ) si sa densité
25
définie sur R s’écrit :
"
2
1 (x − m)
fX (x) = √
exp −
2
σ2
2πσ 2
1
#
.
Quand m = 0 on parle de variable centrée et quand σ 2 = 1 on parle de variable
réduite.
Proposition 74 La loi normale est entièrement caractérisée par la donnée de
son espérance et de sa variance. De plus on a la propriété cruciale suivante : si
X ∼ N (0, 1) , Y = m + σX ∼ N m, σ 2 . Réciproquement tout va gaussienne
Y s’écrit sous la forme Y = m + σX où X ∼ N (0, 1).
Dfinition 75 Le vecteur aléatoire X = (X1 , ..., Xn ) est gaussien ssi si toutes
les combinaisons linéaires de ses composantes suivent des lois normales c’st à
dire que pour tout u ∈ Rn , non aléatoire
hu, Xi =
n
X
u i Xi
i=1
suit une loi normale (Les espérance et variance dépendent de u mais leur calcul
ne nous intéresse pas pour l’énoncé de cette définition).
Remarque 76 De la définition ci-dessus on déduit aisément que si X est un
vecteur gaussien, chaque Xi est une var gaussienne (en prenant ui = 1 et uj = 0
pour j 6= i). La réciproque est fausse en générale : si on dispose de n var Xi qui
suivent des lois normales N mi , σi2 , le vecteur ”reconstitué” à partir de ces Xi
n’est pas gaussien sauf si les Xi sont indépendantes.
On déduit pour les vecteurs gaussiens l’analogue de la proposition donnée
juste au-dessus pour les var gaussiennes.
Proposition 77 La loi d’un vecteur gaussien est entièrement déterminée par
la donnée de son espérance et de sa matrice de covariance.
Cette proposition sera illustrée un peu plus loin via la densité d’un vecteur
gaussien.
5.4.2
Principales propriétés
Les première nous annonce que l’image d’un vecteur gaussien par une application affine est encore un vecteur gaussien.
Proposition 78 Soit X ∈ Rn
(p × n) et soit b un vecteur de
gaussien dans l’espace Rp . on
haut : EY = A (EX) + b et ΣY
un vecteur gaussien soit A une matrice de taille
Rp alors Y = AX + b est à nouveau un vecteur
a les relations de passage déjà présentées plus
= AΣX At .
Proposition 79 Soit X ∈ Rn un vecteur gaussien d’espérance m ∈ Rn dont
la matrice de covariance ΣX est inversible. Alors ce vecteur admet une densité
donnée par la fomule :
1
1
−1
fX (x1 , ..., xn ) =
exp − x − m, ΣX (x − m) .
n/2 √
2
(2π)
det ΣX
On écrira alors que X ∼ N (m, ΣX ) .
26
Remarque 80 Quand la matrice ΣX est diagonale et s’écrit
 2

σ1 0 ...
ΣX =  0 ... 0  ,
... 0 σn2
la densité ci-dessus prend une forme relativement simplifiée :
#
"
n
1
1 X (xi − mi )2
.
fX (x) =
exp −
n/2
2 i=1
σi2
(2π)
σ1 ...σn
On a vu au chapitre précédent que cov (X, Y ) = 0 9 X ⊥ Y . Les vecteurs
gaussiens prennent le contrepied de cette affirmation générale. C’est là une des
raisons de leur succès.
Thorme 81 Soit X = (X1 , ..., Xn ) un vecteur gaussien de matrice de covariance ΣX alors il y a équivalence entre :
(i) ΣX est diagonale (i.e. les Xi sont non-corrélées)
(ii) les Xi sont mutuellement indépendantes
Ce théorème crucial amdet une version ”par blocs” que j’énoncerai brutalement de la façon suivante : Si la matrice ΣX est bloc-diagonale :


Σ1 0 ...
ΣX =  0 ... 0 
... 0 Σp
avec Σi matrice symétrique positive de taille ki alors on peut scinder le vecteur
X en p sous-vecteurs chacune de taille ki . Chacun de ces sous-vecteurs admet
Σi comme matrice de covariance et ces p vecteurs sont indépendants.
 2

σ1 a
0
Exemple 82 Si ΣX =  a σ22 0  alors le vecteur (X1 , X2 ) est indépendant
0
0 σ32
de X3 .
Soit X = (X1 , ..., Xn ) un vecteur aléatoire. En posant :
n
Xn =
1X
Xi
n i=1
n
s2n =
2
1X
Xi − X n
n i=1
on définit deux nombres aléatoires utiles en statistique.
Thorme 83 (Cochran) Si X un vecteur gaussien de loi N m, σ 2 I où I désigne
la matrice identité, alors X n et s2n sont deux var indépendantes.
Ce résultat est surprenant dans la mesure où X n et s2n ont l’air fortement
dépendantes, même si les Xi sont indépendantes. Ce Théorème reste toutefois
spécifique des vecteurs gaussiens.
27
Pour finir ce long chapitre je présente quelques lois dérivées de la loi normale.
On note X1 , ..., Xn n variables aléatoires gaussiennes i.i.d. de loi N (0, 1).
Loi du Chi-DeuxP
La variable Qn = ni=1 Xi2 suit une loi du Chi-Deux à n degrés de liberté.
On note Qn ∼ χ2n .
Loi de Student
p
Soit Y une var de loi N (0, 1) idépendante des Xi . alors Tn = Y / Qn /n
suit une loi de Student à n degrés de liberté. On note Tn ∼ Tn .
Loi de Fisher
Si Qn suit une loi χ2n et Km suit une loi χ2m alors Fn,m = mQn / (nKm ) suit
une loi de Fischer à n et m degrés de liberté. On note Fn,m ∼ Fn,m .
28
Chapitre 6
Convergence des suites de
variables aléatoires
On présente dans ce chapitre deux résultats centraux de la théorie des probabilités. Tous deux décrivent le comportement asymptotiques de séries de variables aléatoires : Sn = X1 + ... + Xn . Le second peut-être vu, dans beaucoup
de cas, comme une extension du premier. Ainsi la loi des grands nombres (LGN)
nous assure la convergence de la suite Sn /n vers la moyenne des Xi et peut se
concevoir comme une sorte de ”Théorème de Césaro aléatoire”. Le second, aux
implications plus complexes, nous assure que Sn /n se comporte asymptotiquement comme une variable gaussienne de ”petite” variance. Avant de préciser ces
deux théorèmes majeurs qui fondent par ailleurs bien des résultats ou des approches statistiques, on devra introduire quleques notions de convergence stoochastique (en probabilité, en moyenne qudratique et en loi).
6.1
6.1.1
La loi des grands nombres
Convergence en probabilité
Dfinition 84 On dit qu’une suite Zn de v.a. converge en probabilité vers une
P
v.a. Z et on notera Zn → Z ssi pour tout ε > 0 :
P (|Zn − Z| > ε)
→
n→+∞
0.
P
En particulier si Z est constante et vaut m, Zn → m ssi pour tout ε > 0 :
P (|Zn − m| > ε)
→
n→+∞
0.
L’interprétation heuristique pourrait être la suvante : quand n augmente les
valeurs prises par la suite Zn (ses réalisations) sont de plus en plus proches de
celles de Z. Cette proximité s’exprime par le choix d’un seuil ε. Si l’on se fixe
ce seuil infinitésimal, les valeurs prises par Zn ont une chance de plus en plus
grande de se trouver dans l’intervalle [Z − ε, Z + ε]. Nous n’utiliserons que peu
la convergence en probabilité vers une variable aléatoire et nous allons illustrer
P
la convergence en probabilité vers une constante. D’ailleurs montrer que Zn → Z
P
revient à montrer que Zn − Z → 0.
29
P
Exemple 85 Si Zn ∼ E (λn ) avec λn > 0 et λn → +∞ alors Zn → 0. En effet
R +∞
P (|Zn | > ε) = ε λn exp (−λn s) ds = exp (−λn ε) → 0 quand ε est fixé.
n→+∞
Thorme 86 Soit Zn une suite de variables aléatoires qui converge en probabilité
vers m alors si g est une fonction réelle de la variable réelle continue en m
P
g (Zn ) → g (m)
Autrement dit la convergence en probabilité vers une constante se propage
en appliquant une fonction assez régulière.
Une fois n’étant pas coutume on va traiter dans le détail cette démonstration
à forte teneur pédagogique.
Preuve du Théorème :
Nous savons que pour tout ε > 0 P (|Zn − m| > ε) tend vers 0 mais nous
savons aussi que g est continue au point m, ce qui s’écrit :
∀δ > 0, ∃η > 0 : |x − m| ≤ η ⇒ |g (x) − g (m)| < δ.
(6.1)
Nous devons montrer que pour tout ε > 0, P (|g (Zn ) − g (m)| > ε) tend à
son tour vers 0. Le ε ici n’étant pas nécessairement le même que plus haut.
L’astuce consiste à décomposer la variable aléatoire |g (Zn ) − g (m)| en considérant
deux cas : Zn proche de m et Zn ”loin” de m. Ecrivons cela en terme d’évènements
{|g (Zn ) − g (m)| > ε} = {|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| > η}
∪ {|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| ≤ η}
ces deux évènements étant disjoints il vient
P (|g (Zn ) − g (m)| > ε) = P ({|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| > η})
+ P ({|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| ≤ η})
Nous avons ensuite
P ({|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| > η}) ≤ P (|Zn − m| > η) .
Nous réservons cette inégalité et nous tournons vers la seconde probabilité ou
plutôt le second évènement :
{|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| ≤ η} .
Celui-ci se paraphrase en ” Zn est proche de m (àdistance η) alors que g (Zn )
est à distance ε de g (m)” ce qui est contradictoire avec la contniuité de g en m.
Il reste à écrire cela proprement. Reprenons (6.1) en écrivant sa contraposée :
∀δ > 0, ∃ηδ > 0 : |x − m| > η ⇒ |g (x) − g (m)| ≥ δ.
Maintenant, ε étant fixé, choisissons δ = ε. Du coup en retenant le ηε associé (ci-dessus) nous voyons que les deux évènements {|g (Zn ) − g (m)| > ε} et
{|Zn − m| ≤ ηε } sont incompatibles (d’intersection vide) et que
P ({|g (Zn ) − g (m)| > ε} ∩ {|Zn − m| ≤ ηε }) = 0.
Finalement comme P (|Zn − m| > ηε ) tend aussi vers 0 puisque ηε est, comme
ε, fixé, nous achevons la preuve du Théorème.
30
Dfinition 87 On dit que la suite de va Zn tend en moyenne quadratique (ou
L2
en norme L2 ) vers Z et on note Zn → Z si
2
E (Zn − Z)
→
n→+∞
0.
La convergence en norme quadratique et la convergence en probabilité sont
liées. Pour expliciter cette liaison nous avons besoin d’une inégalité célèbre :
l’inégalité de Bienaymé-Tchébytcheff.
Thorme 88 Soit Z une va et t un réel fixé alors pour tout ε > 0
P (|Z − t| > ε) ≤
E (Z − t)2
ε2
et dans le cas particulier où t = EZ, on obtient
P (|Z − EZ| > ε) ≤
VZ
.
ε2
L2
Proposition 89 Grâce au théorème précédent on voit que si Zn → m, alors
P
Zn → m.
Remarque 90 Il peut être utile de noter que P (|Zn − m| > ε) s’exprime uniquement via la fonction de répartition de Zn :
P (|Zn − m| > ε) = 1 − FZn (m + ε) + FZn (m − ε)
Exemple 91 On peut montrer que si Zn ∼ N mn , σn2 avec mn → m et σn2 →
L2
0 alors Zn → m.
6.1.2
La loi des grands nombres
Comme annoncé plus haut la LGN nous assure de la convergence de la
moyenne arithmétique d’une suite de variables aléatoires vers une constante. La
version de la loi faible donnée ici n’est pas livrée sous ses hypothèses minimales.
Thorme 92 Soit Xi une suite de variables aléatoires de même loi (et en particulier d’espérance commune) dont le moment d’ordre 2 est fini et non-corrélées
alors :
X1 + ... + Xn L2
→ EX1
Sn =
n
donc
P
Sn → EX1 .
31
Preuve : Elle consiste juste à calculer en le développant
2
X1 + ... + Xn
E
− EX1
n
#2
" n
X
1
(Xi − EXi )
= 2E
n
i=1
=
=
=
n
1 X
2 X
2
E (Xi − EXi ) + 2
E [(Xi − EXi ) (Xj − EXj )]
2
n i=1
n i<j
2 X
1
cov (Xi , Xj )
VX1 + 2
n
n i<j
1
VX1 → 0.
n
ce qui termine la preuve du Théorème.
Sur le graphe suivant on a tracé, afin d’illustrer, la LGN le comportement
de Sn en fonction de n en considérant 4 distributions différentes pour X1 : loi
uniforme sur [0, 1] , loi normale N (1, 1) , loi Binômiale B (10, 0.15) et loi de Cauchy. On constate que dans le cas de la loi de Cauchy la série a un comportement
erratique. En fait elle ne converge pas et fait de nombreux sauts puisque dans
ce cas EX = ∞.
loi uniforme
loi binomiale
0.6
1.5
0.5
Sn
Sn
0.4
0.3
0.2
1.0
0.5
0.1
0.0
0.0
0
100
200
300
400
500
0
100
200
300
n
n
loi normale
loi de Cauchy
400
500
400
500
2
1.0
0
0.5
Sn
Sn
−2
−4
−6
−8
0.0
−10
0
100
200
300
400
500
0
100
n
200
300
n
La loi des grands nombres dans 4 cas
Le code R associé à cette figure est le suivant :
32
x<-runif(500,0,1);z1<-0;y<-0
for(i in 1:500){y[i+1]<-y[i]+x[i+1];
z1[i]<-y[i]/i}
x<-rnorm(500,1,1);z2<-0;y<-0
for(i in 1:500){y[i+1]<-y[i]+x[i+1];z2[i]<-y[i]/i}
x<-rbinom(500,10,0.15);z3<-0;y<-0
for(i in 1:500){y[i+1]<-y[i]+x[i+1];z3[i]<-y[i]/i}
x<-rcauchy(500);z4<-0;y<-0
for(i in 1:500){y[i+1]<-y[i]+x[i+1];z4[i]<-y[i]/i}
layout(matrix(1:4,2,2))plot(z1,type="l",xlab="n",ylab="Sn",main="loi uniforme",las=1,cex.main=0.7)
plot(z2,type="l",xlab="n",ylab="Sn",main="loi normale",las=1,cex.main=0.7)
plot(z3,type="l",xlab="n",ylab="Sn",main="loi binomiale",las=1,cex.main=0.7)
plot(z4,type="l",xlab="n",ylab="Sn",main="loi de Cauchy",las=1,cex.main=0.7)
6.2
La Théorème Central-Limite
Il constitue l’un des plus (si ce n’est le plus) beau théorème des probabilités
et assurément un des résultats les plus marquants des mathématiques. Le TCL
dans une formulation générale assure que les sommes de variables aléatoires infinitésimales sont asymptotiquement gaussiennes. Il souligne par là l’importance
et l’universalité de la distribution gaussienne. Ses implications sont multiples
notamment en statistique dans la construction des intervalles de confiance puis
l’obtention de procédures de test. Il fournit aussi une ”vitesse” dans la loi faible
des grans nombres. Soulignons enfin que peu de théorèmes peuvent à la fois
se prévaloir d’autant d’applications pratiques tout en ayant donné lieu (certes
moins maintenant) à des développements en recherche aussi pointus.
6.2.1
La convergence en loi
Il existe bon nombre de définitions pour la convergence en loi (ou convergence
en distribution ou convergence faible 1 ) plus ou moins abstraites. Je donne ici
les deux plus connues.
Dfinition 93 On dit que la suite Zn de variables aléatoires converge en loi vers
L
Z et on note Zn → Z si et seulement si la fonction de répartition de Zn converge
ponctuellement vers celle de Z en tout t pour lequel FZ est continue
FZn (t)
→
n→+∞
FZ (t) .
Il est alors équivalent de dire que pour tout intervalle [a, b] ,
P (Zn ∈ [a, b])
→
n→+∞
P (Z ∈ [a, b]) .
quand FZ est conitnue en a et b. Une définition alternative fait intervenir les
fonctions caractéristiques introduites au cours du chapitre consacré aux variables
1. Même si le terme de ”convergence faible” n’est pas cohérent avec la terminologie des
analystes qui préfèreraient parler de convergence faible-*, la convergence faible étant réservée
à des suites de fonctions.
33
L
aléatoires discrètes et réelles. On a alors Zn → Z si et seulement si la suite des
fonctions carctéristiques est ponctuellement convergente :
ϕZn (t) = E exp (itZn )
→
n→+∞
ϕZ (t) .
Dans le cas de variables discrètes (i.e si Zn est une vad pour tout n et Z
l’est aussi) il est souvent plus avantageux de se borner à montrer que pour tout
i∈N:
P (Zn = i) → P (Z = i) .
n→+∞
P
L
Proposition 94 Si Zn → Z alors Zn → Z
Exemple 95 Reprenons un exemple évoqué plus haut dans le cadre de la convergence en probabilité. Supposons que Zn ∼ E (λn ) avec λn > 0 et λn → λ
Rt
L
alors Zn → Z ∼ E (λ). En effet P (Zn ≤ t) = 0 λn exp (−λn s) ds = 1 −
exp (−λn t) → 1 − exp (−λt) = P (Z ≤ t) quand t est fixé.
n→+∞
Thorme 96 Soit Zn une suite de variables aléatoires qui converge en loi vers
Z alors si g est une fonction réelle de la variable réelle continue en m :
L
g (Zn ) → g (Z) .
6.2.2
Le Théorème Central Limite
Thorme 97 Soit (Xi )i∈N une suite de va i.i.d telles que EX12 = EX 2 < +∞.
√
Posons m = EX et σ = VXalors :
√ n X1 + ... + Xn
L
− m → N (0, 1)
σ
n
Preuve rapide du Théorème :
La démonstration
la plus simple
se borne à verifier la convergence de ϕZn (t)
√ n
(où Zn = n X1 +...+X
−
m
/σ)
vers
ϕZ (t) où Z ∼ N (0, 1). L’indépendance
n
des Xi apporte que
√ n
ϕZn (t) = ϕY t/ nσ
où Y = X1 − m. Un développement limitéde ϕY en 0 donne : ϕY (u) = 1 +
n
u2 ϕ′′Y (c) /2 car ϕ′Y (0) = 0. Ainsi ϕZn (t) ∼ 1 + t2 /2n en utilisant le fait que
ϕ′′Y (c) → ϕ′′Y (0) = σ 2 . Finalement ϕZn (t) → exp t2 /2 = ϕZ (t) quand n tend
vers +∞.
De prime abord et d’un point de vue pratique, les enseignements de ce
Théorème peuvent paraı̂tre abscons. En effet le TCL nous affirme que pour
tous a < b
√ n X1 + ... + Xn
P
− m ∈ [a, b]
σ
n
σ
X1 + ... + Xn
σ
=P
∈ m + a√ , m + b√
n
n
n
34
tend, quand n croı̂t indéfiniment vers
1
P (N (0, 1) ∈ [a, b]) = √
2π
Z
a
b
2
u
exp −
du,
2
cette dernière constante étant connue ou au moins calculable aisément. La ”magie” du théorème provient du fait que ce résultat demeure valable quelle que
soit la loi initiale de Xi .
35