MAP 311 - X2009 Fonction caractéristique, Vecteur

Transcription

MAP 311 - X2009 Fonction caractéristique, Vecteur
MAP 311 - X2009
Leçon 6
Fonction caractéristique, Vecteur gaussien,
Convergence en loi, Théorème de la limite
centrale1
1
MAP 311, Chapitre 6
ATTENTION !
COURS 7: reporté au lundi 28 juin de 8h30 à 10h, pour
cause de lendemain de fête le 25.
Fonction caractéristique2
I
Cadre général de vecteurs aléatoires X ∈ Rd .
I
Une nouvelle fonction pour caractériser la loi.
I
Fonction à valeurs complexes.
I
Mathématiquement: transformée de Fourier.
I
Notation: Pour x, y ∈ Rd , < x, y >=
I
∀u ∈ Rd , x → e i<u,x> continue de module 1.
Si X vecteur aléatoire à valeurs dans Rd , alors
e i<u,X > = cos < u, X > +i sin < u, X > variable
aléatoire bornée (en module) par 1.
I
2
MAP 311, Chapitre 6, Section 6.1
Pd
j=1 xj yj .
Définition3 : La fonction caractéristique de X est la
fonction φX définie de Rd dans C par
Pd
φX (u) = E e i<u,X > = E e i j=1 uj Xj
= E(cos < u, X >) + i E(sin < u, X >).
Si X est à valeurs réelles (cas où d = 1), alors ∀u ∈ R,
φX (u) = E(e iuX ).
La fonction φX ne dépend que de la loi de X .
Cas discret: Loi de X = {(xk , pk ), k ∈ N} . Alors
X
∀u ∈ R, φX (u) =
pk e iuxk .
k∈N
X : Ω → N: φX (u) = GX (e iu ), où GX fonction génératrice de X .
3
MAP 311, Chapitre 6, Section 6.1.1
Cas d’une variable aléatoire réelle à densité f :
Z
∀u ∈ R, φX (u) =
e iux f (x)dx.
R
Proposition: Soit X un vecteur aléatoire de Rd . Alors la
fonction φX est continue, de module inférieur à 1, et
φX (0) = 1 ; φX (−u) = φX (u), ∀u ∈ Rd .
Preuve de la continuité: Si up → u, alors
e i<up ,X > →p.s. e i<u,X > et ces variables sont bornées par 1 en
module. On applique le théorème de convergence dominée
pour conclure.
Fonction caractéristique des variables usuelles4
? X Variable binomiale B(n, p).
φX (u) = GX (e iu ) = (e iu p + 1 − p)n .
? X Variable de Poisson de paramètre θ.
φX (u) = GX (e iu ) = e θ(e
iu −1)
.
? X Variable uniforme sur [a, b].
1
φX (u) =
b−a
4
Z
b
e iux dx =
a
MAP 311, Chapitre 6, Section 6.1.2
e iub − e iua
.
iu(b − a)
? X Variable uniforme sur [−a, a], a > 0.
Z a
sin ua
1
e iux dx =
.
φX (u) =
2a −a
ua
? X Variable exponentielle de paramètre λ > 0.
Z
φX (u)
=
λ
+∞
e −λx e iux dx =
0
λ
,
λ − iu
1
car limx→+∞ | (λ−iu)
e −λx+iux | = 0.
? X Variable normale N (0, 1).
Proposition: Si X est une variable de loi normale
N (0, 1), sa fonction caractéristique vaut
u2
φX (u) = e − 2 .
Preuve:
2
I Soit g (x) = √1 e −x /2 . Pour tout réel s,
2π
Z +∞
Z
1 s 2 /2 +∞ − (x−s)2
2
sx
e g (x)dx = √ e
e 2 dx = e s /2 . (1)
2π
−∞
−∞
I
I
I
On veut montrer que (1) reste vraie pour s complexe.
Développement en série entière de s:
Z +∞
X s 2n
s 2 /2
e sx g (x)dx
e
=
=
n n!
2
−∞
n
Z
+∞
n
X s
=
x n g (x)dx (Théorème de Fubini).
n! −∞
n
On en déduit:
Z +∞
x 2n+1 g (x)dx = 0 ;
−∞
Z
+∞
−∞
x 2n g (x)dx =
(2n)!
.
2n n!
I
Si s est complexe, les développements en série entière (de
rayon de convergence infini) des deux membres de (1)
sont encore égaux, et donc en particulier pour s = iu,
φX (u) = e −u
I
2 /2
.
Variable normale N (m, σ 2 ).
X = m + σ Y , où Y variable normale centrée réduite.
Alors (par changement de variable),
φX (u) = e ium−
I
u2 σ2
2
.
Remarque. Méthode générale de calcul dans le cas d’une
densité: Théorème des résidus.
Propriété fondamentale
Théorème: La fonction caractéristique φX caractérise la loi
de la variable aléatoire X : si deux variables aléatoires ont
même fonction caractéristique, elles ont même loi.
Preuve technique. Propriété de la transformée de Fourier.
Corollaire: Soit X = (X1 , . . . , Xn ). Les composantes Xi
sont indépendantes ⇐⇒ pour tous u1 , . . . , un ∈ R, on a
φX (u1 , . . . , un ) = E(e
i(u1 X1 +···+un Xn )
)=
n
Y
E(e i(uj Xj ) ) (2)
j=1
=
n
Y
φXj (uj ).
j=1
Intérêt: Condition nécessaire et suffisante pour caractériser
l’indépendance de variables aléatoires.
Preuve: 1) Condition nécessaire: immédiat.
2) Condition suffisante:
I On peut construire des variables aléatoires
Xj0 , j ∈ {1, · · · , n} indépendantes, telles que pour tout j,
Xj et Xj0 ont même loi.
I On en déduit que φX = φX 0 .
j
j
I En utilisant la condition nécessaire, on en déduit que
Q
φX 0 = nj=1 φXj0 = φX . Ainsi les vecteurs aléatoires X et
X 0 ont même loi.
I Pour tous boréliens Aj ,
\
\
P( {Xj ∈ Aj }) = P( {Xj0 ∈ Aj })
j
j
=
Y
j
I
P(Xj0 ∈ Aj }) =
Y
P(Xj ∈ Aj ).
j
Nous avons donc montré l’indépendance cherchée.
Somme de variables aléatoires indépendantes
Proposition: Si X et Y sont deux v.a. indépendantes à
valeurs dans Rn ,
φX +Y (u) = E(e iu(X +Y ) ) = E(e iuX e iuY ) = φX (u)φY (u).
Remarque: très utilisée dans la pratique pour trouver la loi
d’une somme de v.a..
Exemples: Soient X , Y indépendantes, et Z = X + Y :
1) X et Y suivent des lois normales N (m, σ 2 ) et
N (m0 , (σ 0 )2 ), alors Z suit une loi normale
N (m + m0 , σ 2 + (σ 0 )2 ).
2) X et Y suivent des lois de Poisson de paramètres θ et θ0 :
alors Z suit une loi de Poisson de paramètre θ + θ0 .
3) X et Y suivent des lois binomiales B(n, p) et B(m, p),
alors Z suit une loi binomiale B(n + m, p).
Fonction caractéristique et moments
Proposition: Soit X = (X1 , . . . , Xn ). Si |X |m est intégrable
pour un entier m, alors la fonction φX est m fois continûment
différentiable sur Rn , et on a pour tout choix des indices
i1 , . . . , im :
∂m
φX (u) = i m E(e i<u,X > Xi1 Xi2 . . . Xim ).
∂xi1 ∂xi2 . . . ∂xim
Application: Calcul des moments E(Xi1 Xi2 . . . Xim ) en
fonction des dérivées de φX en 0. Par exemple, si X est à
valeurs réelles et de carré intégrable, on a
E(X ) = −i φ0X (0) ,
E(X 2 ) = −φ00X (0).
Preuve:
I Cas m = 1.
I Soit vj = (0, . . . , 0, 1, 0, . . . , 0), le j ième vecteur de base
de Rn .
I On a
φX (u + tvj ) − φX (u)
e itXj − 1
= E(e i<u,X >
).
t
t
I
I
itp Xj
Soit une suite tp → 0. Les v.a. (e tp −1) convergent
simplement vers iXj , et sont bornées en module par
2|Xj | ∈ L1 .
Théorème de convergence dominée ⇒
(3) converge vers i E(e i<u,X > Xj ) quand t → 0.
(3)
Vecteurs gaussiens
Définition: Un vecteur aléatoire X = (X1 , . . . , Xn ) P
est appelé
un vecteur gaussien si toute combinaison linéaire nj=1 aj Xj
suit une loi normale.
I
I
I
Cela entraı̂ne que chaque composante suit une loi
normale.
Si les Xi sont des variables normales indépendantes, le
vecteur X est gaussien, car toute combinaison linéaire de
v.a. indépendantes de lois normales a une loi normale.
Attention: Faux si les v.a. ne sont pas
indépendantes:
Exemple: X1 de loi N (0, 1). Alors
X2 = X1 1|X1 |≤1 − X1 1|X1 |>1 .
suit une loi normale mais X = (X1 , X2 ) n’est pas
gaussien: 0 < P(X1 + X2 = 0) = P(|X1 | > 1) < 1.
Fonction caractéristique d’un vecteur gaussien
Proposition: Si X ∈ Rn , si b ∈ R` et A une matrice ` × n, on
a ∀u ∈ R` :
φAX +b (u) = e i<b,u> φX (t Au).
Preuve:
t
E(e i<u,AX +b> ) = e i<u,b> E(e i<u,AX > ) = e i<u,b> E(e i< Au,X > ).
Théorème5 : X ∈ Rn vecteur gaussien ⇐⇒ ∀a ∈ Rn ,
1
φX (a) = e i<a,m>− 2 <a,Ca> ,
(4)
où m ∈ Rn et C matrice n × n symétrique positive.
Alors m = E(X ) et C matrice de covariance de X .
P
Preuve: soit Y =< a, X >= nj=1 aj Xj .
Alors pour v ∈ R, on a (4) équivalent à
v2
φY (v ) = E(e iv Y ) = E(e i<va,X > ) = φX (va) = e iv <a,m>− 2 <a,Ca> .
5
MAP 311, Chapitre 6, Théorème 6.2.3
On en déduit: (4) ⇐⇒ Y suit une loi normale avec
E(Y ) =< a, m > , Var (Y ) =< a, Ca > .
Corollaire fondamental: Si X est un vecteur gaussien,
ses composantes sont indépendantes ⇐⇒ sa matrice de
covariance est diagonale.
Preuve. 1) =⇒: Evident car alors cov (Xi , Xj ) = 0, ∀ i, j.
2) ⇐=: Si la matrice de covariance est diagonale, on a alors
une forme produit de la fonction caractéristique:
φX (a1 , · · · , an ) = e i
Pn
1
j=1 aj mj − 2
Pn
j=1
Cjj aj2
.
On en déduit l’indépendance par (2).
Ce résultat peut être faux si X n’est pas gaussien: voir Leçon
4. On a construit un couple de v.a. (X1 , X2 ) non
indépendantes telles que cov (X1 , X2 ) = 0.
Forme réduite
Proposition: Soit X vecteur gaussien de moyenne m. Il
existe des v.a.r. indépendantes Y1 , . . . , Yn de lois normales
N (0, λj ) et une matrice orthogonale A telles que X = m + AY .
preuve: CX symétrique positive ⇒ CX = A Λ t A, où A
orthogonale et Λ diagonale avec Λjj = λj ≥ 0.
On pose Y = t A(X − m). Alors Y vecteur gaussien centré
de matrice de covariance la matrice diagonale Λ. En effet,
(voir Leçon 4),
CY = t A CX A = t A A Λ t A A = Λ.
La matrice Λ étant diagonale, les v.a. Yj sont indépendantes
de loi N (0, λj ).
Une nouvelle notion de convergence: la
Convergence en Loi
I
Description de la “proximité des lois” de variables
aléatoires.
I
Exemple vu en Cours 2: Si Xn suit une loi binomiale
B(n, an ) avec nan →n→∞ θ, alors ∀j ∈ N,
P(Xn = j) →n→∞ P(Y = j)
où Y suit une loi de poisson P(θ).
I
Remarque: Dans cet exemple, ce sont les probabilités
qui convergent, on ne s’intéresse pas aux variables
aléatoires elles-même.
Définition de la convergence en loi6
Définition: La suite (Xn )n converge en loi vers X , et on
L
écrit Xn → X , si pour toute fonction continue bornée f ,
E(f (Xn )) →n→∞ E(f (X )).
Exemple. Cas discret: Si les v.a. Xn et X prennent un
nombre fini de valeurs {ak , 1 ≤ k ≤ K }, alors la suite (Xn )n
converge en loi vers X si et seulement si ∀k ∈ {1, · · · , K },
lim P(Xn = ak ) = P(X = ak ).
n
6
MAP 311, chapitre 6, Section 6.3
Exemple: Soit (Xn )n et X des v.a. de lois respectives
N (0, σn2 ) et N (0, σ 2 ), où la suite de réels positifs (σn )n
converge vers σ > 0.
Alors la suite (Xn )n converge en loi vers X .
Remarque: cela est vrai même si les v.a. Xn et X ne sont pas
définies sur les mêmes espaces de probabilité.
Preuve: Soit f continue sur R.
Z
1
2
2
e −y /2σn dy
E(f (Xn )) =
f (y ) √
2πσn
Z
1
2
2
e −y /2σ dy = E(f (X ))
→
f (y ) √
2πσ
(CV dominée).
P
L
Proposition Si Xn → X , alors Xn → X .
P
Idée de la preuve. 1) Si f continue, alors f (Xn ) → f (X ).
(Poly, prop. 5.1.8).
L1
2) Comme de plus f est bornée ⇒ f (Xn ) → f (X ). (CV
dominée)
Relations entre modes de convergences
Convergence
presque-sûre
I
IIIII
IIIIII
IIIIII
si dominée
+3 Convergence
(
en Moyenne
Convergence
en Probabilité
Convergence
en Loi
uuuu
uuuuuu
u
u
u
u
v~ uuuu
Proposition7 : Soient (Xn )n et X des v.a.r. de fonctions de
répartition respectives Fn et F . Alors,
L
Xn → X ⇐⇒ Fn (t) → F (t) pour tout t en lequel F est continue.
Prouvons ⇒. Supposons que F soit continue en t. Soit
hε : R → R continue, 1x≤t ≤ hε (x) ≤ 1x≤t+ε .
lim sup P(Xn ≤ t) ≤ lim E(hε (Xn )) = E(hε (X )) ≤ F (t + ε)
n
n
⇒ lim sup P(Xn ≤ t) ≤ F (t)
n
et de même lim inf P(Xn ≤ t) ≥ F (t − ) = F (t).
n
7
MAP 311, Chapitre 6, Proposition 6.3.4
Corollaire: Si la suite Xn ∈ R converge en loi vers X , et si la
loi de X a une densité, alors pour tous a < b,
P(Xn ∈]a, b]) → P(X ∈]a, b]),
quand n → ∞.
Preuve: La fonction de répartition de X est alors continue en
tout point. (Mais pas nécessairement celles des v.a. Xn ).
Théorème de Paul Lévy
Figure: Paul Lévy (1886-1971), Polytechnicien, Professeur à
l’Ecole Polytechnique à partir de 1920
Théorème8 : Soient (Xn )n des vecteurs aléatoires de Rd .
L
1) Si la suite Xn → X , alors φXn converge simplement vers φX .
2) Si les φXn convergent simplement vers une fonction φ
continue en 0, alors φ est la fonction caractéristique d’un
L
vecteur aléatoire X et Xn → X .
Preuve de (1): x → e i<u,x> est une fonction continue bornée
de x.
(2) démonstration difficile.
8
MAP 311, Chapitre 6, Théorème 6.3.5
Intérêt fondamental: Le théorème de la limite
centrale9
I
I
I
I
I
I
9
Soit (Xn )n une suite de variables aléatoires indépendantes,
de même loi, de carré intégrable, avec
E(X1 ) = m ; Var (X1 ) = σ 2 .
Posons
Sn
Sn = X1 + · · · + Xn ; Mn = .
n
Mn converge vers m, presque-sûrement et en moyenne.
Question: Quelle est la vitesse de convergence?
2
Comme Var (Mn − m) = σn √, il est naturel d’étudier les
variables centrées réduites n(Mσn −m) .
√
n(Mn −m)
ne converge pas en probabilité. Nécessité
σ
n
de la convergence en loi.
MAP 311, Chapitre 6
Théorème: Soit (Xn )n une suite de variables aléatoires
indépendantes, de même loi, de carré intégrable,
E(X1 ) = m ; Var (X1 ) = σ 2 . Alors les variables
√
n(Mn − m)
(Sn − nm)
√
=
σ
σ n
convergent en loi vers une variable aléatoire normale N (0, 1).
Ainsi ,
X1 + · · · + Xn
1
− m ∼n→∞ √ N (0, σ 2 ).
n
n
Caractère universel du théorème: Une somme d’un grand
nombre de variables aléatoires indépendantes de même loi,
centrées et de carré intégrable, se comporte
approximativement comme une variable normale.
Théorème énoncé par Laplace (1749-1827) et prouvé
rigoureusement par Lyapounov (1901).
Preuve de Paul lévy:
Xi − m
Ui =
;
σ
n
1 X
Sn − nm
Yn = √
Ui = √
.
n i=1
nσ
Par indépendance,
n
φYn (t) = φU1 /√n (t) .
Or
t
φU1 /√n (t) = E(exp(i √ U1 ))
n
t
1 t
t
= E(1 + (i √ )U1 − ( √ )2 U12 + o(( √ )2 ))
2 n
n
n
2
2
t
t
= 1−
+ o( ).
2n
n
Donc limn φYn (t) = e −t
2 /2
= φX (t) où X ∼ N (0, 1).
Applications
I
Comportement gaussien d’une somme de variables
aléatoires indépendantes de carré intégrable, centrées.
I
Les perturbations aléatoires sont souvent modélisées par
des variables aléatoires normales.
I
Contrôle d’erreur pour la loi des grands nombres.
I
Vitesse de convergence en √1n dans la méthode de
Monte-Carlo, indépendante de la dimension.
I
Applications en Statistique Inférentielle: observations →
prédiction; quantifier l’erreur de prédiction. (Intervalles de
confiance: cours 7).
Jeu de Roulette
I
I
I
I
I
I
Probabilité de gagner une partie au jeu de roulette (du
point de vue du casino): 19
≈ 0, 513.
37
Xn : gain algébrique du casino à la nième partie.
P(X1 = 1) = 0, 513 ; P(X1 = −1) = 0, 487.
E(X1 ) = 0, 026, σX2 1 = 0, 999.
P
Gain du casino sur n parties: Gn = ni=1 Xi .
Plus petit n tel que P(Gn ≥ 1000) ≥ 12 ?
P (Gn ≥ 1000) = P
Gn − 0, 026n
1000 − 0, 026n
√
√
≥
nσX1
nσX1
1
≥ .
2
I
I
Pour n grand, Gn√−0,026n
se comporte approximativement
nσX1
comme une loi normale centrée réduite.
On en déduit que:
1000 − 0, 026n ≤ 0 ⇐⇒ n ≥ n0 = 38460.
I
Probabilité d’un gain négatif pour ce nombre n0 de
parties?
Gn0 − 0, 026n0
−0, 026n0
P(Gn0 < 0) = P
< √
√
n0 σX1
n0 σX1
−7
≈ P(Y < −5, 1) ≈ 1.7 10 ≈ 0,
où Y suit une loi N (0, 1).