La méthode de Chen et Stein

Commentaires

Transcription

La méthode de Chen et Stein
La méthode de Chen et Stein
Un résultat classique en probabilités assure que si (pn )n≥1 est une suite de réels
compris entre 0 et 1 telle que la suite npn → λ ∈ R quand n → +∞, alors la suite de
lois binômiales B(n, pn ) tend vers la loi de Poisson de paramètre λ. Plus généralement, le
théorème des événements rares assure que si A1 , . . . , An sont des événements indépendants
de faibles probabilités p1 , . . . , pn , le nombre de ces événements qui se réalisent suit approximativement une loi de Poisson de paramètre p1 + · · · + pn . La méthode de Chen et
Stein permet de généraliser ce résultat à des événements non indépendants pourvu que
les dépendances entre eux soient faibles.
1
1.1
Distance en variation totale
Définitions
Si µ et ν sont deux probabilités sur N, on peut définir leur distance en variation
totale de trois façons équivalentes :
||µ − ν|| = max{|µ(A) − ν(A)| ; A ⊂ N} = max{µ(A) − ν(A) ; A ⊂ N},
||µ − ν|| =
X
n∈N
[µ{n} − ν{n}]+ =
1X
|µ{n} − ν{n}|,
2
n∈N
||µ − ν|| = min{P [X 6= Y ] ; X
µ et Y
ν}.
Exemple : la distance en variation totale entre la loi de Bernoulli de paramètre p et
la loi de Poisson de paramètre p est
||B(1, p) − P(p)|| = [(1 − p) − e−p ]+ + [p − pe−p ]+ = p(1 − e−p ) ≤ p2 .
1.2
Une première majoration
Commençons par une remarque simple. Si µ1 , . . . , µn et ν1 , . . . , νn sont des probabilités sur N, alors
||µ1 ∗ · · · ∗ µn − ν1 ∗ · · · ∗ νn || ≤
n
X
k=1
||µk − νk ||.
Pour démontrer ce résultat, il suffit de montrer qu’on peut construire n variables indépendantes (X1 , Y1 ), . . . , (Xn , Yn ) à valeurs dans N2 telles que P [Xk 6= Yk ] = ||µk − νk || pour
tout k ∈ [1 . . . n] et d’écrire
P [X1 + · · · + Xn 6= Y1 + · · · + Yn ] ≤
1
n
X
k=1
P [Xk 6= Yk ].
Si A1 , . . . , An sont des événements indépendants de probabilités p1 , . . . , pn , et si
S = IA1 + · · · + IAn est le nombre de ces événements qui se réalisent, on peut donc
majorer la distance en variation totale entre la loi de S et loi de Poisson de paramètre
p1 + · · · + pn :
||L(S) − P(p1 + · · · + pn )|| ≤
n
X
k=1
pk (1 − e−pk ) ≤
n
X
p2k .
k=1
Ce résultat est intéressant, mais non optimal. Et la méthode ne se généralise pas à des
variables aléatoires non indépendantes.
2
L’opérateur de Chen - Stein
A toute application f de N dans R, l’opérateur de Chen - Stein associe l’application
f de N dans R définie par T f (n) = λf (n + 1) − nf (n). On remarque que T f ne dépend
pas de f (0).
2.1
Une caractérisation de la loi de Poisson
Soit µ0 la loi de Poisson de paramètre λ > 0. L’application f0 : n 7→ nλ de N
dans R est une densité de probabilité par rapport à µ0 et la probabilité f0 µ0 n’est
autre que l’image de µ0 par la translation n 7→ n + 1. Cette propriété caractérise la
loi de Poisson. Nous allons donner une formulation équivalente de ce résultat faisant
intervenir l’opérateur de Stein.
Lemme 1 Soit µ une probabilité sur N. Pour que µ soit la loi de Poisson de paramètre
λ > 0, il faut et il suffit que pour toute f : N → R bornée, l’application T f soit
µ-intégrable et centrée.
2.2
Inversion de l’opérateur de Chen - Stein
Soit g une application de N dans R. Cherchons f telle que T f = g.
λn+1
λn
λn
f (n + 1) −
f (n) =
g(n)
n!
(n − 1)!
n!
n−1
X λk
λn
⇐⇒ ∀n ∈ N∗ ,
f (n) =
g(k)
(n − 1)!
k!
T f = g ⇐⇒ f (1) = g(0) et ∀n ∈ N∗ ,
k=0
On trouve une solution unique, à la valeur de f (0) près, qui est arbitraire. Elle est donnée
par la formule
n−1
(n − 1)! X λk
g(k).
f (n) =
λn
k!
k=0
Si g est intégrable et centrée pour µ0 , on a aussi
+∞
(n − 1)! X λk
f (n) = −
g(k).
λn
k!
k=n
Cette dernière formule permet de voir que siPg est bornée, l’application f tend vers 0
λk
à l’infini, donc est bornée. En effet, le reste +∞
k=n k! g(k) est majoré en valeur absolue
P
λk
λn
par ||g|| +∞
k=n k! , qui est équivalent à ||g|| n! quand n → +∞.
2
3
3.1
La méthode de Chen et Stein
Utilisation de l’opérateur de Chen - Stein
Soient (XP
i )i∈I une famille
P finie d’indicatrices d’événements de probabilités (pi )i∈I .
Notons S = i∈I Xi , λ = i∈I pi l’espérance et µ la loi de S. On cherche à majorer la
distance en variation totale entre µ et µ0 = P(λ). La méthode de Chen-Stein consiste
à introduire, pour tout A ⊂ N, la solution fA de l’équation T f = IA − µ0 (A) telle que
fA (0) = fA (1) et à écrire
Z
(IA − µ0 (A))dµ
µ(A) − µ0 (A) =
N
Z
T fA dµ
=
N
= E[λfA (S + 1) − SfA (S)]
X
=
E[pi fA (S + 1) − Xi fA (S)]
i∈I
=
X
i∈I
en notant Si = S − Xi =
3.2
P
E[pi fA (Si + Xi + 1) − Xi fA (Si + 1)],
j6=i Xj .
Cas où les événements sont indépendants
Supposons que (Xi )i∈I sont les indicatrices d’événements indépendants. Alors pour
tout i ∈ I, E[Xi fA (Si + 1)] = pi E[fA (Si + 1)], par indépendance de Xi et de Si . Donc
X
µ(A) − µ0 (A) =
pi E[fA (Si + Xi + 1) − fA (Si + 1)]
i∈I
=
X
pi E[Xi ∆fA (Si + 1)]
X
p2i E[∆fA (Si + 1)],
i∈I
=
i∈I
en notant ∆fA (n) = fA (n + 1) − fA (n) pour n ∈ N. Nous allons montrer que
||∆fA || ≤
On obtient donc
|µ(A) − µ0 (A)| ≤
1 − e−λ
.
λ
1 − e−λ X 2
pi .
λ
i∈I
Cette inégalité améliore la première estimation que nous avons vue.
3.3
Cas général : le théorème de Chen
Pour chaque i ∈ I, on fixe une partie Bi de I contenant i. Intuitivement, Bi
représentera l’ensemble des indices des variables Xj dépendant fortement de Xi et Bic
l’ensemble des indices des variables Xj dépendant faiblement de Xi . On pose alors
X
X
Xj , W i =
Xj
Zi =
j∈Bic
j∈Bi \{i}
3
et on écrit
pi fA (Si + Xi + 1) − Xi fA (Si + 1) = pi fA (Si + Xi + 1) − pi fA (Wi + 1)
+ pi fA (Wi + 1) − Xi fA (Wi + 1)
+ Xi fA (Wi + 1) − Xi fA (Si + 1)
d’où
E[pi fA (Si + Xi + 1) − Xi fA (Si + 1)] ≤ pi E |fA (Si + Xi + 1) − fA (Wi + 1)|
+ E[(pi − Xi )fA (Wi + 1)]
+ E Xi |fA (Wi + 1) − fA (Si + 1)|
On majore le premier et le dernier terme de la somme en utilisant les inégalités
|fA (Si + Xi + 1) − fA (Wi + 1)| ≤ ||∆fA ||(Xi + Zi )
|fA (Wi + 1) − fA (Si + 1)| ≤ ||∆fA ||Zi .
La majoration du deuxième terme est plus compliquée. On écrit
E[(pi − Xi )fA (Wi + 1)] = E[(pi − E[Xi |Wi ])fA (Wi + 1)]
≤ ||fA || × E[pi − E[Xi |Wi ]].
On obtient ainsi
|µ(A) − µ0 (A)| ≤ ||∆fA ||
X
i∈I
X pi − E[Xi |Wi ] .
pi E[Xi + Zi ] + E[Xi Zi ] + ||fA ||
1
i∈I
Mais nous avons (voir [1] et [2]) pour tout A ⊂ N,
r
2
1 − e−λ
) et ||∆fA || ≤ k2 (λ) =
.
||fA || ≤ k1 (λ) = min(1,
eλ
λ
Ainsi,
||µ − µ0 || ≤ k2 (λ)
X
pi pj +
X
i∈I
j∈Bi \{i}
i∈I
j∈Bi
X pi − E[Xi |Wi ] .
E[Xi Xj ] + k1 (λ)
1
i∈I
Remarque : d’après l’inégalité de Jensen, pi −E[Xi |Wi ]1 ≤ pi −E[Xi |σ(Xj )j∈Bic ]1 .
Ce terme est petit si la dépendance entre Xi et les (Xj )j∈Bic est faible. Mais son calcul
est souvent difficile.
3.4
Variante : le théorème de Stein
Nous allons voir une autre façon de majorer le terme E[(pi − Xi )fA (Wi + 1)]. Pour
tout i ∈ I, prenons une variable aléatoire Wi′ dont la loi est la loi de Wi sachant [Xi = 1]
(en grossissant au besoin l’espace probabilisé). Alors
E[(pi − Xi )fA (Wi + 1)] = pi (E[fA (Wi + 1)] − E[fA (Wi + 1)|Xi = 1])
Ainsi,
= pi (E[fA (Wi + 1)] − E[fA (Wi′ + 1)]).
E[(pi − Xi )fA (Wi + 1)] ≤ pi ||∆fA ||E |Wi − Wi′ | .
||µ − µ0 || ≤ k2 (λ)
X
i∈I
pi E[Xi + Zi ] + E[Xi Zi ] + pi E |Wi − Wi′ | .
4
3.5
Cas particulier : indicatrices reliées positivement ou négativement
Les indicatrices (Xi )i∈I sont reliées positivement si pour tout i ∈ I et pour toute
application croissante φ : {0, 1}I\{i} → R,
E[φ((Xj )j∈I\{i} )|Xi = 1] ≥ E[φ((Xj )j∈I\{i} )].
Les indicatrices (Xi )i∈I sont reliées négativement si pour tout i ∈ I et pour toute
application croissante φ : {0, 1}I\{i} → R,
E[φ((Xj )j∈I\{i} )|Xi = 1] ≤ E[φ((Xj )j∈I\{i} )].
Si les indicatrices (Xi )i∈I sont reliées positivement (négativement), alors pour toute
application croissante ψ : N → R,
E[ψ(Wi′ )] = E[ψ(Wi )|Xi = 1] ≥ (≤)E[ψ(Wi )].
On peut alors choisir les Wi′ de telle sorte que Wi′ ≥ (≤)Wi pour tout i ∈ I, et alors
E |Wi − Wi′ | = ǫ pi (E[Wi′ ] − E[Wi ]) = ǫ E[(Xi − pi )Wi ] = ǫ Cov(Xi , Wi )
avec ǫ = 1 si les indicatrices sont reliées positivement, ǫ = −1 si les indicatrices sont
reliées négativement.
Appliquons
P l’inégalité de Stein en prenant Bi = {i} pour tout i ∈ I, d’où Zi = 0 et
Wi = Si = j6=i Xj . On obtient
X
X
Cov(Xi , S) − Var(Xi ) .
||µ − µ0 || ≤ k2 (λ)
p2i + ǫ
i∈I
i∈I
Si les indicatrices (Xi )i∈I sont reliées positivement,
X ||µ − µ0 || ≤ k2 (λ) Var(S) − λ + 2
p2i .
i∈I
Si les indicatrices (Xi )i∈I sont reliées négativement,
||µ − µ0 || ≤ k2 (λ) λ − Var(S) .
4
4.1
Exemples
Nombre de points fixes d’une permutation aléatoire
Soit Σ une permutation aléatoire. Pour tout i ∈ [1 . . . n], notons Xi = I[Σ(i)=i] , de
sorte que S = X1 + · · · + Xn est le nombre de points fixes de Σ.
Les indicatrices X1 , · · · , Xn sont reliées positivement. En effet, fixons i ∈ [1 . . . n].
Notons Σi la permutation de I définie par Σi (j) = Σ(j) si j 6= i et j 6= Σ−1 (i), Σi (i) = i
et Σi (Σ−1 (i)) = Σ(i). Autrement dit, la décomposition en cycles de Σi se déduit de celle
de Σ en retirant i du cycle auquel il appartient et en faisant un point fixe. Alors la loi
de Σi est la loi de Σ sachant que Σ(i) = i et pour tout j ∈ I \ {i},
I[Σi (j)=j] = I[Σ(j)=j] + I[Σ(j)=i
5
; Σ2 (j)=j]
≥ Xj ,
ce qui entraı̂ne le résultat annoncé.
Pour tout i ∈ [1 . . . n],
E[Xi2 ] = E[Xi ] = P [Σ(i) = i] =
n−1
1
d’où Var(Xi ) =
,
n
n2
tandis que pour i 6= j,
E[Xi Xj ] = P [Σ(i) = i; Σ(j) = j] =
1
1
d’où Cov(Xi , Xj ) = 2
.
n(n − 1)
n (n − 1)
Ainsi, E[S] = 1 et
Var(S) = n
On obtient finalement
4.2
n−1
1
+ n(n − 1) 2
= 1.
2
n
n (n − 1)
2
||L(S) − P(1)|| ≤ (1 − e−1 ) .
n
Le problème des paniers vides
On place au hasard r balles dans n paniers. On note R1 , . . . , Rn les nombres de balles
arrivant dans les paniers 1, . . . , n et Xi = I[Ri =0] l’indicatrice de l’événement ≪ le i-ième
panier est vide ≫ de sorte que S = X1 + · · · + Xn est le nombre de paniers vides.
Les indicatrices X1 , · · · , Xn sont reliées négativement. En effet, fixons i ∈ [1 . . . n]. La
loi de (R1 , . . . , Rn ) sachant que Ri = 0 est la loi de la répartition des balles obtenue en
déplaçant au hasard les balles du i-ième panier vers les autres paniers. Cette opération
augmente les variables Rj donc diminue les indicatrices Xj pour j 6= i.
Pour tout i ∈ [1 . . . n]
tandis que pour i 6= j
E[Xi2 ] = E[Xi ] =
E[Xi Xj ] =
n − 1 r
n
n − 2 r
n
,
.
Donc
E[S] = n
n − 1 r
n
et Var(S) − E[S] = n(n − 1)
n − 2 r
n
− n2
n − 1 2r
n
.
Ainsi,
n − 1 r n − 1 r
n − 2 r ||L(S) − P(1)|| ≤ 1 − exp(−n
) n
− (n − 1)
.
n
n
n−1
5
5.1
Majoration de fA et ∆fA
Inégalités préliminaires
Soit µ0 la loi de Poisson de paramètre λ. Nous allons voir quelques estimations
concernant la fonction de répartition et la queue de µ0 . Pour tout n ∈ N, notons
In = [0 . . . n − 1] et Inc = N \ [0 . . . n − 1].
6
Pour n < λ + 1,
λ
e µ0 (In ) =
n−1
X
k=0
λn−1−k
(n − 1 − k)!
n−1
≤
≤
=
λn−1 X n − 1 k
(n − 1)!
λ
k=0
λn−1
(n − 1)!
×
1
1 − n−1
λ
λn
.
(n − 1)!(λ − n + 1)
Pour n > λ − 1,
eλ µ0 (Inc ) =
+∞
X
λn+k
(n + k)!
k=0
≤
+∞
λn X λ k
n!
n+1
≤
1
λn
×
λ
n!
1 − n+1
=
k=0
(n + 1)λn
.
n!(n + 1 − λ)
Par ailleurs, pour tout n ∈ N,
µ0 (In+1 ) ≥ µ0 ([1 . . . n]) = e−λ
c
µ0 (In+1
)
=e
−λ
n
X
λk
k=1
k!
≥ e−λ
n
n
X
λ
k λk
λ X λk−1
= e−λ
= µ0 (In ).
n k!
n
(k − 1)!
n
k=1
k=1
+∞
+∞
X
X
λk
λk−1
λ
λ
−λ λ
≤e
=
µ0 (Inc ) ≤ µ0 (Inc ).
k!
n+1
(k − 1)!
n+1
n
k=n+1
k=n+1
Nous utiliserons par ailleurs l’inégalité suivante, valable pour tout n ∈ N∗ :
n n √
n n √
e n.
2πn ≤ n! ≤
e
e
5.2
Majoration de fA
Soient A ⊂ N et n ∈ N∗ . Notons In = [0 . . . n − 1]. Alors
n−1
fA (n) =
(n − 1)! λ
(n − 1)! X λk
(I
(k)
−
µ
(A))
=
e
µ
(A
∩
I
)
−
µ
(A)µ
(I
)
.
0
0
n
0
0
n
A
λn
k!
λn
k=0
Or, pour n fixé, la différence
µ0 (A ∩ In ) − µ0 (A)µ0 (In ) = µ0 (Inc )µ0 (A ∩ In ) − µ0 (In )µ0 (A ∩ Inc ).
est maximale en valeur absolue quand A = In ou A = Inc . Donc
|fA (n)| ≤
(n − 1)! λ
e µ0 (In )µ0 (Inc ).
λn
1,3
Cette inégalité va nous permettre de montrer que |fA (n)| ≤ min(1, √
), à l’aide des
q λ
2
majorations du paragraphe précédent. On a même |fA (n)| ≤ min(1, eλ
), voir [2].
7
Démonstration de l’inégalité |fA (n)| ≤ 1
- Si n ≤ λ, alors on écrit que eλ µ0 (In ) ≤
λn
(n−1)!
- Si n ≥ λ + 1, alors on écrit que eλ µ0 (Inc ) ≤
et µ0 (Inc ) ≤ 1.
λn (n+1) 1
n!
2
≤
λn
(n−1)!
- Si λ ≤ n ≤ λ + 1 et λ ≥ 1, alors on écrit que µ0 (In )µ0 (Inc ) ≤
e n n eλ
(n − 1)! λ
√
e
≤
≤ eh(n)+1 ,
λn
n e λn
et µ0 (In ) ≤ 1.
1
4
et
en notant h(x) = x ln x − x ln λ + λ − x pour tout x > 0. Comme h′ (x) = ln x − ln λ pour
tout x > 0, h est croissante sur [λ, λ+1], ce qui entraı̂ne h(n) ≤ (λ+1)[ln(λ+1)−ln λ]−1.
On vérifie que la fonction de λ 7→ (λ+1)[ln(λ+1)−ln λ] est décroissante. Comme λ ≥ 1,
λ
on trouve donc h(n) ≤ 2 ln 2 − 1 d’où (n−1)!
λn e ≤ 4.
- Si λ ≤ n ≤ λ + 1 et λ < 1, alors n = 1 d’où
(n − 1)! λ
1
e µ0 (In )µ0 (Inc ) = eλ e−λ (1 − e−λ ) ≤ 1.
n
λ
λ
Ainsi, dans tous les cas, |fA (n)| ≤ 1.
1,3
Démonstration de l’inégalité |fA (n)| ≤ √
λ
√
√
- Si n ≤ λ − λ + 1, alors λ ≤ λ − n + 1 d’où
eλ µ0 (In ) ≤
donc |fA (n)| ≤
√1 .
λ
- Si n ≥ λ +
√
λn
λn
√ ,
≤
(n − 1)!(λ − n + 1)
(n − 1)! λ
λ, alors n + 1 − λ ≥
eλ µ0 (Inc ) ≤
√
λ + 1 d’où
λn
1
λn (n + 1)
(n +
√
√ ,
≤
=
n!(n + 1 − λ)
(n − 1)! n ( λ + 1)
(n − 1)! λ
1)λn
donc |fA (n)| ≤ √1λ .
√
√
- Si λ − λ + 1 ≤ n ≤ λ + λ, alors
|fA (n)| ≤
e n n eλ
e
1 (n − 1)! λ
√
e
≤
= √ eh(n) ,
n
n
4 λ
4 n e λ
4 n
en notant h(x) = x ln x − x ln λ + λ − x pour tout x > 0. On vérifie immédiatement
que h(λ) = h′ (λ) = 0 et que h′′ (x) = x1 pour tout x > 0. En appliquant la formule de
Taylor-Lagrange entre λ et n, on obtient donc :
√
(n − λ)2
1
si n ∈ [λ, λ + λ], h(n) ≤
≤ ;
2λ
2
√
2
√
(n − λ)
1 ( λ − 1)2
1
√
√
≤
≤ .
si n ∈ [λ − λ + 1, λ], h(n) ≤
2λ− λ+1
2
2(λ − λ + 1)
Par conséquent, comme
on a
3
3
1 √
n ≥ λ + ( λ − 2)2 ≥ λ,
4
4
4
e3/2
e3/2
|fA (n)| ≤ √ ≤ √
.
4 n
12λ
Ainsi, dans tous les cas, |fA (n)| ≤
1,3
√
.
λ
8
5.3
Majoration de ∆fA
Commençons par l’étude de fk = f{k} pour k ∈ N fixé. Pour tout n ∈ N∗ ,
fk (n) =
(n − 1)! λk
(n − 1)! λ
e
µ
({k}
∩
I
)
−
µ
({k})µ
(I
)
=
I[k≤n−1] − µ0 (In ) .
0
n
0
0
n
n
n
λ
λ
k!
Par conséquent,
fk (n) = −
fk (n) =
λk (n − 1)!
µ0 (In ) si n ≤ k.
k! λn
λk (n − 1)!
µ0 (Inc ) si n ≥ k + 1.
k! λn
c ) ≤ λ µ (I c ) montrent que f décroı̂t sur
Les inégalités µ0 (In+1 ) ≥ nλ µ0 (In ) et µ0 (In+1
k
n 0 n
[1 . . . k] et sur [k + 1 . . . + ∞[. L’application ∆fk ne prend que des valeurs négatives sur
N∗ , sauf au point k (si k 6= 0) où elle vaut
∆fk (k) = fk (k + 1) − fk (k) =
Et comme
λ
k µ0 (Ik )
1
1
c
µ0 (Ik+1
) + µ0 (Ik )
λ
k
≤ µ0 ([1 . . . k]),
∆fk (k) ≤
1
1 − e−λ
c
(µ0 (Ik+1
) + µ0 ([1 . . . k]) =
.
λ
λ
Soit maintenant A ⊂ N. Alors fA =
P
k∈A fk
∆fA (n) ≤ ∆fn (n) ≤
donc pour tout n ∈ N∗ ,
1 − e−λ
.
λ
On a également
−∆fA (n) = ∆fAc (n) ≤
Ainsi,
|∆fA (n)| ≤
1 − e−λ
.
λ
1 − e−λ
.
λ
Références
[1] A. D. Barbour, L. H. Y. Chen, An introduction to Stein’s method, Singapore University Press (2005)
[2] A. D. Barbour, L. Holst, S. Janson, Poisson Approximation, Oxford University Press
(1992)
9