La méthode de Chen et Stein
Transcription
La méthode de Chen et Stein
La méthode de Chen et Stein Un résultat classique en probabilités assure que si (pn )n≥1 est une suite de réels compris entre 0 et 1 telle que la suite npn → λ ∈ R quand n → +∞, alors la suite de lois binômiales B(n, pn ) tend vers la loi de Poisson de paramètre λ. Plus généralement, le théorème des événements rares assure que si A1 , . . . , An sont des événements indépendants de faibles probabilités p1 , . . . , pn , le nombre de ces événements qui se réalisent suit approximativement une loi de Poisson de paramètre p1 + · · · + pn . La méthode de Chen et Stein permet de généraliser ce résultat à des événements non indépendants pourvu que les dépendances entre eux soient faibles. 1 1.1 Distance en variation totale Définitions Si µ et ν sont deux probabilités sur N, on peut définir leur distance en variation totale de trois façons équivalentes : ||µ − ν|| = max{|µ(A) − ν(A)| ; A ⊂ N} = max{µ(A) − ν(A) ; A ⊂ N}, ||µ − ν|| = X n∈N [µ{n} − ν{n}]+ = 1X |µ{n} − ν{n}|, 2 n∈N ||µ − ν|| = min{P [X 6= Y ] ; X µ et Y ν}. Exemple : la distance en variation totale entre la loi de Bernoulli de paramètre p et la loi de Poisson de paramètre p est ||B(1, p) − P(p)|| = [(1 − p) − e−p ]+ + [p − pe−p ]+ = p(1 − e−p ) ≤ p2 . 1.2 Une première majoration Commençons par une remarque simple. Si µ1 , . . . , µn et ν1 , . . . , νn sont des probabilités sur N, alors ||µ1 ∗ · · · ∗ µn − ν1 ∗ · · · ∗ νn || ≤ n X k=1 ||µk − νk ||. Pour démontrer ce résultat, il suffit de montrer qu’on peut construire n variables indépendantes (X1 , Y1 ), . . . , (Xn , Yn ) à valeurs dans N2 telles que P [Xk 6= Yk ] = ||µk − νk || pour tout k ∈ [1 . . . n] et d’écrire P [X1 + · · · + Xn 6= Y1 + · · · + Yn ] ≤ 1 n X k=1 P [Xk 6= Yk ]. Si A1 , . . . , An sont des événements indépendants de probabilités p1 , . . . , pn , et si S = IA1 + · · · + IAn est le nombre de ces événements qui se réalisent, on peut donc majorer la distance en variation totale entre la loi de S et loi de Poisson de paramètre p1 + · · · + pn : ||L(S) − P(p1 + · · · + pn )|| ≤ n X k=1 pk (1 − e−pk ) ≤ n X p2k . k=1 Ce résultat est intéressant, mais non optimal. Et la méthode ne se généralise pas à des variables aléatoires non indépendantes. 2 L’opérateur de Chen - Stein A toute application f de N dans R, l’opérateur de Chen - Stein associe l’application f de N dans R définie par T f (n) = λf (n + 1) − nf (n). On remarque que T f ne dépend pas de f (0). 2.1 Une caractérisation de la loi de Poisson Soit µ0 la loi de Poisson de paramètre λ > 0. L’application f0 : n 7→ nλ de N dans R est une densité de probabilité par rapport à µ0 et la probabilité f0 µ0 n’est autre que l’image de µ0 par la translation n 7→ n + 1. Cette propriété caractérise la loi de Poisson. Nous allons donner une formulation équivalente de ce résultat faisant intervenir l’opérateur de Stein. Lemme 1 Soit µ une probabilité sur N. Pour que µ soit la loi de Poisson de paramètre λ > 0, il faut et il suffit que pour toute f : N → R bornée, l’application T f soit µ-intégrable et centrée. 2.2 Inversion de l’opérateur de Chen - Stein Soit g une application de N dans R. Cherchons f telle que T f = g. λn+1 λn λn f (n + 1) − f (n) = g(n) n! (n − 1)! n! n−1 X λk λn ⇐⇒ ∀n ∈ N∗ , f (n) = g(k) (n − 1)! k! T f = g ⇐⇒ f (1) = g(0) et ∀n ∈ N∗ , k=0 On trouve une solution unique, à la valeur de f (0) près, qui est arbitraire. Elle est donnée par la formule n−1 (n − 1)! X λk g(k). f (n) = λn k! k=0 Si g est intégrable et centrée pour µ0 , on a aussi +∞ (n − 1)! X λk f (n) = − g(k). λn k! k=n Cette dernière formule permet de voir que siPg est bornée, l’application f tend vers 0 λk à l’infini, donc est bornée. En effet, le reste +∞ k=n k! g(k) est majoré en valeur absolue P λk λn par ||g|| +∞ k=n k! , qui est équivalent à ||g|| n! quand n → +∞. 2 3 3.1 La méthode de Chen et Stein Utilisation de l’opérateur de Chen - Stein Soient (XP i )i∈I une famille P finie d’indicatrices d’événements de probabilités (pi )i∈I . Notons S = i∈I Xi , λ = i∈I pi l’espérance et µ la loi de S. On cherche à majorer la distance en variation totale entre µ et µ0 = P(λ). La méthode de Chen-Stein consiste à introduire, pour tout A ⊂ N, la solution fA de l’équation T f = IA − µ0 (A) telle que fA (0) = fA (1) et à écrire Z (IA − µ0 (A))dµ µ(A) − µ0 (A) = N Z T fA dµ = N = E[λfA (S + 1) − SfA (S)] X = E[pi fA (S + 1) − Xi fA (S)] i∈I = X i∈I en notant Si = S − Xi = 3.2 P E[pi fA (Si + Xi + 1) − Xi fA (Si + 1)], j6=i Xj . Cas où les événements sont indépendants Supposons que (Xi )i∈I sont les indicatrices d’événements indépendants. Alors pour tout i ∈ I, E[Xi fA (Si + 1)] = pi E[fA (Si + 1)], par indépendance de Xi et de Si . Donc X µ(A) − µ0 (A) = pi E[fA (Si + Xi + 1) − fA (Si + 1)] i∈I = X pi E[Xi ∆fA (Si + 1)] X p2i E[∆fA (Si + 1)], i∈I = i∈I en notant ∆fA (n) = fA (n + 1) − fA (n) pour n ∈ N. Nous allons montrer que ||∆fA || ≤ On obtient donc |µ(A) − µ0 (A)| ≤ 1 − e−λ . λ 1 − e−λ X 2 pi . λ i∈I Cette inégalité améliore la première estimation que nous avons vue. 3.3 Cas général : le théorème de Chen Pour chaque i ∈ I, on fixe une partie Bi de I contenant i. Intuitivement, Bi représentera l’ensemble des indices des variables Xj dépendant fortement de Xi et Bic l’ensemble des indices des variables Xj dépendant faiblement de Xi . On pose alors X X Xj , W i = Xj Zi = j∈Bic j∈Bi \{i} 3 et on écrit pi fA (Si + Xi + 1) − Xi fA (Si + 1) = pi fA (Si + Xi + 1) − pi fA (Wi + 1) + pi fA (Wi + 1) − Xi fA (Wi + 1) + Xi fA (Wi + 1) − Xi fA (Si + 1) d’où E[pi fA (Si + Xi + 1) − Xi fA (Si + 1)] ≤ pi E |fA (Si + Xi + 1) − fA (Wi + 1)| + E[(pi − Xi )fA (Wi + 1)] + E Xi |fA (Wi + 1) − fA (Si + 1)| On majore le premier et le dernier terme de la somme en utilisant les inégalités |fA (Si + Xi + 1) − fA (Wi + 1)| ≤ ||∆fA ||(Xi + Zi ) |fA (Wi + 1) − fA (Si + 1)| ≤ ||∆fA ||Zi . La majoration du deuxième terme est plus compliquée. On écrit E[(pi − Xi )fA (Wi + 1)] = E[(pi − E[Xi |Wi ])fA (Wi + 1)] ≤ ||fA || × E[pi − E[Xi |Wi ]]. On obtient ainsi |µ(A) − µ0 (A)| ≤ ||∆fA || X i∈I X pi − E[Xi |Wi ] . pi E[Xi + Zi ] + E[Xi Zi ] + ||fA || 1 i∈I Mais nous avons (voir [1] et [2]) pour tout A ⊂ N, r 2 1 − e−λ ) et ||∆fA || ≤ k2 (λ) = . ||fA || ≤ k1 (λ) = min(1, eλ λ Ainsi, ||µ − µ0 || ≤ k2 (λ) X pi pj + X i∈I j∈Bi \{i} i∈I j∈Bi X pi − E[Xi |Wi ] . E[Xi Xj ] + k1 (λ) 1 i∈I Remarque : d’après l’inégalité de Jensen, pi −E[Xi |Wi ]1 ≤ pi −E[Xi |σ(Xj )j∈Bic ]1 . Ce terme est petit si la dépendance entre Xi et les (Xj )j∈Bic est faible. Mais son calcul est souvent difficile. 3.4 Variante : le théorème de Stein Nous allons voir une autre façon de majorer le terme E[(pi − Xi )fA (Wi + 1)]. Pour tout i ∈ I, prenons une variable aléatoire Wi′ dont la loi est la loi de Wi sachant [Xi = 1] (en grossissant au besoin l’espace probabilisé). Alors E[(pi − Xi )fA (Wi + 1)] = pi (E[fA (Wi + 1)] − E[fA (Wi + 1)|Xi = 1]) Ainsi, = pi (E[fA (Wi + 1)] − E[fA (Wi′ + 1)]). E[(pi − Xi )fA (Wi + 1)] ≤ pi ||∆fA ||E |Wi − Wi′ | . ||µ − µ0 || ≤ k2 (λ) X i∈I pi E[Xi + Zi ] + E[Xi Zi ] + pi E |Wi − Wi′ | . 4 3.5 Cas particulier : indicatrices reliées positivement ou négativement Les indicatrices (Xi )i∈I sont reliées positivement si pour tout i ∈ I et pour toute application croissante φ : {0, 1}I\{i} → R, E[φ((Xj )j∈I\{i} )|Xi = 1] ≥ E[φ((Xj )j∈I\{i} )]. Les indicatrices (Xi )i∈I sont reliées négativement si pour tout i ∈ I et pour toute application croissante φ : {0, 1}I\{i} → R, E[φ((Xj )j∈I\{i} )|Xi = 1] ≤ E[φ((Xj )j∈I\{i} )]. Si les indicatrices (Xi )i∈I sont reliées positivement (négativement), alors pour toute application croissante ψ : N → R, E[ψ(Wi′ )] = E[ψ(Wi )|Xi = 1] ≥ (≤)E[ψ(Wi )]. On peut alors choisir les Wi′ de telle sorte que Wi′ ≥ (≤)Wi pour tout i ∈ I, et alors E |Wi − Wi′ | = ǫ pi (E[Wi′ ] − E[Wi ]) = ǫ E[(Xi − pi )Wi ] = ǫ Cov(Xi , Wi ) avec ǫ = 1 si les indicatrices sont reliées positivement, ǫ = −1 si les indicatrices sont reliées négativement. Appliquons P l’inégalité de Stein en prenant Bi = {i} pour tout i ∈ I, d’où Zi = 0 et Wi = Si = j6=i Xj . On obtient X X Cov(Xi , S) − Var(Xi ) . ||µ − µ0 || ≤ k2 (λ) p2i + ǫ i∈I i∈I Si les indicatrices (Xi )i∈I sont reliées positivement, X ||µ − µ0 || ≤ k2 (λ) Var(S) − λ + 2 p2i . i∈I Si les indicatrices (Xi )i∈I sont reliées négativement, ||µ − µ0 || ≤ k2 (λ) λ − Var(S) . 4 4.1 Exemples Nombre de points fixes d’une permutation aléatoire Soit Σ une permutation aléatoire. Pour tout i ∈ [1 . . . n], notons Xi = I[Σ(i)=i] , de sorte que S = X1 + · · · + Xn est le nombre de points fixes de Σ. Les indicatrices X1 , · · · , Xn sont reliées positivement. En effet, fixons i ∈ [1 . . . n]. Notons Σi la permutation de I définie par Σi (j) = Σ(j) si j 6= i et j 6= Σ−1 (i), Σi (i) = i et Σi (Σ−1 (i)) = Σ(i). Autrement dit, la décomposition en cycles de Σi se déduit de celle de Σ en retirant i du cycle auquel il appartient et en faisant un point fixe. Alors la loi de Σi est la loi de Σ sachant que Σ(i) = i et pour tout j ∈ I \ {i}, I[Σi (j)=j] = I[Σ(j)=j] + I[Σ(j)=i 5 ; Σ2 (j)=j] ≥ Xj , ce qui entraı̂ne le résultat annoncé. Pour tout i ∈ [1 . . . n], E[Xi2 ] = E[Xi ] = P [Σ(i) = i] = n−1 1 d’où Var(Xi ) = , n n2 tandis que pour i 6= j, E[Xi Xj ] = P [Σ(i) = i; Σ(j) = j] = 1 1 d’où Cov(Xi , Xj ) = 2 . n(n − 1) n (n − 1) Ainsi, E[S] = 1 et Var(S) = n On obtient finalement 4.2 n−1 1 + n(n − 1) 2 = 1. 2 n n (n − 1) 2 ||L(S) − P(1)|| ≤ (1 − e−1 ) . n Le problème des paniers vides On place au hasard r balles dans n paniers. On note R1 , . . . , Rn les nombres de balles arrivant dans les paniers 1, . . . , n et Xi = I[Ri =0] l’indicatrice de l’événement ≪ le i-ième panier est vide ≫ de sorte que S = X1 + · · · + Xn est le nombre de paniers vides. Les indicatrices X1 , · · · , Xn sont reliées négativement. En effet, fixons i ∈ [1 . . . n]. La loi de (R1 , . . . , Rn ) sachant que Ri = 0 est la loi de la répartition des balles obtenue en déplaçant au hasard les balles du i-ième panier vers les autres paniers. Cette opération augmente les variables Rj donc diminue les indicatrices Xj pour j 6= i. Pour tout i ∈ [1 . . . n] tandis que pour i 6= j E[Xi2 ] = E[Xi ] = E[Xi Xj ] = n − 1 r n n − 2 r n , . Donc E[S] = n n − 1 r n et Var(S) − E[S] = n(n − 1) n − 2 r n − n2 n − 1 2r n . Ainsi, n − 1 r n − 1 r n − 2 r ||L(S) − P(1)|| ≤ 1 − exp(−n ) n − (n − 1) . n n n−1 5 5.1 Majoration de fA et ∆fA Inégalités préliminaires Soit µ0 la loi de Poisson de paramètre λ. Nous allons voir quelques estimations concernant la fonction de répartition et la queue de µ0 . Pour tout n ∈ N, notons In = [0 . . . n − 1] et Inc = N \ [0 . . . n − 1]. 6 Pour n < λ + 1, λ e µ0 (In ) = n−1 X k=0 λn−1−k (n − 1 − k)! n−1 ≤ ≤ = λn−1 X n − 1 k (n − 1)! λ k=0 λn−1 (n − 1)! × 1 1 − n−1 λ λn . (n − 1)!(λ − n + 1) Pour n > λ − 1, eλ µ0 (Inc ) = +∞ X λn+k (n + k)! k=0 ≤ +∞ λn X λ k n! n+1 ≤ 1 λn × λ n! 1 − n+1 = k=0 (n + 1)λn . n!(n + 1 − λ) Par ailleurs, pour tout n ∈ N, µ0 (In+1 ) ≥ µ0 ([1 . . . n]) = e−λ c µ0 (In+1 ) =e −λ n X λk k=1 k! ≥ e−λ n n X λ k λk λ X λk−1 = e−λ = µ0 (In ). n k! n (k − 1)! n k=1 k=1 +∞ +∞ X X λk λk−1 λ λ −λ λ ≤e = µ0 (Inc ) ≤ µ0 (Inc ). k! n+1 (k − 1)! n+1 n k=n+1 k=n+1 Nous utiliserons par ailleurs l’inégalité suivante, valable pour tout n ∈ N∗ : n n √ n n √ e n. 2πn ≤ n! ≤ e e 5.2 Majoration de fA Soient A ⊂ N et n ∈ N∗ . Notons In = [0 . . . n − 1]. Alors n−1 fA (n) = (n − 1)! λ (n − 1)! X λk (I (k) − µ (A)) = e µ (A ∩ I ) − µ (A)µ (I ) . 0 0 n 0 0 n A λn k! λn k=0 Or, pour n fixé, la différence µ0 (A ∩ In ) − µ0 (A)µ0 (In ) = µ0 (Inc )µ0 (A ∩ In ) − µ0 (In )µ0 (A ∩ Inc ). est maximale en valeur absolue quand A = In ou A = Inc . Donc |fA (n)| ≤ (n − 1)! λ e µ0 (In )µ0 (Inc ). λn 1,3 Cette inégalité va nous permettre de montrer que |fA (n)| ≤ min(1, √ ), à l’aide des q λ 2 majorations du paragraphe précédent. On a même |fA (n)| ≤ min(1, eλ ), voir [2]. 7 Démonstration de l’inégalité |fA (n)| ≤ 1 - Si n ≤ λ, alors on écrit que eλ µ0 (In ) ≤ λn (n−1)! - Si n ≥ λ + 1, alors on écrit que eλ µ0 (Inc ) ≤ et µ0 (Inc ) ≤ 1. λn (n+1) 1 n! 2 ≤ λn (n−1)! - Si λ ≤ n ≤ λ + 1 et λ ≥ 1, alors on écrit que µ0 (In )µ0 (Inc ) ≤ e n n eλ (n − 1)! λ √ e ≤ ≤ eh(n)+1 , λn n e λn et µ0 (In ) ≤ 1. 1 4 et en notant h(x) = x ln x − x ln λ + λ − x pour tout x > 0. Comme h′ (x) = ln x − ln λ pour tout x > 0, h est croissante sur [λ, λ+1], ce qui entraı̂ne h(n) ≤ (λ+1)[ln(λ+1)−ln λ]−1. On vérifie que la fonction de λ 7→ (λ+1)[ln(λ+1)−ln λ] est décroissante. Comme λ ≥ 1, λ on trouve donc h(n) ≤ 2 ln 2 − 1 d’où (n−1)! λn e ≤ 4. - Si λ ≤ n ≤ λ + 1 et λ < 1, alors n = 1 d’où (n − 1)! λ 1 e µ0 (In )µ0 (Inc ) = eλ e−λ (1 − e−λ ) ≤ 1. n λ λ Ainsi, dans tous les cas, |fA (n)| ≤ 1. 1,3 Démonstration de l’inégalité |fA (n)| ≤ √ λ √ √ - Si n ≤ λ − λ + 1, alors λ ≤ λ − n + 1 d’où eλ µ0 (In ) ≤ donc |fA (n)| ≤ √1 . λ - Si n ≥ λ + √ λn λn √ , ≤ (n − 1)!(λ − n + 1) (n − 1)! λ λ, alors n + 1 − λ ≥ eλ µ0 (Inc ) ≤ √ λ + 1 d’où λn 1 λn (n + 1) (n + √ √ , ≤ = n!(n + 1 − λ) (n − 1)! n ( λ + 1) (n − 1)! λ 1)λn donc |fA (n)| ≤ √1λ . √ √ - Si λ − λ + 1 ≤ n ≤ λ + λ, alors |fA (n)| ≤ e n n eλ e 1 (n − 1)! λ √ e ≤ = √ eh(n) , n n 4 λ 4 n e λ 4 n en notant h(x) = x ln x − x ln λ + λ − x pour tout x > 0. On vérifie immédiatement que h(λ) = h′ (λ) = 0 et que h′′ (x) = x1 pour tout x > 0. En appliquant la formule de Taylor-Lagrange entre λ et n, on obtient donc : √ (n − λ)2 1 si n ∈ [λ, λ + λ], h(n) ≤ ≤ ; 2λ 2 √ 2 √ (n − λ) 1 ( λ − 1)2 1 √ √ ≤ ≤ . si n ∈ [λ − λ + 1, λ], h(n) ≤ 2λ− λ+1 2 2(λ − λ + 1) Par conséquent, comme on a 3 3 1 √ n ≥ λ + ( λ − 2)2 ≥ λ, 4 4 4 e3/2 e3/2 |fA (n)| ≤ √ ≤ √ . 4 n 12λ Ainsi, dans tous les cas, |fA (n)| ≤ 1,3 √ . λ 8 5.3 Majoration de ∆fA Commençons par l’étude de fk = f{k} pour k ∈ N fixé. Pour tout n ∈ N∗ , fk (n) = (n − 1)! λk (n − 1)! λ e µ ({k} ∩ I ) − µ ({k})µ (I ) = I[k≤n−1] − µ0 (In ) . 0 n 0 0 n n n λ λ k! Par conséquent, fk (n) = − fk (n) = λk (n − 1)! µ0 (In ) si n ≤ k. k! λn λk (n − 1)! µ0 (Inc ) si n ≥ k + 1. k! λn c ) ≤ λ µ (I c ) montrent que f décroı̂t sur Les inégalités µ0 (In+1 ) ≥ nλ µ0 (In ) et µ0 (In+1 k n 0 n [1 . . . k] et sur [k + 1 . . . + ∞[. L’application ∆fk ne prend que des valeurs négatives sur N∗ , sauf au point k (si k 6= 0) où elle vaut ∆fk (k) = fk (k + 1) − fk (k) = Et comme λ k µ0 (Ik ) 1 1 c µ0 (Ik+1 ) + µ0 (Ik ) λ k ≤ µ0 ([1 . . . k]), ∆fk (k) ≤ 1 1 − e−λ c (µ0 (Ik+1 ) + µ0 ([1 . . . k]) = . λ λ Soit maintenant A ⊂ N. Alors fA = P k∈A fk ∆fA (n) ≤ ∆fn (n) ≤ donc pour tout n ∈ N∗ , 1 − e−λ . λ On a également −∆fA (n) = ∆fAc (n) ≤ Ainsi, |∆fA (n)| ≤ 1 − e−λ . λ 1 − e−λ . λ Références [1] A. D. Barbour, L. H. Y. Chen, An introduction to Stein’s method, Singapore University Press (2005) [2] A. D. Barbour, L. Holst, S. Janson, Poisson Approximation, Oxford University Press (1992) 9