MAP 311 - X2009 Fonction caractéristique, Vecteur
Transcription
MAP 311 - X2009 Fonction caractéristique, Vecteur
MAP 311 - X2009 Leçon 6 Fonction caractéristique, Vecteur gaussien, Convergence en loi, Théorème de la limite centrale1 1 MAP 311, Chapitre 6 ATTENTION ! COURS 7: reporté au lundi 28 juin de 8h30 à 10h, pour cause de lendemain de fête le 25. Fonction caractéristique2 I Cadre général de vecteurs aléatoires X ∈ Rd . I Une nouvelle fonction pour caractériser la loi. I Fonction à valeurs complexes. I Mathématiquement: transformée de Fourier. I Notation: Pour x, y ∈ Rd , < x, y >= I ∀u ∈ Rd , x → e i<u,x> continue de module 1. Si X vecteur aléatoire à valeurs dans Rd , alors e i<u,X > = cos < u, X > +i sin < u, X > variable aléatoire bornée (en module) par 1. I 2 MAP 311, Chapitre 6, Section 6.1 Pd j=1 xj yj . Définition3 : La fonction caractéristique de X est la fonction φX définie de Rd dans C par Pd φX (u) = E e i<u,X > = E e i j=1 uj Xj = E(cos < u, X >) + i E(sin < u, X >). Si X est à valeurs réelles (cas où d = 1), alors ∀u ∈ R, φX (u) = E(e iuX ). La fonction φX ne dépend que de la loi de X . Cas discret: Loi de X = {(xk , pk ), k ∈ N} . Alors X ∀u ∈ R, φX (u) = pk e iuxk . k∈N X : Ω → N: φX (u) = GX (e iu ), où GX fonction génératrice de X . 3 MAP 311, Chapitre 6, Section 6.1.1 Cas d’une variable aléatoire réelle à densité f : Z ∀u ∈ R, φX (u) = e iux f (x)dx. R Proposition: Soit X un vecteur aléatoire de Rd . Alors la fonction φX est continue, de module inférieur à 1, et φX (0) = 1 ; φX (−u) = φX (u), ∀u ∈ Rd . Preuve de la continuité: Si up → u, alors e i<up ,X > →p.s. e i<u,X > et ces variables sont bornées par 1 en module. On applique le théorème de convergence dominée pour conclure. Fonction caractéristique des variables usuelles4 ? X Variable binomiale B(n, p). φX (u) = GX (e iu ) = (e iu p + 1 − p)n . ? X Variable de Poisson de paramètre θ. φX (u) = GX (e iu ) = e θ(e iu −1) . ? X Variable uniforme sur [a, b]. 1 φX (u) = b−a 4 Z b e iux dx = a MAP 311, Chapitre 6, Section 6.1.2 e iub − e iua . iu(b − a) ? X Variable uniforme sur [−a, a], a > 0. Z a sin ua 1 e iux dx = . φX (u) = 2a −a ua ? X Variable exponentielle de paramètre λ > 0. Z φX (u) = λ +∞ e −λx e iux dx = 0 λ , λ − iu 1 car limx→+∞ | (λ−iu) e −λx+iux | = 0. ? X Variable normale N (0, 1). Proposition: Si X est une variable de loi normale N (0, 1), sa fonction caractéristique vaut u2 φX (u) = e − 2 . Preuve: 2 I Soit g (x) = √1 e −x /2 . Pour tout réel s, 2π Z +∞ Z 1 s 2 /2 +∞ − (x−s)2 2 sx e g (x)dx = √ e e 2 dx = e s /2 . (1) 2π −∞ −∞ I I I On veut montrer que (1) reste vraie pour s complexe. Développement en série entière de s: Z +∞ X s 2n s 2 /2 e sx g (x)dx e = = n n! 2 −∞ n Z +∞ n X s = x n g (x)dx (Théorème de Fubini). n! −∞ n On en déduit: Z +∞ x 2n+1 g (x)dx = 0 ; −∞ Z +∞ −∞ x 2n g (x)dx = (2n)! . 2n n! I Si s est complexe, les développements en série entière (de rayon de convergence infini) des deux membres de (1) sont encore égaux, et donc en particulier pour s = iu, φX (u) = e −u I 2 /2 . Variable normale N (m, σ 2 ). X = m + σ Y , où Y variable normale centrée réduite. Alors (par changement de variable), φX (u) = e ium− I u2 σ2 2 . Remarque. Méthode générale de calcul dans le cas d’une densité: Théorème des résidus. Propriété fondamentale Théorème: La fonction caractéristique φX caractérise la loi de la variable aléatoire X : si deux variables aléatoires ont même fonction caractéristique, elles ont même loi. Preuve technique. Propriété de la transformée de Fourier. Corollaire: Soit X = (X1 , . . . , Xn ). Les composantes Xi sont indépendantes ⇐⇒ pour tous u1 , . . . , un ∈ R, on a φX (u1 , . . . , un ) = E(e i(u1 X1 +···+un Xn ) )= n Y E(e i(uj Xj ) ) (2) j=1 = n Y φXj (uj ). j=1 Intérêt: Condition nécessaire et suffisante pour caractériser l’indépendance de variables aléatoires. Preuve: 1) Condition nécessaire: immédiat. 2) Condition suffisante: I On peut construire des variables aléatoires Xj0 , j ∈ {1, · · · , n} indépendantes, telles que pour tout j, Xj et Xj0 ont même loi. I On en déduit que φX = φX 0 . j j I En utilisant la condition nécessaire, on en déduit que Q φX 0 = nj=1 φXj0 = φX . Ainsi les vecteurs aléatoires X et X 0 ont même loi. I Pour tous boréliens Aj , \ \ P( {Xj ∈ Aj }) = P( {Xj0 ∈ Aj }) j j = Y j I P(Xj0 ∈ Aj }) = Y P(Xj ∈ Aj ). j Nous avons donc montré l’indépendance cherchée. Somme de variables aléatoires indépendantes Proposition: Si X et Y sont deux v.a. indépendantes à valeurs dans Rn , φX +Y (u) = E(e iu(X +Y ) ) = E(e iuX e iuY ) = φX (u)φY (u). Remarque: très utilisée dans la pratique pour trouver la loi d’une somme de v.a.. Exemples: Soient X , Y indépendantes, et Z = X + Y : 1) X et Y suivent des lois normales N (m, σ 2 ) et N (m0 , (σ 0 )2 ), alors Z suit une loi normale N (m + m0 , σ 2 + (σ 0 )2 ). 2) X et Y suivent des lois de Poisson de paramètres θ et θ0 : alors Z suit une loi de Poisson de paramètre θ + θ0 . 3) X et Y suivent des lois binomiales B(n, p) et B(m, p), alors Z suit une loi binomiale B(n + m, p). Fonction caractéristique et moments Proposition: Soit X = (X1 , . . . , Xn ). Si |X |m est intégrable pour un entier m, alors la fonction φX est m fois continûment différentiable sur Rn , et on a pour tout choix des indices i1 , . . . , im : ∂m φX (u) = i m E(e i<u,X > Xi1 Xi2 . . . Xim ). ∂xi1 ∂xi2 . . . ∂xim Application: Calcul des moments E(Xi1 Xi2 . . . Xim ) en fonction des dérivées de φX en 0. Par exemple, si X est à valeurs réelles et de carré intégrable, on a E(X ) = −i φ0X (0) , E(X 2 ) = −φ00X (0). Preuve: I Cas m = 1. I Soit vj = (0, . . . , 0, 1, 0, . . . , 0), le j ième vecteur de base de Rn . I On a φX (u + tvj ) − φX (u) e itXj − 1 = E(e i<u,X > ). t t I I itp Xj Soit une suite tp → 0. Les v.a. (e tp −1) convergent simplement vers iXj , et sont bornées en module par 2|Xj | ∈ L1 . Théorème de convergence dominée ⇒ (3) converge vers i E(e i<u,X > Xj ) quand t → 0. (3) Vecteurs gaussiens Définition: Un vecteur aléatoire X = (X1 , . . . , Xn ) P est appelé un vecteur gaussien si toute combinaison linéaire nj=1 aj Xj suit une loi normale. I I I Cela entraı̂ne que chaque composante suit une loi normale. Si les Xi sont des variables normales indépendantes, le vecteur X est gaussien, car toute combinaison linéaire de v.a. indépendantes de lois normales a une loi normale. Attention: Faux si les v.a. ne sont pas indépendantes: Exemple: X1 de loi N (0, 1). Alors X2 = X1 1|X1 |≤1 − X1 1|X1 |>1 . suit une loi normale mais X = (X1 , X2 ) n’est pas gaussien: 0 < P(X1 + X2 = 0) = P(|X1 | > 1) < 1. Fonction caractéristique d’un vecteur gaussien Proposition: Si X ∈ Rn , si b ∈ R` et A une matrice ` × n, on a ∀u ∈ R` : φAX +b (u) = e i<b,u> φX (t Au). Preuve: t E(e i<u,AX +b> ) = e i<u,b> E(e i<u,AX > ) = e i<u,b> E(e i< Au,X > ). Théorème5 : X ∈ Rn vecteur gaussien ⇐⇒ ∀a ∈ Rn , 1 φX (a) = e i<a,m>− 2 <a,Ca> , (4) où m ∈ Rn et C matrice n × n symétrique positive. Alors m = E(X ) et C matrice de covariance de X . P Preuve: soit Y =< a, X >= nj=1 aj Xj . Alors pour v ∈ R, on a (4) équivalent à v2 φY (v ) = E(e iv Y ) = E(e i<va,X > ) = φX (va) = e iv <a,m>− 2 <a,Ca> . 5 MAP 311, Chapitre 6, Théorème 6.2.3 On en déduit: (4) ⇐⇒ Y suit une loi normale avec E(Y ) =< a, m > , Var (Y ) =< a, Ca > . Corollaire fondamental: Si X est un vecteur gaussien, ses composantes sont indépendantes ⇐⇒ sa matrice de covariance est diagonale. Preuve. 1) =⇒: Evident car alors cov (Xi , Xj ) = 0, ∀ i, j. 2) ⇐=: Si la matrice de covariance est diagonale, on a alors une forme produit de la fonction caractéristique: φX (a1 , · · · , an ) = e i Pn 1 j=1 aj mj − 2 Pn j=1 Cjj aj2 . On en déduit l’indépendance par (2). Ce résultat peut être faux si X n’est pas gaussien: voir Leçon 4. On a construit un couple de v.a. (X1 , X2 ) non indépendantes telles que cov (X1 , X2 ) = 0. Forme réduite Proposition: Soit X vecteur gaussien de moyenne m. Il existe des v.a.r. indépendantes Y1 , . . . , Yn de lois normales N (0, λj ) et une matrice orthogonale A telles que X = m + AY . preuve: CX symétrique positive ⇒ CX = A Λ t A, où A orthogonale et Λ diagonale avec Λjj = λj ≥ 0. On pose Y = t A(X − m). Alors Y vecteur gaussien centré de matrice de covariance la matrice diagonale Λ. En effet, (voir Leçon 4), CY = t A CX A = t A A Λ t A A = Λ. La matrice Λ étant diagonale, les v.a. Yj sont indépendantes de loi N (0, λj ). Une nouvelle notion de convergence: la Convergence en Loi I Description de la “proximité des lois” de variables aléatoires. I Exemple vu en Cours 2: Si Xn suit une loi binomiale B(n, an ) avec nan →n→∞ θ, alors ∀j ∈ N, P(Xn = j) →n→∞ P(Y = j) où Y suit une loi de poisson P(θ). I Remarque: Dans cet exemple, ce sont les probabilités qui convergent, on ne s’intéresse pas aux variables aléatoires elles-même. Définition de la convergence en loi6 Définition: La suite (Xn )n converge en loi vers X , et on L écrit Xn → X , si pour toute fonction continue bornée f , E(f (Xn )) →n→∞ E(f (X )). Exemple. Cas discret: Si les v.a. Xn et X prennent un nombre fini de valeurs {ak , 1 ≤ k ≤ K }, alors la suite (Xn )n converge en loi vers X si et seulement si ∀k ∈ {1, · · · , K }, lim P(Xn = ak ) = P(X = ak ). n 6 MAP 311, chapitre 6, Section 6.3 Exemple: Soit (Xn )n et X des v.a. de lois respectives N (0, σn2 ) et N (0, σ 2 ), où la suite de réels positifs (σn )n converge vers σ > 0. Alors la suite (Xn )n converge en loi vers X . Remarque: cela est vrai même si les v.a. Xn et X ne sont pas définies sur les mêmes espaces de probabilité. Preuve: Soit f continue sur R. Z 1 2 2 e −y /2σn dy E(f (Xn )) = f (y ) √ 2πσn Z 1 2 2 e −y /2σ dy = E(f (X )) → f (y ) √ 2πσ (CV dominée). P L Proposition Si Xn → X , alors Xn → X . P Idée de la preuve. 1) Si f continue, alors f (Xn ) → f (X ). (Poly, prop. 5.1.8). L1 2) Comme de plus f est bornée ⇒ f (Xn ) → f (X ). (CV dominée) Relations entre modes de convergences Convergence presque-sûre I IIIII IIIIII IIIIII si dominée +3 Convergence ( en Moyenne Convergence en Probabilité Convergence en Loi uuuu uuuuuu u u u u v~ uuuu Proposition7 : Soient (Xn )n et X des v.a.r. de fonctions de répartition respectives Fn et F . Alors, L Xn → X ⇐⇒ Fn (t) → F (t) pour tout t en lequel F est continue. Prouvons ⇒. Supposons que F soit continue en t. Soit hε : R → R continue, 1x≤t ≤ hε (x) ≤ 1x≤t+ε . lim sup P(Xn ≤ t) ≤ lim E(hε (Xn )) = E(hε (X )) ≤ F (t + ε) n n ⇒ lim sup P(Xn ≤ t) ≤ F (t) n et de même lim inf P(Xn ≤ t) ≥ F (t − ) = F (t). n 7 MAP 311, Chapitre 6, Proposition 6.3.4 Corollaire: Si la suite Xn ∈ R converge en loi vers X , et si la loi de X a une densité, alors pour tous a < b, P(Xn ∈]a, b]) → P(X ∈]a, b]), quand n → ∞. Preuve: La fonction de répartition de X est alors continue en tout point. (Mais pas nécessairement celles des v.a. Xn ). Théorème de Paul Lévy Figure: Paul Lévy (1886-1971), Polytechnicien, Professeur à l’Ecole Polytechnique à partir de 1920 Théorème8 : Soient (Xn )n des vecteurs aléatoires de Rd . L 1) Si la suite Xn → X , alors φXn converge simplement vers φX . 2) Si les φXn convergent simplement vers une fonction φ continue en 0, alors φ est la fonction caractéristique d’un L vecteur aléatoire X et Xn → X . Preuve de (1): x → e i<u,x> est une fonction continue bornée de x. (2) démonstration difficile. 8 MAP 311, Chapitre 6, Théorème 6.3.5 Intérêt fondamental: Le théorème de la limite centrale9 I I I I I I 9 Soit (Xn )n une suite de variables aléatoires indépendantes, de même loi, de carré intégrable, avec E(X1 ) = m ; Var (X1 ) = σ 2 . Posons Sn Sn = X1 + · · · + Xn ; Mn = . n Mn converge vers m, presque-sûrement et en moyenne. Question: Quelle est la vitesse de convergence? 2 Comme Var (Mn − m) = σn √, il est naturel d’étudier les variables centrées réduites n(Mσn −m) . √ n(Mn −m) ne converge pas en probabilité. Nécessité σ n de la convergence en loi. MAP 311, Chapitre 6 Théorème: Soit (Xn )n une suite de variables aléatoires indépendantes, de même loi, de carré intégrable, E(X1 ) = m ; Var (X1 ) = σ 2 . Alors les variables √ n(Mn − m) (Sn − nm) √ = σ σ n convergent en loi vers une variable aléatoire normale N (0, 1). Ainsi , X1 + · · · + Xn 1 − m ∼n→∞ √ N (0, σ 2 ). n n Caractère universel du théorème: Une somme d’un grand nombre de variables aléatoires indépendantes de même loi, centrées et de carré intégrable, se comporte approximativement comme une variable normale. Théorème énoncé par Laplace (1749-1827) et prouvé rigoureusement par Lyapounov (1901). Preuve de Paul lévy: Xi − m Ui = ; σ n 1 X Sn − nm Yn = √ Ui = √ . n i=1 nσ Par indépendance, n φYn (t) = φU1 /√n (t) . Or t φU1 /√n (t) = E(exp(i √ U1 )) n t 1 t t = E(1 + (i √ )U1 − ( √ )2 U12 + o(( √ )2 )) 2 n n n 2 2 t t = 1− + o( ). 2n n Donc limn φYn (t) = e −t 2 /2 = φX (t) où X ∼ N (0, 1). Applications I Comportement gaussien d’une somme de variables aléatoires indépendantes de carré intégrable, centrées. I Les perturbations aléatoires sont souvent modélisées par des variables aléatoires normales. I Contrôle d’erreur pour la loi des grands nombres. I Vitesse de convergence en √1n dans la méthode de Monte-Carlo, indépendante de la dimension. I Applications en Statistique Inférentielle: observations → prédiction; quantifier l’erreur de prédiction. (Intervalles de confiance: cours 7). Jeu de Roulette I I I I I I Probabilité de gagner une partie au jeu de roulette (du point de vue du casino): 19 ≈ 0, 513. 37 Xn : gain algébrique du casino à la nième partie. P(X1 = 1) = 0, 513 ; P(X1 = −1) = 0, 487. E(X1 ) = 0, 026, σX2 1 = 0, 999. P Gain du casino sur n parties: Gn = ni=1 Xi . Plus petit n tel que P(Gn ≥ 1000) ≥ 12 ? P (Gn ≥ 1000) = P Gn − 0, 026n 1000 − 0, 026n √ √ ≥ nσX1 nσX1 1 ≥ . 2 I I Pour n grand, Gn√−0,026n se comporte approximativement nσX1 comme une loi normale centrée réduite. On en déduit que: 1000 − 0, 026n ≤ 0 ⇐⇒ n ≥ n0 = 38460. I Probabilité d’un gain négatif pour ce nombre n0 de parties? Gn0 − 0, 026n0 −0, 026n0 P(Gn0 < 0) = P < √ √ n0 σX1 n0 σX1 −7 ≈ P(Y < −5, 1) ≈ 1.7 10 ≈ 0, où Y suit une loi N (0, 1).