Filtre de Wiener
Transcription
Filtre de Wiener
Filtre de Wiener Maurice Charbit 26 juin 2002 Chapitre 1 Filtrage de Wiener Le filtrage de Wiener est un problème d’estimation où on dispose d’une connaissance a priori sur le paramètre à estimer. Cette connaissance se présente sous la forme de données probabilistes. Typiquement on veut estimer un signal noyé dans un bruit et on sait que le signal est a priori centré, blanc, etc. En inférence statistique, lorsque l’on prend en compte une connaissance probabiliste sur le paramètre à estimer on parle d’estimation bayesienne. 1.1 Estimation Bayésienne En estimation statistique, l’observation est modélisée par une famille de mesures de probabilité PX|θ (dx, θ) définie sur un espace d’observations {X , B(X )} où θ ∈ Θ représente le paramètre à estimer. Dans l’approche bayésienne, l’espace des paramètres est muni d’une mesure de probabilité Pθ (dθ) qui modélise la connaissance que l’on a a priori sur le paramètre à estimer. On peut alors munir X × Θ de la mesure produit PX|θ (dx, θ)Pθ (dθ)1 . On rappelle qu’un estimateur est une fonction mesurable de X dans Θ. Pour définir l’estimateur bayesien, on introduit une fonction C : Θ × Θ 7→ R+ appelée fonction de coût. L’estimateur bayesien associé à C est la fonction mesurable θ̂ de X 7→ Θ telle que, pour toute fonction mesurable T de X 7→ Θ, on ait : h i E C(θ, θ̂(X)) ≤ E [C(θ, T (X))] (1.1) où E [C(θ, T (X))] = Z X ×Θ C(t, T (x))PX|θ (dx, t)Pθ (dt) Dans le cas où PX|θ (dx, t)Pθ (dt) possède une densité pX|θ (x, θ)pθ (θ) par rapport à la mesure de Lebesgue dans X × Θ, on a : Z E[C(θ, T (X))] = C(t, T (x))pX|θ (x, t)pθ (t)dxdt (1.2) X ×Θ 1 C’est pourquoi nous avons noté la loi de X comme une probabilité conditionnelle de X sachant θ. 1 Un exemple qui relève de l’approche bayesienne est la réception d’un signal en présence de bruit additif. Le “paramètre” à estimer est alors le signal utile. Ainsi en communications numériques et en absence d’interférences entre symboles, l’observation Xk = θ k + W k où Wk est une suite de variables aléatoires indépendantes, gaussiennes, centrées, de variance σ 2 , indépendantes de la suite θk . Concernant la loi a priori on suppose que la suite θk est une suite de variables aléatoires à valeurs dans un alphabet fini de taille M , indépendantes, identiquement distribuées et de loi uniforme. L’observation est la suite X1 , . . . , Xn et le paramètre à estimer la suite θ1 , . . . , θn . On a : ! à n 1 1 X (xk − θk )2 pX1 ,··· ,Xn |θ1 ,··· ,θn (x1 , · · · , xn , θ1 , . . . , θn ) = √ exp − 2 2σ (σ 2π)n k=1 Qn En prenant comme fonction de coût C(θ, α) = 1 − k=1 11(θk = αk ), le risque bayesien est simplement la probabilité d’erreur moyenne. On montre alors que le minimum est obtenu θ̂k (Xk ) (décision symbole par symbole). Notons que, dans cet exemple, il y a autant de paramètres à estimer que d’observations. On comprend bien que, sans a priori sur le paramètre (à savoir l’alphabet fini, la loi de probabilité), l’estimation serait plus difficile. Espérance conditionnelle En règle générale la fonction de coût C(θ, α) est une fonction croissante d’une distance entre θ et α, qui vaut 0 quand θ = α. Un cas particulier important est celui où c(θ, α) = kθ − αk 2 . On alors : h i £ ¤ E kθ − θ̂(X)k2 ≤ E kθ − T (X)k2 Dans ce cas, on montre que θ̂(X) est l’espérance conditionnelle de θ sachant X : Z θ̂ = E [θ|X] : x ∈ X 7→ tPθ|X (dt, x) Θ On rappelle que, dans le cas où la loi conjointe PX|θ (dx, θ)Pθ (dθ) a une densité, l’espérance conditionnelle a pour expression : R tpX|θ (x, t)pθ (t)dt θ̂ : x ∈ X 7→ RΘ Θ pX|θ (x, t)pθ (t)dt Maximum a Posteriori (MAP) Dans le cas où PX|θ (dx, t)Pθ (dt) possède comme densité pX|θ (x, θ)pθ (θ), que la fonction de coût est C(θ, α) = 11(kθ − αk > ²) et que l’on fait tendre ² vers 0, l’estimateur bayesien est donné par : θ̂(X) = arg max pX|θ (X, θ)pθ (θ) θ∈Θ 2 Il est désigné sous le terme d’estimateur du maximum a posteriori en abrégé MAP. En passant au logarithme, on a aussi : ¡ ¢ θ̂(X) = arg max log(pX|θ (X, θ)) + log(pθ (θ)) θ∈Θ En comparant à l’estimateur du maximum de vraisemblance, défini par : θ̂M V (X) = arg max log(pX|θ (X, θ)) θ∈Θ on s’aperçoit que la connaissance a priori, introduite par le terme log(p θ (θ)), intervient comme une pénalisation sur θ d’autant plus forte que pθ (θ) est faible. Estimation linéaire bayesienne Dans le cas où la loi conjointe de (X, θ) est gaussienne on vérifie aisément que l’espérance conditionnelle E [θ|X] est une fonction linéaire de X. Dans le cas général il n’est pas ainsi, ce qui peut rendre difficile sa mise en œuvre numérique. C’est pourquoi, même si l’hypothèse gaussienne n’est pas justifiée, on s’intéresse à l’estimation linéaire bayesien, en particulier dans le cas des modèles linéaires d’observation. Cela débouche sur le filtre de Wiener. 1.2 Estimation bayésienne linéaire en moyenne quadratique Théorème 1.1 (Estimateur linéaire bayesien). Soit une observation X = (X1 , . . . , Xn )T et un paramètre θ. On suppose connus £les moments conjoints ¤de (X, θ) jusqu’à l’ordre deux, à ¤sa£ T , R voir E [θ], £E [X] ainsi que RθX = E (θ − E [θ])(X − E [X]) = E (θ − E [θ])(θ − E [θ])T et θθ ¤ RXX = E (X − E [X])(X − E [X])T . Alors l’estimateur linéaire bayesien de risque quadratique minimum est donné par : −1 θ̂(X) = E [θ] + RθX RXX (X − E [X]) (1.3) Le risque quadratique minimale est donné par R = Tr(R²² ) où −1 R²² = Rθθ − RθX RXX RXθ (1.4) T . et où RXθ = RθX En effet l’approche linéaire bayésienne quadratique consiste à trouver l’estimateur de la forme : θ̂(X) = E [θ] + A(X − E [X]) + a oùh A est une matrice ide dimension p × n et a un vecteur de dimension p qui minimise E (θ − θ̂(X))T (θ − θ̂(X)) . D’après le théorème de projection, la solution est telle que ² = (θ − θ̂(X)) est orthogonal à chacune des variables aléatoires de l’ensemble {1, (X1 − E [X1 ]), . . . , (Xn − E [Xn ])}. Le produit scalaire avec 1 s’écrit : E [(θ − E [θ] − A(X − E [X]) − a)1] = 0 3 qui entraı̂ne que a = 0. Par conséquent, en regroupant les autres produits scalaires sous forme matricielle, on obtient : £ ¤ £ ¤ E (θ − E [θ])(X − E [X])T = AE (X − E [X])(X − E [X])T £ ¤ £ ¤−1 dont on déduit que A = E (θ − E [θ])(X − E [X])T E (X − E [X])(X − E [X])T et donc que l’estimateur cherché a pour expression : −1 θ̂(X) = E [θ] + RθX RXX (X − E [X]) Considérons à présent la matrice de dispersion de cet estimateur définie par : h i R²² = E (θ − θ̂(X))(θ − θ̂(X)))T i h En utilisant l’orthogonalité précédente on note que E (θ − θ̂(X))θ̂(X)T = 0 et donc : h i h³ ´ i R²² = E (θ − θ̂(X))θ T = E (θ − E [θ]) − (θ̂(X) − E [θ]) θT h³ ´ i = E (θ − E [θ]) − (θ̂(X) − E [θ]) (θ − E [θ])T h i = Rθθ − E (θ̂(X) − E [θ])(θ − E [θ])T −1 D’après (1.3), θ̂(X) − E [θ] = RθX RXX (X − E [X]), ce qui montre (1.4). On en déduit la valeur minimale du risque qui s’écrit R = Tr(R²² ). Remarquons ici que la solution nécessite uniquement la connaissance des deux premiers moments du couple (X, θ) mais pas celle de leur loi de probabilité conjointe. Exercice 1.1 Soit le modèle d’observation signal plus bruit Xk = θ+Wk où Wt est un bruit gaussien, centré, blanc, dePvariance n 2 . On suppose que θ est uniforme sur (−θ0 , θ0 ) et que Wk et θ sont indépendants. On note X̄ = n−1 k=1 Xk . σW 1.Montrer que l’estimateur bayesien a pour expression : R θ0 0 θ̂N L (X) = R−θ θ0 up(u)du −θ0 p(u)du ´ ³ 2 2 . où p(u) = (2πσW /n)−1/2 exp − (u−X) 2 2σ /n W 2.Montrer que l’estimateur linéaire bayesien a pour expression : θ̂L (X) = θ02 /3 2 /n X̄ + σW θ02 /3 4 Modèle linéaire On dit que le modèle est linéaire si l’observation est relié au paramètre θ par une expression de la forme : X = Hθ + W (1.5) où H est une matrice connue de dimension n × p et W un bruit centré de matrice de covariance connue RW W (voir l’exemple 1.1 où H = [1, . . . , 1]T ). On peut alors déduire du modèle d’observation les expressions de RXθ et de RXX en fonction de H, Rθθ et RW W puis appliquer le résultat donné par (1.3). Ce qui est résumé dans le résultat suivant. Théorème 1.2 (Gauss-Markov bayesien). Soit le modèle linéaire d’observation défini par X = Hθ + W (1.6) où X est un vecteur de longueur n représentant les observations, W un bruit centré, de matrice de covariance RW W et θ un paramètre de moyenne a priori E [θ] et de covariance Rθθ . On suppose que θ et W ne sont pas corrélés. L’estimateur bayesien linéaire est alors donné par : θ̂(X) = E [θ] + Rθθ H T (HRθθ H T + RW W )−1 (X − HE [θ]) ¡ −1 ¢−1 T −1 −1 = E [θ] + Rθθ + H T RW H RW W (X − HE [θ]) WH (1.7) (1.8) et le risque bayesien R = Tr(R²² ) où : R²² = Rθθ − Rθθ H T (HRθθ H T + RW W )−1 HRθθ ¡ −1 ¢ −1 T −1 + HRW = Rθθ WH (1.9) (1.10) En effet partant de (1.6) un calcul simple montre que RθX = Rθθ H T et RXX = HRθθ H T + RW W . Il suffit ensuite d’appliquer (1.3) et (1.4). Exemple 1.1 : Egalisation L’observation X (voir figure 1.1) est reliée à θ par le modèle linéaire X = Hθ + W où H est connu et où le bruit W est indépendant de θ. C’est la situation rencontrée dans l’égalisation linéaire en communications numériques. H représente alors les coefficients du filtre modélisant le canal de transmission. En pratique la connaissance de H s’obtient, le plus souvent, en envoyant préalablement une séquence dite d’apprentissage. W est le bruit supposé blanc. Et θ est la suite des symboles d’information. La connaissance de H et les hypothèses du second ordre faites permettent de déterminer RθX et RXX . θ W + H X + Fig. 1.1 – Egalisation linéaire. 5 A θ Estimation récursive On souhaite à présent calculer de façon récursive θ̂. D’après (1.7), le calcul de θ̂(X) nécessite la manipulation d’une matrice H de dimension n × p. Si cette matrice doit être construite à partir d’un flux continu de données et que l’on veut effectuer le calcul en temps réel, le fait que la taille de H croı̂t de façon illimitée rend difficile un calcul direct. L’algorithme récursif fournit une solution à ce problème. Il présente en outre l’avantage de pas nécessiter d’inversion matricielle. Il fonctionne par mise à jour de la valeur θ̂ au fur et à mesure que les données arrivent. Indexons par n les éléments qui interviennent. Pour cela posons : ¸ · ¸ · Xn n×1 (1.11) Xn+1 = = 1×1 Xn+1 · ¸ · ¸ Hn n×p Hn+1 = = (1.12) hTn+1 1×p ¸ · RW W,n 0 2 2 (1.13) RW W,n+1 = diag(σ1 , . . . , σn+1 ) = 2 0 σn+1 où nous avons supposé que le bruit Wt est à composantes non corrélées. Les solutions obtenues pour l’estimateur aux étapes n et (n + 1) vérifient : −1 Qn (θ̂n − E [θ]) = HnT RW W,n (Xn − Hn E [θ]) −1 T Qn+1 (θ̂n+1 − E [θ]) = Hn+1 RW W (Xn+1 − Hn+1 E [θ]) ´ ³ −1 −1 T où on a posé Qn = Rθθ + Hn RW W,n Hn . On vérifie aisément en utilisant (1.13) que : −2 Qn+1 = Qn + σn+1 hn+1 hTn+1 −1 Q−1 n+1 = Qn − T −1 Q−1 n hn+1 hn+1 Qn 2 σn+1 + hTn+1 Q−1 n hn+1 (1.14) (1.15) où nous avons utilisé l’identité (A + uuT )−1 = A−1 − A−1 uuT A−1 /(1 + uT A−1 u). Un calcul, sans difficulté, donne : −2 Qn+1 (θ̂n+1 − θ̂n ) = −(Qn+1 − Qn )(θ̂n − E [θ]) + hn+1 σn+1 (Xn+1 − hTn+1 E [θ]) −2 −2 = −σn+1 hn+1 hTn+1 (θ̂n − E [θ]) + hn+1 σn+1 (Xn+1 − hTn+1 E [θ]) −2 = hn+1 σn+1 (Xn+1 − hTn+1 θ̂n ) Par conséquent : θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 E [θ]) −2 −1 où nous avons posé Kn+1 = Q−1 n+1 hn+1 σn+1 . En utilisant (1.15) et en posant Pn = Qn , on en déduit que 2 P h σn+1 Pn hn+1 hTn+1 Pn hn+1 n n+1 2 = Kn+1 σn+1 = Pn+1 hn+1 = Pn hn+1 − 2 2 σn+1 + hTn+1 Pn hn+1 σn+1 + hTn+1 Pn hn+1 6 et donc Kn+1 = 2 σn+1 Pn hn+1 + hTn+1 Pn hn+1 où Pn+1 vérifie (1.15), ce qui donne : Pn+1 Pn hn+1 hTn+1 Pn = Pn − 2 = σn+1 + hTn+1 Pn hn+1 à Pn hn+1 hTn+1 I− 2 σn+1 + hTn+1 Pn hn+1 ! Pn = (I − Kn+1 hTn+1 )P n En définitif, on a l’algorithme récursif : Valeurs initiales : θ̂0 = E [θ] P0 = Rθθ Pour n = {0, 1, . . .} répéter : Kn+1 = 2 σn+1 Pn hn+1 + hTn+1 Pn hn+1 θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 θ̂n ) Pn+1 = (I − Kn+1 hTn+1 )Pn (1.16) (1.17) (1.18) L’équation (1.17) montre que, si l’écart entre la valeur observée xn+1 et la valeur hTn+1 θ̂n est nulle alors on laisse θ̂n inchangé. Sinon on ajuste θ̂n avec un gain Kn . La quantité hTn+1 θ̂n a une interprétation simple : c’est la valeur qu’aurait xn+1 si le paramètre θ̂n calculé précédemment était juste. Un calcul simple montre que la covariance de l’erreur quadratique à l’instant n est donnée par R ²² = Pn . Remarquons que l’algorithme ne nécessite aucune inversion de matrice, que, sans connaissance a priori sur θ, nous pouvons prendre Rθθ → +∞ enfin que le gain dépend de notre confiance dans la donnée observée à l’instant n par l’intermédiaire de σn2 comparé à l’erreur de toutes les observations précédentes et résumée dans Pn−1 . Exercice 1.2 On considère l’observation Xt = A cos(2πf0 t + Φ) + Wt où la fréquence f0 est supposé connue où (A, Φ) est 2 le paramètre inconnu et où Wt est un bruit blanc, centré de variance σw . Montrer que le problème peut se mettre sous forme linéaire de θ = (θ1 , θ2 ). Ecrire l’algorithme récursif donnant l’estimateur linéaire bayesien. On prendra E [θ] = 0 et Rθθ = σθ2 I. 1.3 Filtre de Wiener Un exemple fondamental d’application de l’estimation linéaire bayesienne est le filtrage de Wiener. Dans ce cas l’observation est la suite des p valeurs successives {Xn , Xn−1 · · · , Xn−p+1 } d’un processus aléatoire Xt supposé stationnaire au second ordre, que l’on peut aussi supposé, sans perte de généralité, centré. On note γX (h) sa fonction d’autocovariance. Le paramètre θ est£ une £ ¤ ¤ variable aléatoire, supposée centrée, de variance E θ2 finie. On suppose connues les quantités E θ2 , 7 £ ¤ £ ¤ γX (h) = E [Xt+h Xt ], et γθX (s) = E [θXn−s ] (notons que l’on a 2E [θXt ] ≤ E Xt2 + E θ2 < +∞). Un exemple important est donné par le modèle d’observation bruitée Xt = St + Wt où Wt est un bruit centré, de covariance connue et non corrélé à St . Dans ce contexte, partant de l’observation {Xt ; n − p + 1 ≤ t ≤ n}, il est d’usage de distinguer les 3 cas suivants : – le paramètre à estimer est θ = Sn . Cela signifie que l’on cherche à estimer Sn à partir du passé et du présent. En général on réserve l’expression filtrage à cette situation. – le paramètre à estimer est θ = Sk pour k < n. Cela signifie que l’on effectue l’estimation de Sk après avoir observé Xt au delà de k. Cette opération porte le nom de lissage. – le paramètre à estimer est θ = Sk avec k > n. On parle alors de prédiction. Dans le cadre des processus aléatoires stationnaires du second ordre le théorème de projection garantit l’existence et l’unicité de l’estimateur linéaire bayesien quadratique de θ en fonction de Xn , . . . , Xn−p+1 . Celui-ci est donné par : θ̂ = (θ|Hn,p ) où Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 } Il n’est alors pas étonnant que les équations donnant θ̂ aient des expressions analogues aux équations de Yule-Walker. Notons : θ̂ = ψ1,p Xn + · · · + ψp,p Xn−p+1 = [Xn · · · Xn−p+1 ]ψ p (1.19) Pour déterminer ψ p , il suffit d’exprimer, d’après le théorème de projection, l’orthogonalité entre la variable aléatoire (θ − θ̂) et les variables aléatoires Xn−k pour tout k ∈ {0, . . . , p − 1}. On en déduit que ψ p = [ψ1,p . . . ψp,p ]T est solution de l’équation : Γp ψ p = γ p (1.20) où γX (p − 1) .. γX (1) γ (0) γ (1) . X X .. .. .. .. Γp = . . . . .. . γX (1) γX (p − 1) γX (p − 2) ··· γX (1) γX (0) γX (0) γX (1) ··· et γ p = γθX (0) γθX (1) .. . γθX (p − 1) (1.21) l’équation (1.20) nécessite l’inversion d’une matrice de Toëplitz dont on sait qu’il existe un algorithme rapide dû à Levinson. Remarquons enfin que le problème de la prédiction linéaire d’un processus du second ordre est un cas particulier du problème traité ici lorsque l’on fait θ = X n+1 . Evidemment l’expression (1.19) fait penser à un filtrage linéaire. On notera toutefois que la suite des coefficients ψj,p dépend en règle générale de p. Exercice 1.3 On considère le schéma équivalent (voir figure 1.2) d’une chaı̂ne de communications numériques. L’entrée du filtre de réception a pour expression Xn = an + φ1 an−1 + Wn . On suppose : –que la suite des symboles ak est une suite de variables aléatoires, à valeurs dans {−1, 1}, indépendantes et identiquement distribuées suivant une loi équiprobable (P(ak = 1) = 1/2) 8 a(n) ϕ(n) v(n) W(n) + X(n) + ψ(n) a(n) Fig. 1.2 – Egalisation linéaire en communication numérique. –que le bruit est gaussien, centré et blanc, –et que an et Wn sont indépendants pour toute suite d’instants. On suppose que φ1 6= 1 est connu. 1.Déterminer les expressions de la moyenne et de la fonction de covariance de la suite a n . 2.Déterminer, en fonction de σ 2 et de φ1 , les expressions de la moyenne et de la fonction de covariance de la suite Xn . 3.Déterminer, en fonction de σ 2 et de φ1 , l’expression de la fonction de covariance entre an et Xn . On considère tout d’abord qu’il n’y a pas de bruit (Wn = 0). 4.Montrer que an s’exprime en fonction du processus Xn par une expression de la forme : X ψk Xn−k an = k où ψk est une suite, dépendant de φ1 , dont on déterminera l’expression (indication : on distinguera deux cas suivant que |φ1 | < 1 ou que |φ1 | > 1). 5.On veut approcher la suite ψk par une suite finie de longueur p. Comment doit-on choisir p suivant la position de |φ1 | par rapport à 1 ? On considère maintenant que le bruit Wn est présent et on utilise pour estimer le symbole an−d , un filtre linéaire de longueur p de la forme : ân−d = ψ0 Xn + · · · + ψp−1 Xn−p+1 où d est un délai choisi a priori. 2 6.Déterminer, sous forme d’une équation £ matricielle en ¤ fonction de φ1 et de σ , la suite ψ0 , . . . , ψp−1 (filtre de Wiener) qui minimise J(ψ) = E (an−d − ân−d )2 . On pourra utiliser la notation : 1 φ1 0 ··· 0 .. 0 1 φ 1 . . . . Φ = . . . . . . . . . . . . 0 0 ··· 0 1 φ1 7.Comment se fait le choix de d suivant que |φ1 | > 1 ou |φ1 | < 1. Regardons à présent l’expression du filtre de Wiener lorsque l’on fait tendre p vers l’infini. La solution précédente possède alors une forme limite appelé filtre de Wiener2 qui est encore donnée par θ̂ = (θ|Hn ) où Hn = span{Xt ; t ≤ n} On rappelle en effet que (voir chapitre 3) : 2 Le mot filtre de Wiener est (malheureusement) utilisé avec des significations un peu différentes suivant le contexte. 9 Proposition 1.1. Soit Xn un processus stationnaire au second ordre. On note Hn = span{Xt ; t ≤ n}. Alors pour tout θ ∈ L2 (Ω, F, P) et tout n ∈ Z nous avons : (θ|Hn ) = lim (θ|Hn,p ) p→∞ où Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 }. Supposons à présent qu’il existe une suite ψk causale et stable ( tout t ≥ 0, on ait : +∞ X k=0 Pp P+∞ k=0 |ψk | < +∞) telle que, pour ψk γX (t − k) = γθX (t) (1.22) et posons θ̃ = limp→+∞ t=0 ψt Xn−t P P. pOn vérifie aisément que, pour tout s ≥ 0, le produit scalaire (θ − pt=0 ψt Xn−t , Xn−s ) = γθX (s)− t=0 ψt γX (s−t). Par continuité du produit scalaire, on en déduit P+∞ que (θ − θ̃, Xn−s ) = γθX (s) − k=0 ψk γX (t − k), qui vaut 0 d’après l’équation (1.22). Par conséquent θ̃ = (θ|Hn ). Exercice 1.4 On considère l’observation Xt = Λ + Wt où Wt est un blanc, centré, blanc, de variance 1 et Λ une variable aléatoire centrée, de variance 1, non corrélée à W . 1.Déterminer l’expression de la fonction d’autocovariance γX (h) de Xt ainsi que la fonction de covariance entre Xt et Wt . 2.Déterminer en fonction de n l’expression de : ¯ ¯2 n−1 ¯ ¯ X1 ¯ ¯ Xn−k ¯ E ¯ Λ − ¯ ¯ n k=0 En déduire que Λ ∈ Hn = span{Xt ; t ≤ n}. 3.On suppose que Λ s’écrit : Λ= +∞ X λk Xn−k k=0 Déterminer, en fonction de λk , E [ΛWn−m ] pour m ≥ 0. Conclure. Exercice 1.5 On considère l’observation Xt = St + Wt où St et Wt sont deux processus stationnaires au second ordre, centrés, blancs, non corrélés entre eux. Déterminer le filtre de Wiener. A première vue on pourrait penser résoudre (1.22) en utilisant la transformée de Fourier. Il n’en est rien car le système d’équations n’est vrai que pour t ≥ 0. En ignorant cette contrainte, il n’est alors pas sûr, comme le montre l’exemple suivant, que la solution stable trouvée soit causale. Supposons que Xt soit un processus MA(1) bruité de la forme : Xt = St + φSt−1 + Wt 2 , S un bruit blanc de variance σ 2 et où S et W sont supposés où Wt est un bruit blanc de variance σW t u t S non corrélés pour tout couple (t, u). On souhaite estimer θ = Sn . Un calcul simple montre que : 2 E [Xt+h Xt ] = σS2 δt + φσS2 δt−1 + φσS2 δt+1 + σW δt 10 et E [Sn Xt ] = σS2 δn−t + σS2 φδn−t+1 En considérant à tortPl’expression (1.22) comme une convolution et en passant aux transformées en Z (définies par φ(z) = k ψk z k ), on en déduit que : ψ(z) = z + φz (1 + φz)(z + φ) + ρ 2 /σ 2 . On sait alors que, si le dénominateur de ψ(z) n’a pas de racines sur le cercle unité, il où ρ = σW S existe une solution stable mais qui n’est pas nécessairement causale. Pour qu’il en soit ainsi il faut en plus que ces racines soient à l’extérieur du cercle unité. Ici les deux racines sont réelles et de part et d’autre du cercle unité. Solution de Wiener Reprenons l’équation (1.22) : +∞ X k=0 ψk γX (t − k) − γSX (t) = 0 pour t≥0 On suppose que γX (h) et γSX (h) sont de module sommable. la transformée en Z des deux P∞ En prenant t membres de l’équation (1.22) et en notant [U (z)]+ = t=0 u(t)z la partie causale de u(t), il vient : [ψ(z)fX (z) − fSX (z)]+ = 0 On a vu que, si la densité spectrale d’un processus stationnaire au second ordre était une fraction rationnelle, alors elle se factorise sous la forme fX (z) = B(z)B ∗ (1/z ∗ ) où B(z) a toutes ses zéros et tous ses pôles à l’extérieur du cercle unité. Par conséquent : µ ¶ fSX (z) ∗ ∗ ∗ ∗ [ψ(z)B(z)B (1/z ) − fSX (z)]+ = B (1/z ) ψ(z)B(z) − ∗ =0 B (1/z ∗ ) | {z } C(z) + Comme B(z) a toutes ses zéros et tous ses pôles à l’extérieur du cercle unité, la suite de module sommable qui lui est associée, est causale tandis que la suite, de module sommable associée à B ∗ (1/z ∗ ), est une suite anticausale. Par conséquent pour que la convolution associée à B ∗ (1/z ∗ )C(z) ait sa partie causale nulle, il faut que la partie causale [C(z)]+ soit nulle. Ce qui donne : · ¸ fSX (z) ψ(z)B(z) − ∗ =0 (1.23) B (1/z ∗ ) + En notant que ψ(z)B(z) esti associée à une suite causale, on en déduit que la relation (1.23) est vérifiée h fSX (z) si et seulement si B ∗ (1/z ∗ ) = ψ(z)B(z) et donc si : + · ¸ fSX (z) 1 ψ(z) = B(z) B ∗ (1/z ∗ ) + L’équation (1.24) est la solution du filtre de Wiener. 11 (1.24) Exercice 1.6. AR(1) causal bruité On considère l’observation Xt = St + Wt où Wt est un processus stationnaire au second ordre, centré, blanc et où St est un processus AR(1) causal, non corrélé à Wt . Déterminer le filtre de Wiener qui estime St . Exercice 1.7. MA(1) bruité 2 On considère le processus défini Xt = Yt + Wt où Yt = Zt + θZt−1 . Zt est un bruit blanc, centré, de variance σZ , 2 Wt un bruit blanc, centré, de variance σW . On suppose que Zt et Wt ne sont pas corrélés et que −1 < θ < 1. 1.Déterminer les expressions de γX (h), γY X (h) et γZX (h). 2.Déterminer le filtre de Wiener qui estime Yn à partir de Xt , t ≤ n. 3.Déterminer le filtre de Wiener qui estime Sn à partir de Xt , t ≤ n. 12 Chapitre 2 Algorithme LMS 2.1 Notion de Filtrage adaptatif Nous avons vu que l’estimation linéaire bayesienne quadratique débouchait, dans le cas des signaux stationnaires, sur le filtre de Wiener dont l’expression dépend essentiellement des covariances entre le paramètre estimé et l’observation. Dans le cas d’une estimation à partir d’un nombre fini d’observations présente et passées, son expression est donnée par l’équation (1.20) que nous rappelons (et où nous avons omis l’indice p relatif à l’ordre du filtre ψ) : Γψ ? = γ (2.1) Γ représente la matrice de covariance de l’observation et γ la covariance entre l’observation et le paramètre à estimer. Le problème semble donc complètement résolu. Il n’en est rien en pratique car, d’une part les quantités Γ et γ ne sont pas connues, d’autre part l’hypothèse de stationnarité n’est jamais vérifiée à long terme. Il faut donc les estimer au fur et à mesure que les observations arrivent. Cela conduit à la recherche de ψ par un algorithme adaptatif de la forme : ψ n = ψ n−1 + ∆n Le terme adaptatif sous-entend en général les trois propriétés suivantes : – l’algorithme converge (dans un sens à préciser vu le caractère aléatoire) vers la solution cherchée, – le traitement se fait en temps réel sans intervention humaine, – l’algorithme possède une capacité de poursuite en présence de non stationnarité. Les algorithmes de gradient stochastique, souvent désigné par le sigle LMS (Least Mean Squares), entre dans cette catégorie. Une autre famille est celle des algorithmes récursifs des moindres carrés (RLS pour Recursive Least Squares). Dans ce chapitre nous nous intéressons uniquement aux algorithmes de la famille dit du gradient stochastique qui ont pour expression : ¯ ∂J ¯¯ (2.2) ψ n = ψ n−1 − λ ∂ψ ¯ ψ=ψn−1 avec λ > 0. n désigne l’instant présent de mise à jour et J : ψ 7→ R+ une fonction de coût que l’on veut minimiser. L’idée contenue dans (2.2) est que cette minimisation peut s’obtenir en se déplaçant dans un sens opposé (λ > 0) au sens du gradient, d’où le nom de l’algorithme. 13 Annulation d’écho En annulation d’écho on dispose de deux suites d’observations (X, Y ) supposées stationnaires. Le paramètre θn à estimer est supposé non corrélé à la suite Xn mais corrélé à l’observation Yn par la relation Yn = θ+Bn où Bn représente l’écho produit par Xn . Dans de nombreuses situations pratiques, l’écho Bn apparaı̂t comme un simple filtrage linéaire de Xn . En résumé on a : ( Yn = θ + B n Bn = h n ? X n Partant de là, on choisit d’estimer θ par une expression de la forme : θ̂ = Yn − ψ T Xn (2.3) où£ Xn = [Xn . . .¤ Xn−p+1 ] et où ψ est déterminé de façon à minimiser K(ψ) = E (θ − (Yn − ψ T Xn ))2 . En développant K(ψ) on obtient : £ ¤ £ ¤ £ ¤ K(ψ) = E θ2 − 2E [θYn ] − 2E θXTn ψ + E (Yn − ψ T Xn )2 £ ¤ Comme θ et X ne sont pas corrélés et que 2E θT Y ne dépend pas de ψ, la minimisation de K(ψ) par rapport à ψ se ramène à la minimisation de la fonction : £ ¤ J(ψ) = E (Yn − ψ T Xn )2 Dans le cas où Xn et Yn sont stationnaires et conjointement stationnaires, la solution ψ ? vérifie : Γψ ? = γ £ ¤ T où Γ = E Xn Xn et γ = E [Yn Xn ]. Elle dépend uniquement des statistiques au second ordre de (X, Y ) qui peuvent alors être estimées à partir des observations. Exemple 2.1 : Téléphonie main-libre En “téléphonie main-libre”, le signal sortant du haut-parleur (figure 2.1), après un trajet acoustique dépendant du lieu où on se trouve, entre dans le microphone et provoque un écho indésirable. En reprenant les notations précédentes, θ représente le signal dû au locuteur devant le microphone, Y = θ + B représente le signal à l’entrée du microphone, et X le signal sortant du haut-parleur. Le fait que l’on puisse modéliser le trajet acoustique par un filtre linéaire, dont la réponse impulsionnelle inconnue peut comporter plusieurs centaines de coefficients, justifie un traitement linéaire de la forme θ̂ = Y − ψ T X. Généralement le signal θ représente une gêne dans l’adaptation du filtre surtout si les hypothèses d’indépendance sont mal vérifiées. C’est pourquoi on utilise souvent un détecteur d’activité vocale qui sert à arrêter l’adaptation du filtre (mais pas son utilisation) quand le signal θ est présent devant le microphone. L’adaptation se fait alors quand θ = 0, ce qui correspond précisément à la minimisation du terme i h T 2 E (Y − ψ X) . Exemple 2.2 : Canal full-duplex On dit qu’un système de transmission est full-duplex si un seul canal est utilisé pour les deux sens de communication. Cette situation se rencontre en transmission de données sur le canal téléphonique. Le signal présent sur le canal est alors la somme du signal provenant de l’abonné distant et d’un écho, dû au signal émis par l’abonné local. Avec les notations précédentes, θ est le signal distant, Y = X + B le signal reçu sur le canal et X le signal local. En pratique on peut modéliser B comme un filtrage linéaire de X et supposer que X et θ ne sont pas corrélés. L’annulateur d’écho estime θ par une expression de la forme θ̂ = Y − ψ T X. 14 Y θ θ + − B ψ Canal X Fig. 2.1 – Annulation d’écho. X distant ψ local − θ Y θ + Fig. 2.2 – Transmission full-duplex. 2.2 2.2.1 Présentation de l’algorithme LMS Algorithme du gradient déterministe £ ¤ Revenons au problème de la résolution de l’équation Γψ ? = γ où Γ = E Xn XTn et γ = E [Yn Xn ]. Rappelons que l’on cherche une suite de vecteurs ψ n qui converge vers le filtre ψ ? qui minimise la fonction de coût : £ ¤ J(ψ) = E (Yn − XTn ψ)2 £ ¤ £ ¤ £ ¤ = E Yn2 − 2E Yn XTn ψ + ψ T E Xn XTn ψ £ ¤ = E Yn2 − 2γ T ψ + ψ T Γψ On a : Γψ ? = γ et £ ¤ £ ¤ Jmin = E Yn2 − γ T ψ ? = E Yn2 − ψ T? Γψ ? et par conséquent, si on pose V = ψ − ψ ? , on a : J(ψ) = Jmin + V T ΓV (2.4) Le terme V T ΓV a une interprétation simple : il mesure l’excès d’erreur minimale par rapport à J min . L’algorithme du gradient consiste en une mise à jour de la quantité ψ n , obtenue à l’instant présent n, au moyen de la relation de récurrence : ¯ ∂J ¯¯ ψ n = ψ n−1 − λ ∂ψ ¯ψ=ψn−1 15 où λ est un nombre positif. Calculant l’expression du gradient de J(ψ) puis portant le résultat dans l’équation précédente, nous obtenons : ψ n = ψ n−1 + µ(γ − Γψ n−1 ) (2.5) où µ = 2λ > 0. On note que l’algorithme ne nécessite pas d’inversion de matrice. On en déduit : Vn = (I − µΓ)Vn−1 où Vn = ψ n − ψ ? Remarquons que Vn décroı̂t comme (1 − µλi )n = e−n/n0 où n0 = −1/ log(1 − µλi ) ≈ 1/µλi . Par conséquent les “modes” les moins puissants sont ceux qui mettent le plus de temps à s’annuler. Exemple 2.3 Nous avons reporté à la figure 2.3 l’évolution de l’écart quadratique entre ψ n et ψ ? au cours de N = 1000 itérations, pour Γ = diag([1 0.01]) et ψ ? = [1 1]T . Nous observons que la courbe comporte deux parties qui correspondent aux réductions successives des modes correspondant aux deux valeurs propres de Γ, de la plus grande à la plus petite. Ce résultat est très général. Ce qui joue un rôle déterminant dans la rapidité de décroissance des modes associés à chaque valeur propre est le produit µλ i . La rapidité est d’autant plus grande que µλi est plus proche de 2 (par valeur inférieure). Par conséquent, pour la valeur propre 1, le choix de µ = 1 est bon ; par contre, pour la valeur propre 0,004, il faudrait une valeur de µ bien plus grande pour accélérer la descente. Malheureusement, pour éviter que l’algorithme diverge, on ne peut pas toucher à µ. 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0 200 400 600 800 1000 Fig. 2.3 – Evolution de l’écart quadratique entre la vraie valeur de ψ ? et la valeur ψ n , en fonction du nombre de pas d’itérations de l’algorithme du gradient déterministe. Exercice 2.1. Convergence de l’algorithme du gradient On se propose d’étudier l’existence d’une solution limite quand n tend vers l’infini de l’équation récurrente 2.5. On note ψ ? le filtre de Wiener, c’est-à-dire le filtre qui vérifie Γψ ? = γ. On suppose Γ > 0 et on note Γ = QT λQ la décomposition propre de Γ où Q est unitaire et où Λ = diag(λ1 , . . . , λp ). On pose Wn = Q(ψ n − ψ ? ). 1.Déterminer, en fonction de ψ 0 et de la matrice An = I − µn Γ, l’expression de la solution ψ n de l’équation (2.5) dans laquelle on a remplacé µ par µn : ψ n = ψ n−1 + µn (γ − Γψ n−1 ) 16 2.Montrer que Wn = (I − µn Λ)Wn−1 . 3.Montrer que, si µn = µ vérifie la double inégalité : 0<µ< 2 maxi (λi ) alors ψ n converge vers ψ ? . Comment se traduit la dispersion des valeurs propres de Γ (traiter le cas p = 2) en terme de décroissance. 4.On suppose à présent que µn tend vers 0. Dans ce cas à partir d’un certain rang |1 − µk λj | = 1 − µk λj . Montrer : n X log(1 − µk λj ) + Cte log(|wn (j)|) = k=1 P En notant que log(1 − x) ≤ −x, déduire que, si k µk = +∞ (par exemple µn = 1/n), alors ψ n converge vers ψ ? . On remarque que, P si x ∈ (0, x0 ) avec x0 < 1, alors il existe ρ tel que −ρx ≤ log(1 − x). En déduire que la condition k µk = +∞ est aussi nécessaire. En résumé l’algorithme du gradient déterministe converge, à condition que µ n soit constantPmais suffisamment faible ou que µn tende vers 0, mais suffisamment lentement pour que la série n µn diverge. Lorsque le gradient déterministe est remplacé par une expression mettant en jeu des quantités aléatoires, l’analyse est plus difficile. Pour commencer nous allons considérer un exemple. 2.2.2 Exemple introductif : estimation de la moyenne L’estimation de la moyenne d’un processus stationnaire au second ordre va nous donner un exemple d’algorithme adaptatif qui permet d’illustrer la plupart des problèmes rencontrés en filtrage adaptatif. Considérons le processus aléatoire Xt stationnaire au second ordre de moyenne µ = E [Xt ]. Pour estimer µ, on peut utiliser l’estimateur empirique : µ̂n = 1 (X1 + · · · + Xn ) n (2.6) qui peut se mettre sous la forme récursive (2.2) : µ̂n = µ̂n−1 + λn (Xn − µ̂n−1 ) (2.7) où λn = 1/n (avec comme condition initiale µ̂0 = 0). D’après la loi des grands nombres, l’acquisition automatique est garantit puisque µ̂n converge presque sûrement vers le paramètre cherché : µ̂n →p.s. µ Pour étudier la capacité de poursuite, considérons un changement soudain de la moyenne à l’instant T de la forme E [Xt ] = µ1 11(t ≤ T ) + µ2 11(t > T ). Nous avons alors pour n > T : µ̂n − µ2 = et donc µ̂n − µ2 = T n (µ1 T n 1X 1 X (Xt − µ2 ) + (Xt − µ2 ) n n t=1 t=T +1 − µ2 ) + e où T n 1X 1 X e= (Xt − µ1 ) + (Xt − µ2 ) n n t=1 t=T +1 17 est une variable aléatoire centrée. Il s’en suit que : £ ¤ ²2 = E (µ̂n − µ2 )2 ≥ T 2 (µ1 − µ2 )2 /n2 Si on veut atteindre une précision de ²2 il faut donc prendre n > T |µ1 − µ2 |/². On en déduit que, plus T est grand, plus n devra être grand pour atteindre un niveau proche de µ 2 . La raison est que le pas d’adaptation λn = 1/n (voir équation (2.7)) tend vers 0 quand n tend vers l’infini. L’algorithme perd donc sa capacité de poursuite. Ce résultat est général : quand n tend vers l’infini, la propriété de convergence nécessite que µn tende vers 0 tandis que la capacité de poursuite veut que µn reste suffisamment grand. Pour éviter la perte de la capacité de poursuite, l’idée est alors de prendre comme algorithme : µ̂n = µ̂n−1 + λ(Xn − µn−1 ) (2.8) où λ est très petit mais sans être nul. De façon analogue nous allons retrouver un pas constant petit dans l’algorithme LMS. Voyons comment l’algorithme (2.8) se comporte aux niveaux de l’acquisition d’une part et de la capacité de poursuite d’autre part. Un calcul simple donne : ¡ ¢ µ̂n = λ Xn + · · · + (1 − λ)j Xn−j + · · · + (1 − λ)n−1 X1 Il s’en suit que, quand n croı̂t et si 0 < λ < 2, les termes du passé sont “oubliés” de façon exponentielle avec le taux (1 − λ). D’où une capacité à mieux prendre en compte les propriétés statistiques des échantillons récents. Malheureusement la propriété de convergence n’est plus assurée. En effet en supposant que Xt est un processus aléatoire de moyenne µ et de covariance γX (h), on obtient : £ ¤ 1 − (1 − λ)2n E (µ̂n − µ)2 = γX (0)λ + µ2 (1 − λ)2n 2−λ Quand n tend vers l’infini, on a : £ ¤ λ E (µ̂n − µ)2 ∼ γX (0) 2−λ La propriété d’acquisition est perdue. Heureusement l’écart quadratique asymptotique peut être rendue aussi faible que l’on veut, en prenant : λ¿2 En conclusion il en ressort que, plus le pas d’adaptation est petit, meilleure est la capacité d’acquisition mais pire est la capacité de poursuite. Il faut donc envisager un certain compromis entre ces deux exigences. 2.2.3 Algorithme du gradient stochastique Reprenons l’équation (2.5), donnant la récursion de l’algorithme du gradient. On peut encore écrire : ¤ £ ψ n = ψ n−1 + µ(E [Yn Xn ] − E Xn XTn ψ n−1 ) £ ¤ = ψ n−1 + µE Xn (Yn − XTn ψ n−1 ) 18 Le terme en = Yn − XTn ψ n−1 a une signification particuluière : il représente l’écart entre la valeur calculée avec la coefficients ψ n−1 à l’étape précédente et la valeur observée en absence de bruit. L’algorithme LMS (Least Mean Square) ou algorithme du gradient stochastique, imaginé par Widrow, fournit une solution adaptative simple, en remplaçant E [Xn en ] par sa valeur “instantanée”. Ce qui conduit à l’algorithme suivant : Valeurs initiales : ψ 0 = 0, Pour n = {1, . . .} répéter : • e(n) = Yn − XTn ψ n−1 • ψ n = ψ n−1 + µXn en Concernant la convergence de l’algorithme, deux questions se posent : – Existe-t-il des valeurs initiales ψ0 et des valeurs de µ qui assurent la convergence de l’algorithme vers le filtre de Wiener (dans un sens qui reste à préciser puisque ψn est aléatoire) ? – Dans le cas de l’existence de plusieurs minima, existe-t-il une condition pratique portant sur le choix de la valeur initiale qui garantisse la convergence vers le minimum global ? Ces problèmes sont difficiles à résoudre car la suppression de l’espérance mathématique dans l’équation récurrente rend l’analyse très complexe. Dans cette brève introduction de l’algorithme LMS, nous nous limitons à l’étude de la convergence de E [ψ n ] dans le cas où les entrées sont indépendantes. 2.3 Algorithme LMS à entrées indépendantes Reprenons l’équation d’adaption du LMS où nous remplaçons µ par µn de façon à étudier la convergence et la capacité de poursuite : ψ n = ψ n−1 + µn Xn (Yn − XTn ψ n−1 ) Nous supposons que l’hypothèse suivante : la suite Xn est i.i.d. (H) est vérifiée. Cette hypothèse est irréaliste puisque Xn et Xn−1 partagent plusieurs coordonnées en commun. Néanmoins elle est largement utilisée dans la littérature pour mettre en évidence le comportement de l’algorithme en fonction du choix de µn . Comportement de E [ψ n ] Notons Vn = ψ n − ψ ? l’écart entre le filtre obtenu à l’instant n et la solution de Wiener. On a : Vn = (I − µn Xn XTn )Vn−1 + µn Xn (Yn − XTn ψ ? ) Notons que : £ ¤ E Xn (Yn − XTn ψ) = γ − Γψ ? = 0 19 (2.9) Par conséquent : En utilisant l’hypothèse H, on a : ¤ £ E [Vn ] = E (I − µn Xn XTn )Vn−1 E [Vn ] = (I − µn Γ)E [Vn−1 ] Et donc, d’après les résultats obtenus pour l’algorithme du gradient déterministe, si µ n = µ < 2/ maxi λi , alors : E [ψ n ] → ψ Désajustement Dans l’équation (2.4), le terme V T ΓV mesure l’écart introduit par l’algorithme du gradient par rapport à l’erreur minimale. Ici Vn est aléatoire. Ce qui conduit aux définitions de l’excès d’erreur quadratique minimale : ¤ £ ²n = E [J(ψ n ) − Jmin ] = E VnT ΓVn et du désajustement Mn = On a ²n Jmin £ T ¤ £ ¤ £ ¤ T T ²n = E Vn−1 ΓVn−1 = E Tr(ΓVn−1 Vn−1 ) = Tr(ΓE Vn−1 Vn−1 ) En utilisant l’hypothèse H et certaines approximations, on obtient Mn ≈ µTr(Γ). 2.4 Résultat numérique en annulation d’écho Le signal utile Sn est nul et le signal comportant l’écho est Yn = 0 + hn ? Xn où hn est le filtre de réponse impulsionnelle finie {1 0,3 −0,1 0,2} supposé inconnu et Xn un bruit blanc. La longueur du filtre d’annulation d’écho est 20. Les valeurs en décibels du carré de l’erreur, obtenues par l’algorithme LMS et intégrées avec un facteur d’oubli de 0,2, sont reportées figure 2.4 en fonction du nombre de pas d’algorithme. Les valeurs de µ = 0,02 et µ = 0,05 conduisent à la convergence. On observe que la vitesse de convergence la plus faible correspond à la valeur de µ la plus faible. . Dans le cas où on est en présence d’une activité vocale devant le microphone, le signal S n produit par l’utilisateur du microphone intervient comme un bruit qui s’ajoute à l’écho. Cela rend plus difficile l’adaptation de l’algorithme et ce d’autant plus que le signal Sn est relativement puissant par rapport à l’écho. Nous avons effectué la simulation suivante : le signal d’écho est un bruit blanc filtré. La figure 2.5 montre les résultats obtenus : l’annulation est satisfaisante au bout d’environ 200 échantillons. En pratique on adopte souvent, pour fixer la valeur de µ, la procédure suivante : on augmente progressivement µ jusqu’à ce que l’algorithme diverge puis ensuite on réduit la valeur obtenue d’au moins 10%. Une fois la valeur de µ fixée, on présente les résultats sous la forme de l’évolution du carré de l’écart instantané p(n) = e2 (n). Toutefois comme la forme de p(n) est souvent très chaotique, il est d’usage de lisser p(n) en moyennant sur N valeurs consécutives. 20 0 −50 µ =0,02 −100 −150 −200 −250 µ =0,05 −300 −350 0 500 1000 1500 2000 2500 3000 Fig. 2.4 – Algorithme LMS : évolution de l’écart quadratique, en dB, en fonction du nombre de pas de l’algorithme, pour deux valeurs du pas µ = 0,02 et µ = 0,05. L’écho est un bruit blanc filtré par le filtre de réponse impulsionnelle finie {1 ; 0,3 ; −0,1 ; 0,2}. 1 0 −1 3500 5 4000 4500 5000 5500 6000 6500 4000 4500 5000 5500 6000 6500 4000 4500 5000 5500 6000 6500 0 −5 3500 1 0 −1 −2 3500 Fig. 2.5 – Algorithme LMS : Courbe du haut : signal de parole sans l’écho ; Courbe du milieu : signal de parole auquel s’ajoute l’écho, qui est un bruit blanc filtré par le filtre de réponse impulsionnelle finie {1 ; 0,3 ; −0,1 ; 0,2} ; Courbe du bas : signal après traitement. 21 Il apparaı̂t à la convergence un désajustement dû au fait que µ 6= 0. Ce que l’on peut retenir est que le désajustement est d’autant plus petit que µ est petit. En contrepartie la vitesse de descente est plus faible. Il y a donc un compromis à trouver entre ces deux exigences. Les exemples qui suivent mettent en évidence ces comportements. Exercice 2.2 Cette exercice est la suite de l’exercice 1.3. On suppose à présent que φ1 varie lentement et on souhaite effectuer un filtrage adaptatif de Xn . On note ψ(n) = {ψk (n)}{k=0,...,p−1} le “filtre” égaliseur obtenu à l’instant n. Déterminer l’algorithme LMS d’adaptation de ψ(n) basé sur la minimisation de J(ψ). Exercice 2.3 Soit Zn un processus aléatoire i.i.d., centré de variance 1 et soit le processus Xn stationnaire défini par Xn = (1 − α)Zn + αXn−1 où 0 < α < 1. £ ¤ 1.Montrer que E Xn2 = (1 − α)/(1 + α). 2.On note ψ le prédicteur optimal d’ordre 1 défini par Yn = ψX £ n−1 ¤ et ẽn = Xn − Yn son erreur associée. Déterminer l’expression de ψ ainsi que l’écart quadratique E ẽ2n associée. 3.Ecrire les équations de l’algorithme LMS donnant ψ̂n . 4.On note Vn = ψ̂n − ψ. Montrer que ẽn est indépendant de Xn−1 . Vn−1 est-il indépendant de ẽn ? Vn−1 est-il indépendant de Xn−1 ? Que peut-on dire si α est petit ? Exercice 2.4. Suppression d’un brouilleur sinusoı̈dal On suppose que l’on observe le signal Yt = A cos(2πf0 t + Φ) + St où f0 et une fréquence connue, A et φ des paramètres inconnus et St un signal utile. On suppose que A et Ψ peuvent être considérés comme aléatoires indépendants de St . D’où l’idée de soustraire à Xt un mélange pondéré de sinusoı̈des de fréquence f0 décalées. En déduire un algorithme LMS qui annule le brouilleur sinusoı̈dal. 22