Filtre de Wiener

Transcription

Filtre de Wiener
Filtre de Wiener
Maurice Charbit
26 juin 2002
Chapitre 1
Filtrage de Wiener
Le filtrage de Wiener est un problème d’estimation où on dispose d’une connaissance a priori
sur le paramètre à estimer. Cette connaissance se présente sous la forme de données probabilistes.
Typiquement on veut estimer un signal noyé dans un bruit et on sait que le signal est a priori centré,
blanc, etc. En inférence statistique, lorsque l’on prend en compte une connaissance probabiliste sur le
paramètre à estimer on parle d’estimation bayesienne.
1.1
Estimation Bayésienne
En estimation statistique, l’observation est modélisée par une famille de mesures de probabilité
PX|θ (dx, θ) définie sur un espace d’observations {X , B(X )} où θ ∈ Θ représente le paramètre à
estimer. Dans l’approche bayésienne, l’espace des paramètres est muni d’une mesure de probabilité
Pθ (dθ) qui modélise la connaissance que l’on a a priori sur le paramètre à estimer. On peut alors
munir X × Θ de la mesure produit PX|θ (dx, θ)Pθ (dθ)1 . On rappelle qu’un estimateur est une fonction
mesurable de X dans Θ.
Pour définir l’estimateur bayesien, on introduit une fonction C : Θ × Θ 7→ R+ appelée fonction de
coût. L’estimateur bayesien associé à C est la fonction mesurable θ̂ de X 7→ Θ telle que, pour toute
fonction mesurable T de X 7→ Θ, on ait :
h
i
E C(θ, θ̂(X)) ≤ E [C(θ, T (X))]
(1.1)
où
E [C(θ, T (X))] =
Z
X ×Θ
C(t, T (x))PX|θ (dx, t)Pθ (dt)
Dans le cas où PX|θ (dx, t)Pθ (dt) possède une densité pX|θ (x, θ)pθ (θ) par rapport à la mesure de Lebesgue dans X × Θ, on a :
Z
E[C(θ, T (X))] =
C(t, T (x))pX|θ (x, t)pθ (t)dxdt
(1.2)
X ×Θ
1
C’est pourquoi nous avons noté la loi de X comme une probabilité conditionnelle de X sachant θ.
1
Un exemple qui relève de l’approche bayesienne est la réception d’un signal en présence de bruit additif.
Le “paramètre” à estimer est alors le signal utile. Ainsi en communications numériques et en absence
d’interférences entre symboles, l’observation
Xk = θ k + W k
où Wk est une suite de variables aléatoires indépendantes, gaussiennes, centrées, de variance σ 2 ,
indépendantes de la suite θk . Concernant la loi a priori on suppose que la suite θk est une suite
de variables aléatoires à valeurs dans un alphabet fini de taille M , indépendantes, identiquement
distribuées et de loi uniforme. L’observation est la suite X1 , . . . , Xn et le paramètre à estimer la suite
θ1 , . . . , θn . On a :
!
Ã
n
1
1 X
(xk − θk )2
pX1 ,··· ,Xn |θ1 ,··· ,θn (x1 , · · · , xn , θ1 , . . . , θn ) = √
exp − 2
2σ
(σ 2π)n
k=1
Qn
En prenant comme fonction de coût C(θ, α) = 1 − k=1 11(θk = αk ), le risque bayesien est simplement
la probabilité d’erreur moyenne. On montre alors que le minimum est obtenu θ̂k (Xk ) (décision symbole
par symbole). Notons que, dans cet exemple, il y a autant de paramètres à estimer que d’observations.
On comprend bien que, sans a priori sur le paramètre (à savoir l’alphabet fini, la loi de probabilité),
l’estimation serait plus difficile.
Espérance conditionnelle
En règle générale la fonction de coût C(θ, α) est une fonction croissante d’une distance entre θ et
α, qui vaut 0 quand θ = α. Un cas particulier important est celui où c(θ, α) = kθ − αk 2 . On alors :
h
i
£
¤
E kθ − θ̂(X)k2 ≤ E kθ − T (X)k2
Dans ce cas, on montre que θ̂(X) est l’espérance conditionnelle de θ sachant X :
Z
θ̂ = E [θ|X] : x ∈ X 7→
tPθ|X (dt, x)
Θ
On rappelle que, dans le cas où la loi conjointe PX|θ (dx, θ)Pθ (dθ) a une densité, l’espérance conditionnelle a pour expression :
R
tpX|θ (x, t)pθ (t)dt
θ̂ : x ∈ X 7→ RΘ
Θ pX|θ (x, t)pθ (t)dt
Maximum a Posteriori (MAP)
Dans le cas où PX|θ (dx, t)Pθ (dt) possède comme densité pX|θ (x, θ)pθ (θ), que la fonction de coût
est C(θ, α) = 11(kθ − αk > ²) et que l’on fait tendre ² vers 0, l’estimateur bayesien est donné par :
θ̂(X) = arg max pX|θ (X, θ)pθ (θ)
θ∈Θ
2
Il est désigné sous le terme d’estimateur du maximum a posteriori en abrégé MAP. En passant au
logarithme, on a aussi :
¡
¢
θ̂(X) = arg max log(pX|θ (X, θ)) + log(pθ (θ))
θ∈Θ
En comparant à l’estimateur du maximum de vraisemblance, défini par :
θ̂M V (X) = arg max log(pX|θ (X, θ))
θ∈Θ
on s’aperçoit que la connaissance a priori, introduite par le terme log(p θ (θ)), intervient comme une
pénalisation sur θ d’autant plus forte que pθ (θ) est faible.
Estimation linéaire bayesienne
Dans le cas où la loi conjointe de (X, θ) est gaussienne on vérifie aisément que l’espérance
conditionnelle E [θ|X] est une fonction linéaire de X. Dans le cas général il n’est pas ainsi, ce qui peut
rendre difficile sa mise en œuvre numérique. C’est pourquoi, même si l’hypothèse gaussienne n’est pas
justifiée, on s’intéresse à l’estimation linéaire bayesien, en particulier dans le cas des modèles linéaires
d’observation. Cela débouche sur le filtre de Wiener.
1.2
Estimation bayésienne linéaire en moyenne quadratique
Théorème 1.1 (Estimateur linéaire bayesien). Soit une observation X = (X1 , . . . , Xn )T et
un paramètre θ. On suppose connus £les moments conjoints ¤de (X, θ) jusqu’à
l’ordre deux, à ¤sa£
T , R
voir E [θ], £E [X] ainsi que RθX = E
(θ
−
E
[θ])(X
−
E
[X])
=
E
(θ
−
E
[θ])(θ − E [θ])T et
θθ
¤
RXX = E (X − E [X])(X − E [X])T . Alors l’estimateur linéaire bayesien de risque quadratique minimum est donné par :
−1
θ̂(X) = E [θ] + RθX RXX
(X − E [X])
(1.3)
Le risque quadratique minimale est donné par R = Tr(R²² ) où
−1
R²² = Rθθ − RθX RXX
RXθ
(1.4)
T .
et où RXθ = RθX
En effet l’approche linéaire bayésienne quadratique consiste à trouver l’estimateur de la forme :
θ̂(X) = E [θ] + A(X − E [X]) + a
oùh A est une matrice ide dimension p × n et a un vecteur de dimension p qui minimise
E (θ − θ̂(X))T (θ − θ̂(X)) .
D’après le théorème de projection, la solution est telle que ² = (θ − θ̂(X)) est orthogonal à chacune
des variables aléatoires de l’ensemble {1, (X1 − E [X1 ]), . . . , (Xn − E [Xn ])}. Le produit scalaire avec 1
s’écrit :
E [(θ − E [θ] − A(X − E [X]) − a)1] = 0
3
qui entraı̂ne que a = 0. Par conséquent, en regroupant les autres produits scalaires sous forme matricielle, on obtient :
£
¤
£
¤
E (θ − E [θ])(X − E [X])T = AE (X − E [X])(X − E [X])T
£
¤ £
¤−1
dont on déduit que A = E (θ − E [θ])(X − E [X])T E (X − E [X])(X − E [X])T
et donc que l’estimateur cherché a pour expression :
−1
θ̂(X) = E [θ] + RθX RXX
(X − E [X])
Considérons à présent la matrice de dispersion de cet estimateur définie par :
h
i
R²² = E (θ − θ̂(X))(θ − θ̂(X)))T
i
h
En utilisant l’orthogonalité précédente on note que E (θ − θ̂(X))θ̂(X)T = 0 et donc :
h
i
h³
´ i
R²² = E (θ − θ̂(X))θ T = E (θ − E [θ]) − (θ̂(X) − E [θ]) θT
h³
´
i
= E (θ − E [θ]) − (θ̂(X) − E [θ]) (θ − E [θ])T
h
i
= Rθθ − E (θ̂(X) − E [θ])(θ − E [θ])T
−1
D’après (1.3), θ̂(X) − E [θ] = RθX RXX
(X − E [X]), ce qui montre (1.4). On en déduit la valeur
minimale du risque qui s’écrit R = Tr(R²² ).
Remarquons ici que la solution nécessite uniquement la connaissance des deux premiers moments
du couple (X, θ) mais pas celle de leur loi de probabilité conjointe.
Exercice 1.1
Soit le modèle d’observation signal plus bruit Xk = θ+Wk où Wt est un bruit gaussien, centré, blanc, dePvariance
n
2
. On suppose que θ est uniforme sur (−θ0 , θ0 ) et que Wk et θ sont indépendants. On note X̄ = n−1 k=1 Xk .
σW
1.Montrer que l’estimateur bayesien a pour expression :
R θ0
0
θ̂N L (X) = R−θ
θ0
up(u)du
−θ0
p(u)du
´
³
2
2
.
où p(u) = (2πσW
/n)−1/2 exp − (u−X)
2
2σ /n
W
2.Montrer que l’estimateur linéaire bayesien a pour expression :
θ̂L (X) =
θ02 /3
2 /n X̄
+ σW
θ02 /3
4
Modèle linéaire
On dit que le modèle est linéaire si l’observation est relié au paramètre θ par une expression de la
forme :
X = Hθ + W
(1.5)
où H est une matrice connue de dimension n × p et W un bruit centré de matrice de covariance
connue RW W (voir l’exemple 1.1 où H = [1, . . . , 1]T ). On peut alors déduire du modèle d’observation
les expressions de RXθ et de RXX en fonction de H, Rθθ et RW W puis appliquer le résultat donné par
(1.3). Ce qui est résumé dans le résultat suivant.
Théorème 1.2 (Gauss-Markov bayesien). Soit le modèle linéaire d’observation défini par
X = Hθ + W
(1.6)
où X est un vecteur de longueur n représentant les observations, W un bruit centré, de matrice de
covariance RW W et θ un paramètre de moyenne a priori E [θ] et de covariance Rθθ . On suppose que
θ et W ne sont pas corrélés. L’estimateur bayesien linéaire est alors donné par :
θ̂(X) = E [θ] + Rθθ H T (HRθθ H T + RW W )−1 (X − HE [θ])
¡ −1
¢−1 T −1
−1
= E [θ] + Rθθ
+ H T RW
H RW W (X − HE [θ])
WH
(1.7)
(1.8)
et le risque bayesien R = Tr(R²² ) où :
R²² = Rθθ − Rθθ H T (HRθθ H T + RW W )−1 HRθθ
¡ −1
¢
−1
T −1
+ HRW
= Rθθ
WH
(1.9)
(1.10)
En effet partant de (1.6) un calcul simple montre que RθX = Rθθ H T et RXX = HRθθ H T + RW W .
Il suffit ensuite d’appliquer (1.3) et (1.4).
Exemple 1.1 : Egalisation
L’observation X (voir figure 1.1) est reliée à θ par le modèle linéaire X = Hθ + W où H est connu et où
le bruit W est indépendant de θ. C’est la situation rencontrée dans l’égalisation linéaire en communications
numériques. H représente alors les coefficients du filtre modélisant le canal de transmission. En pratique la
connaissance de H s’obtient, le plus souvent, en envoyant préalablement une séquence dite d’apprentissage.
W est le bruit supposé blanc. Et θ est la suite des symboles d’information. La connaissance de H et les
hypothèses du second ordre faites permettent de déterminer RθX et RXX .
θ
W
+
H
X
+
Fig. 1.1 – Egalisation linéaire.
5
A
θ
Estimation récursive
On souhaite à présent calculer de façon récursive θ̂. D’après (1.7), le calcul de θ̂(X) nécessite la
manipulation d’une matrice H de dimension n × p. Si cette matrice doit être construite à partir d’un
flux continu de données et que l’on veut effectuer le calcul en temps réel, le fait que la taille de H
croı̂t de façon illimitée rend difficile un calcul direct. L’algorithme récursif fournit une solution à ce
problème. Il présente en outre l’avantage de pas nécessiter d’inversion matricielle. Il fonctionne par
mise à jour de la valeur θ̂ au fur et à mesure que les données arrivent.
Indexons par n les éléments qui interviennent. Pour cela posons :
¸
·
¸ ·
Xn
n×1
(1.11)
Xn+1 =
=
1×1
Xn+1
·
¸ ·
¸
Hn
n×p
Hn+1 =
=
(1.12)
hTn+1
1×p
¸
·
RW W,n
0
2
2
(1.13)
RW W,n+1 = diag(σ1 , . . . , σn+1 ) =
2
0
σn+1
où nous avons supposé que le bruit Wt est à composantes non corrélées. Les solutions obtenues pour
l’estimateur aux étapes n et (n + 1) vérifient :
−1
Qn (θ̂n − E [θ]) = HnT RW
W,n (Xn − Hn E [θ])
−1
T
Qn+1 (θ̂n+1 − E [θ]) = Hn+1
RW
W (Xn+1 − Hn+1 E [θ])
´
³
−1
−1
T
où on a posé Qn = Rθθ + Hn RW W,n Hn . On vérifie aisément en utilisant (1.13) que :
−2
Qn+1 = Qn + σn+1
hn+1 hTn+1
−1
Q−1
n+1 = Qn −
T
−1
Q−1
n hn+1 hn+1 Qn
2
σn+1
+ hTn+1 Q−1
n hn+1
(1.14)
(1.15)
où nous avons utilisé l’identité (A + uuT )−1 = A−1 − A−1 uuT A−1 /(1 + uT A−1 u).
Un calcul, sans difficulté, donne :
−2
Qn+1 (θ̂n+1 − θ̂n ) = −(Qn+1 − Qn )(θ̂n − E [θ]) + hn+1 σn+1
(Xn+1 − hTn+1 E [θ])
−2
−2
= −σn+1
hn+1 hTn+1 (θ̂n − E [θ]) + hn+1 σn+1
(Xn+1 − hTn+1 E [θ])
−2
= hn+1 σn+1
(Xn+1 − hTn+1 θ̂n )
Par conséquent :
θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 E [θ])
−2
−1
où nous avons posé Kn+1 = Q−1
n+1 hn+1 σn+1 . En utilisant (1.15) et en posant Pn = Qn , on en déduit
que
2 P h
σn+1
Pn hn+1 hTn+1 Pn hn+1
n n+1
2
=
Kn+1 σn+1
= Pn+1 hn+1 = Pn hn+1 − 2
2
σn+1 + hTn+1 Pn hn+1
σn+1
+ hTn+1 Pn hn+1
6
et donc
Kn+1 =
2
σn+1
Pn hn+1
+ hTn+1 Pn hn+1
où Pn+1 vérifie (1.15), ce qui donne :
Pn+1
Pn hn+1 hTn+1 Pn
= Pn − 2
=
σn+1 + hTn+1 Pn hn+1
Ã
Pn hn+1 hTn+1
I− 2
σn+1 + hTn+1 Pn hn+1
!
Pn = (I − Kn+1 hTn+1 )P n
En définitif, on a l’algorithme récursif :
Valeurs initiales :
θ̂0 = E [θ]
P0 = Rθθ
Pour n = {0, 1, . . .} répéter :
Kn+1 =
2
σn+1
Pn hn+1
+ hTn+1 Pn hn+1
θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 θ̂n )
Pn+1 = (I −
Kn+1 hTn+1 )Pn
(1.16)
(1.17)
(1.18)
L’équation (1.17) montre que, si l’écart entre la valeur observée xn+1 et la valeur hTn+1 θ̂n est nulle alors
on laisse θ̂n inchangé. Sinon on ajuste θ̂n avec un gain Kn . La quantité hTn+1 θ̂n a une interprétation
simple : c’est la valeur qu’aurait xn+1 si le paramètre θ̂n calculé précédemment était juste.
Un calcul simple montre que la covariance de l’erreur quadratique à l’instant n est donnée par R ²² =
Pn . Remarquons que l’algorithme ne nécessite aucune inversion de matrice, que, sans connaissance a
priori sur θ, nous pouvons prendre Rθθ → +∞ enfin que le gain dépend de notre confiance dans la
donnée observée à l’instant n par l’intermédiaire de σn2 comparé à l’erreur de toutes les observations
précédentes et résumée dans Pn−1 .
Exercice 1.2
On considère l’observation Xt = A cos(2πf0 t + Φ) + Wt où la fréquence f0 est supposé connue où (A, Φ) est
2
le paramètre inconnu et où Wt est un bruit blanc, centré de variance σw
. Montrer que le problème peut se
mettre sous forme linéaire de θ = (θ1 , θ2 ). Ecrire l’algorithme récursif donnant l’estimateur linéaire bayesien.
On prendra E [θ] = 0 et Rθθ = σθ2 I.
1.3
Filtre de Wiener
Un exemple fondamental d’application de l’estimation linéaire bayesienne est le filtrage de
Wiener. Dans ce cas l’observation est la suite des p valeurs successives {Xn , Xn−1 · · · , Xn−p+1 }
d’un processus aléatoire Xt supposé stationnaire au second ordre, que l’on peut aussi supposé, sans
perte de généralité, centré. On note γX (h) sa fonction
d’autocovariance. Le paramètre θ est£ une
£ ¤
¤
variable aléatoire, supposée centrée, de variance E θ2 finie. On suppose connues les quantités E θ2 ,
7
£ ¤
£ ¤
γX (h) = E [Xt+h Xt ], et γθX (s) = E [θXn−s ] (notons que l’on a 2E [θXt ] ≤ E Xt2 + E θ2 < +∞).
Un exemple important est donné par le modèle d’observation bruitée Xt = St + Wt où Wt est
un bruit centré, de covariance connue et non corrélé à St . Dans ce contexte, partant de l’observation
{Xt ; n − p + 1 ≤ t ≤ n}, il est d’usage de distinguer les 3 cas suivants :
– le paramètre à estimer est θ = Sn . Cela signifie que l’on cherche à estimer Sn à partir du passé
et du présent. En général on réserve l’expression filtrage à cette situation.
– le paramètre à estimer est θ = Sk pour k < n. Cela signifie que l’on effectue l’estimation de Sk
après avoir observé Xt au delà de k. Cette opération porte le nom de lissage.
– le paramètre à estimer est θ = Sk avec k > n. On parle alors de prédiction.
Dans le cadre des processus aléatoires stationnaires du second ordre le théorème de projection
garantit l’existence et l’unicité de l’estimateur linéaire bayesien quadratique de θ en fonction de
Xn , . . . , Xn−p+1 . Celui-ci est donné par :
θ̂ = (θ|Hn,p ) où
Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 }
Il n’est alors pas étonnant que les équations donnant θ̂ aient des expressions analogues aux équations
de Yule-Walker. Notons :
θ̂ = ψ1,p Xn + · · · + ψp,p Xn−p+1 = [Xn · · · Xn−p+1 ]ψ p
(1.19)
Pour déterminer ψ p , il suffit d’exprimer, d’après le théorème de projection, l’orthogonalité entre la
variable aléatoire (θ − θ̂) et les variables aléatoires Xn−k pour tout k ∈ {0, . . . , p − 1}. On en déduit
que ψ p = [ψ1,p . . . ψp,p ]T est solution de l’équation :
Γp ψ p = γ p
(1.20)
où

γX (p − 1)


..

 γX (1)
γ
(0)
γ
(1)
.
X
X




..
..
..
..
Γp = 

.
.
.
.




..

.
γX (1) 
γX (p − 1) γX (p − 2)
···
γX (1)
γX (0)

γX (0)
γX (1)
···



et γ p = 

γθX (0)
γθX (1)
..
.
γθX (p − 1)





(1.21)
l’équation (1.20) nécessite l’inversion d’une matrice de Toëplitz dont on sait qu’il existe un algorithme
rapide dû à Levinson. Remarquons enfin que le problème de la prédiction linéaire d’un processus du
second ordre est un cas particulier du problème traité ici lorsque l’on fait θ = X n+1 .
Evidemment l’expression (1.19) fait penser à un filtrage linéaire. On notera toutefois que la suite
des coefficients ψj,p dépend en règle générale de p.
Exercice 1.3
On considère le schéma équivalent (voir figure 1.2) d’une chaı̂ne de communications numériques. L’entrée du
filtre de réception a pour expression Xn = an + φ1 an−1 + Wn . On suppose :
–que la suite des symboles ak est une suite de variables aléatoires, à valeurs dans {−1, 1}, indépendantes et
identiquement distribuées suivant une loi équiprobable (P(ak = 1) = 1/2)
8
a(n)
ϕ(n)
v(n)
W(n)
+
X(n)
+
ψ(n)
a(n)
Fig. 1.2 – Egalisation linéaire en communication numérique.
–que le bruit est gaussien, centré et blanc,
–et que an et Wn sont indépendants pour toute suite d’instants.
On suppose que φ1 6= 1 est connu.
1.Déterminer les expressions de la moyenne et de la fonction de covariance de la suite a n .
2.Déterminer, en fonction de σ 2 et de φ1 , les expressions de la moyenne et de la fonction de covariance de
la suite Xn .
3.Déterminer, en fonction de σ 2 et de φ1 , l’expression de la fonction de covariance entre an et Xn .
On considère tout d’abord qu’il n’y a pas de bruit (Wn = 0).
4.Montrer que an s’exprime en fonction du processus Xn par une expression de la forme :
X
ψk Xn−k
an =
k
où ψk est une suite, dépendant de φ1 , dont on déterminera l’expression (indication : on distinguera deux
cas suivant que |φ1 | < 1 ou que |φ1 | > 1).
5.On veut approcher la suite ψk par une suite finie de longueur p. Comment doit-on choisir p suivant la
position de |φ1 | par rapport à 1 ?
On considère maintenant que le bruit Wn est présent et on utilise pour estimer le symbole an−d , un filtre linéaire
de longueur p de la forme :
ân−d = ψ0 Xn + · · · + ψp−1 Xn−p+1
où d est un délai choisi a priori.
2
6.Déterminer, sous forme d’une équation
£ matricielle en
¤ fonction de φ1 et de σ , la suite ψ0 , . . . , ψp−1 (filtre
de Wiener) qui minimise J(ψ) = E (an−d − ân−d )2 . On pourra utiliser la notation :


1 φ1
0 ··· 0

.. 
0 1 φ 1 . . .
.


Φ = .

.
.
.
.
.
.
.
.
.
.
. 0
0 ···
0
1 φ1
7.Comment se fait le choix de d suivant que |φ1 | > 1 ou |φ1 | < 1.
Regardons à présent l’expression du filtre de Wiener lorsque l’on fait tendre p vers l’infini. La
solution précédente possède alors une forme limite appelé filtre de Wiener2 qui est encore donnée par
θ̂ = (θ|Hn ) où
Hn = span{Xt ; t ≤ n}
On rappelle en effet que (voir chapitre 3) :
2
Le mot filtre de Wiener est (malheureusement) utilisé avec des significations un peu différentes suivant le contexte.
9
Proposition 1.1. Soit Xn un processus stationnaire au second ordre. On note Hn = span{Xt ; t ≤ n}.
Alors pour tout θ ∈ L2 (Ω, F, P) et tout n ∈ Z nous avons :
(θ|Hn ) = lim (θ|Hn,p )
p→∞
où Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 }.
Supposons à présent qu’il existe une suite ψk causale et stable (
tout t ≥ 0, on ait :
+∞
X
k=0
Pp
P+∞
k=0 |ψk |
< +∞) telle que, pour
ψk γX (t − k) = γθX (t)
(1.22)
et posons
θ̃ = limp→+∞ t=0 ψt Xn−t
P
P. pOn vérifie aisément que, pour tout s ≥ 0, le produit scalaire
(θ − pt=0 ψt Xn−t , Xn−s ) = γθX
(s)−
t=0 ψt γX (s−t). Par continuité du produit scalaire, on en déduit
P+∞
que (θ − θ̃, Xn−s ) = γθX (s) − k=0 ψk γX (t − k), qui vaut 0 d’après l’équation (1.22). Par conséquent
θ̃ = (θ|Hn ).
Exercice 1.4
On considère l’observation Xt = Λ + Wt où Wt est un blanc, centré, blanc, de variance 1 et Λ une variable
aléatoire centrée, de variance 1, non corrélée à W .
1.Déterminer l’expression de la fonction d’autocovariance γX (h) de Xt ainsi que la fonction de covariance
entre Xt et Wt .
2.Déterminer en fonction de n l’expression de :
¯
¯2 
n−1
¯
¯
X1
¯
¯
Xn−k ¯ 
E ¯ Λ −
¯
¯
n
k=0
En déduire que Λ ∈ Hn = span{Xt ; t ≤ n}.
3.On suppose que Λ s’écrit :
Λ=
+∞
X
λk Xn−k
k=0
Déterminer, en fonction de λk , E [ΛWn−m ] pour m ≥ 0. Conclure.
Exercice 1.5
On considère l’observation Xt = St + Wt où St et Wt sont deux processus stationnaires au second ordre, centrés,
blancs, non corrélés entre eux. Déterminer le filtre de Wiener.
A première vue on pourrait penser résoudre (1.22) en utilisant la transformée de Fourier. Il n’en
est rien car le système d’équations n’est vrai que pour t ≥ 0. En ignorant cette contrainte, il n’est alors
pas sûr, comme le montre l’exemple suivant, que la solution stable trouvée soit causale. Supposons
que Xt soit un processus MA(1) bruité de la forme :
Xt = St + φSt−1 + Wt
2 , S un bruit blanc de variance σ 2 et où S et W sont supposés
où Wt est un bruit blanc de variance σW
t
u
t
S
non corrélés pour tout couple (t, u). On souhaite estimer θ = Sn . Un calcul simple montre que :
2
E [Xt+h Xt ] = σS2 δt + φσS2 δt−1 + φσS2 δt+1 + σW
δt
10
et E [Sn Xt ] = σS2 δn−t + σS2 φδn−t+1
En considérant à tortPl’expression (1.22) comme une convolution et en passant aux transformées en Z
(définies par φ(z) = k ψk z k ), on en déduit que :
ψ(z) =
z + φz
(1 + φz)(z + φ) + ρ
2 /σ 2 . On sait alors que, si le dénominateur de ψ(z) n’a pas de racines sur le cercle unité, il
où ρ = σW
S
existe une solution stable mais qui n’est pas nécessairement causale. Pour qu’il en soit ainsi il faut en
plus que ces racines soient à l’extérieur du cercle unité. Ici les deux racines sont réelles et de part et
d’autre du cercle unité.
Solution de Wiener
Reprenons l’équation (1.22) :
+∞
X
k=0
ψk γX (t − k) − γSX (t) = 0 pour
t≥0
On suppose que γX (h) et γSX (h) sont de module sommable.
la transformée en Z des deux
P∞ En prenant
t
membres de l’équation (1.22) et en notant [U (z)]+ = t=0 u(t)z la partie causale de u(t), il vient :
[ψ(z)fX (z) − fSX (z)]+ = 0
On a vu que, si la densité spectrale d’un processus stationnaire au second ordre était une fraction
rationnelle, alors elle se factorise sous la forme fX (z) = B(z)B ∗ (1/z ∗ ) où B(z) a toutes ses zéros et
tous ses pôles à l’extérieur du cercle unité. Par conséquent :


µ
¶

fSX (z) 
 ∗

∗
∗
∗
[ψ(z)B(z)B (1/z ) − fSX (z)]+ = B (1/z ) ψ(z)B(z) − ∗
 =0
B (1/z ∗ ) 

|
{z
}
C(z)
+
Comme B(z) a toutes ses zéros et tous ses pôles à l’extérieur du cercle unité, la suite de module
sommable qui lui est associée, est causale tandis que la suite, de module sommable associée à B ∗ (1/z ∗ ),
est une suite anticausale. Par conséquent pour que la convolution associée à B ∗ (1/z ∗ )C(z) ait sa partie
causale nulle, il faut que la partie causale [C(z)]+ soit nulle. Ce qui donne :
·
¸
fSX (z)
ψ(z)B(z) − ∗
=0
(1.23)
B (1/z ∗ ) +
En notant que ψ(z)B(z)
esti associée à une suite causale, on en déduit que la relation (1.23) est vérifiée
h
fSX (z)
si et seulement si B ∗ (1/z ∗ )
= ψ(z)B(z) et donc si :
+
·
¸
fSX (z)
1
ψ(z) =
B(z) B ∗ (1/z ∗ ) +
L’équation (1.24) est la solution du filtre de Wiener.
11
(1.24)
Exercice 1.6. AR(1) causal bruité
On considère l’observation Xt = St + Wt où Wt est un processus stationnaire au second ordre, centré, blanc et
où St est un processus AR(1) causal, non corrélé à Wt . Déterminer le filtre de Wiener qui estime St .
Exercice 1.7. MA(1) bruité
2
On considère le processus défini Xt = Yt + Wt où Yt = Zt + θZt−1 . Zt est un bruit blanc, centré, de variance σZ
,
2
Wt un bruit blanc, centré, de variance σW . On suppose que Zt et Wt ne sont pas corrélés et que −1 < θ < 1.
1.Déterminer les expressions de γX (h), γY X (h) et γZX (h).
2.Déterminer le filtre de Wiener qui estime Yn à partir de Xt , t ≤ n.
3.Déterminer le filtre de Wiener qui estime Sn à partir de Xt , t ≤ n.
12
Chapitre 2
Algorithme LMS
2.1
Notion de Filtrage adaptatif
Nous avons vu que l’estimation linéaire bayesienne quadratique débouchait, dans le cas des signaux
stationnaires, sur le filtre de Wiener dont l’expression dépend essentiellement des covariances entre le
paramètre estimé et l’observation. Dans le cas d’une estimation à partir d’un nombre fini d’observations
présente et passées, son expression est donnée par l’équation (1.20) que nous rappelons (et où nous
avons omis l’indice p relatif à l’ordre du filtre ψ) :
Γψ ? = γ
(2.1)
Γ représente la matrice de covariance de l’observation et γ la covariance entre l’observation et le
paramètre à estimer. Le problème semble donc complètement résolu. Il n’en est rien en pratique car,
d’une part les quantités Γ et γ ne sont pas connues, d’autre part l’hypothèse de stationnarité n’est
jamais vérifiée à long terme. Il faut donc les estimer au fur et à mesure que les observations arrivent.
Cela conduit à la recherche de ψ par un algorithme adaptatif de la forme :
ψ n = ψ n−1 + ∆n
Le terme adaptatif sous-entend en général les trois propriétés suivantes :
– l’algorithme converge (dans un sens à préciser vu le caractère aléatoire) vers la solution cherchée,
– le traitement se fait en temps réel sans intervention humaine,
– l’algorithme possède une capacité de poursuite en présence de non stationnarité.
Les algorithmes de gradient stochastique, souvent désigné par le sigle LMS (Least Mean Squares),
entre dans cette catégorie. Une autre famille est celle des algorithmes récursifs des moindres carrés
(RLS pour Recursive Least Squares).
Dans ce chapitre nous nous intéressons uniquement aux algorithmes de la famille dit du gradient
stochastique qui ont pour expression :
¯
∂J ¯¯
(2.2)
ψ n = ψ n−1 − λ
∂ψ ¯
ψ=ψn−1
avec λ > 0. n désigne l’instant présent de mise à jour et J : ψ 7→ R+ une fonction de coût que l’on
veut minimiser. L’idée contenue dans (2.2) est que cette minimisation peut s’obtenir en se déplaçant
dans un sens opposé (λ > 0) au sens du gradient, d’où le nom de l’algorithme.
13
Annulation d’écho
En annulation d’écho on dispose de deux suites d’observations (X, Y ) supposées stationnaires. Le
paramètre θn à estimer est supposé non corrélé à la suite Xn mais corrélé à l’observation Yn par la
relation Yn = θ+Bn où Bn représente l’écho produit par Xn . Dans de nombreuses situations pratiques,
l’écho Bn apparaı̂t comme un simple filtrage linéaire de Xn . En résumé on a :
(
Yn = θ + B n
Bn = h n ? X n
Partant de là, on choisit d’estimer θ par une expression de la forme :
θ̂ = Yn − ψ T Xn
(2.3)
où£ Xn = [Xn . . .¤ Xn−p+1 ] et où ψ est déterminé de façon à minimiser K(ψ) =
E (θ − (Yn − ψ T Xn ))2 . En développant K(ψ) on obtient :
£ ¤
£
¤
£
¤
K(ψ) = E θ2 − 2E [θYn ] − 2E θXTn ψ + E (Yn − ψ T Xn )2
£
¤
Comme θ et X ne sont pas corrélés et que 2E θT Y ne dépend pas de ψ, la minimisation de K(ψ)
par rapport à ψ se ramène à la minimisation de la fonction :
£
¤
J(ψ) = E (Yn − ψ T Xn )2
Dans le cas où Xn et Yn sont stationnaires et conjointement stationnaires, la solution ψ ? vérifie :
Γψ ? = γ
£
¤
T
où Γ = E Xn Xn et γ = E [Yn Xn ]. Elle dépend uniquement des statistiques au second ordre de
(X, Y ) qui peuvent alors être estimées à partir des observations.
Exemple 2.1 : Téléphonie main-libre
En “téléphonie main-libre”, le signal sortant du haut-parleur (figure 2.1), après un trajet acoustique dépendant
du lieu où on se trouve, entre dans le microphone et provoque un écho indésirable. En reprenant les notations
précédentes, θ représente le signal dû au locuteur devant le microphone, Y = θ + B représente le signal à
l’entrée du microphone, et X le signal sortant du haut-parleur. Le fait que l’on puisse modéliser le trajet
acoustique par un filtre linéaire, dont la réponse impulsionnelle inconnue peut comporter plusieurs centaines
de coefficients, justifie un traitement linéaire de la forme θ̂ = Y − ψ T X.
Généralement le signal θ représente une gêne dans l’adaptation du filtre surtout si les hypothèses
d’indépendance sont mal vérifiées. C’est pourquoi on utilise souvent un détecteur d’activité vocale qui sert
à arrêter l’adaptation du filtre (mais pas son utilisation) quand le signal θ est présent devant le microphone.
L’adaptation
se fait alors quand θ = 0, ce qui correspond précisément à la minimisation du terme
i
h
T
2
E (Y − ψ X) .
Exemple 2.2 : Canal full-duplex
On dit qu’un système de transmission est full-duplex si un seul canal est utilisé pour les deux sens de communication.
Cette situation se rencontre en transmission de données sur le canal téléphonique. Le signal présent sur le
canal est alors la somme du signal provenant de l’abonné distant et d’un écho, dû au signal émis par l’abonné
local. Avec les notations précédentes, θ est le signal distant, Y = X + B le signal reçu sur le canal et X le
signal local. En pratique on peut modéliser B comme un filtrage linéaire de X et supposer que X et θ ne sont
pas corrélés. L’annulateur d’écho estime θ par une expression de la forme θ̂ = Y − ψ T X.
14
Y
θ
θ
+
−
B
ψ
Canal
X
Fig. 2.1 – Annulation d’écho.
X
distant
ψ
local
−
θ
Y
θ
+
Fig. 2.2 – Transmission full-duplex.
2.2
2.2.1
Présentation de l’algorithme LMS
Algorithme du gradient déterministe
£
¤
Revenons au problème de la résolution de l’équation Γψ ? = γ où Γ = E Xn XTn et γ = E [Yn Xn ].
Rappelons que l’on cherche une suite de vecteurs ψ n qui converge vers le filtre ψ ? qui minimise la
fonction de coût :
£
¤
J(ψ) = E (Yn − XTn ψ)2
£ ¤
£
¤
£
¤
= E Yn2 − 2E Yn XTn ψ + ψ T E Xn XTn ψ
£ ¤
= E Yn2 − 2γ T ψ + ψ T Γψ
On a :
Γψ ? = γ
et
£ ¤
£ ¤
Jmin = E Yn2 − γ T ψ ? = E Yn2 − ψ T? Γψ ?
et par conséquent, si on pose V = ψ − ψ ? , on a :
J(ψ) = Jmin + V T ΓV
(2.4)
Le terme V T ΓV a une interprétation simple : il mesure l’excès d’erreur minimale par rapport à J min .
L’algorithme du gradient consiste en une mise à jour de la quantité ψ n , obtenue à l’instant présent n,
au moyen de la relation de récurrence :
¯
∂J ¯¯
ψ n = ψ n−1 − λ
∂ψ ¯ψ=ψn−1
15
où λ est un nombre positif. Calculant l’expression du gradient de J(ψ) puis portant le résultat dans
l’équation précédente, nous obtenons :
ψ n = ψ n−1 + µ(γ − Γψ n−1 )
(2.5)
où µ = 2λ > 0. On note que l’algorithme ne nécessite pas d’inversion de matrice. On en déduit :
Vn = (I − µΓ)Vn−1
où
Vn = ψ n − ψ ?
Remarquons que Vn décroı̂t comme (1 − µλi )n = e−n/n0 où n0 = −1/ log(1 − µλi ) ≈ 1/µλi . Par
conséquent les “modes” les moins puissants sont ceux qui mettent le plus de temps à s’annuler.
Exemple 2.3
Nous avons reporté à la figure 2.3 l’évolution de l’écart quadratique entre ψ n et ψ ? au cours de N = 1000
itérations, pour Γ = diag([1 0.01]) et ψ ? = [1 1]T . Nous observons que la courbe comporte deux parties
qui correspondent aux réductions successives des modes correspondant aux deux valeurs propres de Γ, de la
plus grande à la plus petite. Ce résultat est très général. Ce qui joue un rôle déterminant dans la rapidité
de décroissance des modes associés à chaque valeur propre est le produit µλ i . La rapidité est d’autant plus
grande que µλi est plus proche de 2 (par valeur inférieure). Par conséquent, pour la valeur propre 1, le choix
de µ = 1 est bon ; par contre, pour la valeur propre 0,004, il faudrait une valeur de µ bien plus grande pour
accélérer la descente. Malheureusement, pour éviter que l’algorithme diverge, on ne peut pas toucher à µ.
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0
200
400
600
800
1000
Fig. 2.3 – Evolution de l’écart quadratique entre la vraie valeur de ψ ? et
la valeur ψ n , en fonction du nombre de pas d’itérations de l’algorithme du
gradient déterministe.
Exercice 2.1. Convergence de l’algorithme du gradient
On se propose d’étudier l’existence d’une solution limite quand n tend vers l’infini de l’équation récurrente 2.5.
On note ψ ? le filtre de Wiener, c’est-à-dire le filtre qui vérifie Γψ ? = γ. On suppose Γ > 0 et on note Γ = QT λQ
la décomposition propre de Γ où Q est unitaire et où Λ = diag(λ1 , . . . , λp ). On pose Wn = Q(ψ n − ψ ? ).
1.Déterminer, en fonction de ψ 0 et de la matrice An = I − µn Γ, l’expression de la solution ψ n de l’équation
(2.5) dans laquelle on a remplacé µ par µn :
ψ n = ψ n−1 + µn (γ − Γψ n−1 )
16
2.Montrer que Wn = (I − µn Λ)Wn−1 .
3.Montrer que, si µn = µ vérifie la double inégalité :
0<µ<
2
maxi (λi )
alors ψ n converge vers ψ ? . Comment se traduit la dispersion des valeurs propres de Γ (traiter le cas
p = 2) en terme de décroissance.
4.On suppose à présent que µn tend vers 0. Dans ce cas à partir d’un certain rang |1 − µk λj | = 1 − µk λj .
Montrer :
n
X
log(1 − µk λj ) + Cte
log(|wn (j)|) =
k=1
P
En notant que log(1 − x) ≤ −x, déduire que, si k µk = +∞ (par exemple µn = 1/n), alors ψ n converge
vers ψ ? . On remarque que,
P si x ∈ (0, x0 ) avec x0 < 1, alors il existe ρ tel que −ρx ≤ log(1 − x). En
déduire que la condition k µk = +∞ est aussi nécessaire.
En résumé l’algorithme du gradient déterministe converge, à condition que µ n soit constantPmais
suffisamment faible ou que µn tende vers 0, mais suffisamment lentement pour que la série
n µn
diverge. Lorsque le gradient déterministe est remplacé par une expression mettant en jeu des quantités
aléatoires, l’analyse est plus difficile. Pour commencer nous allons considérer un exemple.
2.2.2
Exemple introductif : estimation de la moyenne
L’estimation de la moyenne d’un processus stationnaire au second ordre va nous donner un exemple
d’algorithme adaptatif qui permet d’illustrer la plupart des problèmes rencontrés en filtrage adaptatif.
Considérons le processus aléatoire Xt stationnaire au second ordre de moyenne µ = E [Xt ]. Pour
estimer µ, on peut utiliser l’estimateur empirique :
µ̂n =
1
(X1 + · · · + Xn )
n
(2.6)
qui peut se mettre sous la forme récursive (2.2) :
µ̂n = µ̂n−1 + λn (Xn − µ̂n−1 )
(2.7)
où λn = 1/n (avec comme condition initiale µ̂0 = 0). D’après la loi des grands nombres, l’acquisition
automatique est garantit puisque µ̂n converge presque sûrement vers le paramètre cherché :
µ̂n →p.s. µ
Pour étudier la capacité de poursuite, considérons un changement soudain de la moyenne à l’instant
T de la forme E [Xt ] = µ1 11(t ≤ T ) + µ2 11(t > T ). Nous avons alors pour n > T :
µ̂n − µ2 =
et donc µ̂n − µ2 =
T
n (µ1
T
n
1X
1 X
(Xt − µ2 ) +
(Xt − µ2 )
n
n
t=1
t=T +1
− µ2 ) + e où
T
n
1X
1 X
e=
(Xt − µ1 ) +
(Xt − µ2 )
n
n
t=1
t=T +1
17
est une variable aléatoire centrée. Il s’en suit que :
£
¤
²2 = E (µ̂n − µ2 )2 ≥ T 2 (µ1 − µ2 )2 /n2
Si on veut atteindre une précision de ²2 il faut donc prendre n > T |µ1 − µ2 |/². On en déduit que,
plus T est grand, plus n devra être grand pour atteindre un niveau proche de µ 2 . La raison est que le
pas d’adaptation λn = 1/n (voir équation (2.7)) tend vers 0 quand n tend vers l’infini. L’algorithme
perd donc sa capacité de poursuite. Ce résultat est général : quand n tend vers l’infini, la propriété
de convergence nécessite que µn tende vers 0 tandis que la capacité de poursuite veut que µn reste
suffisamment grand. Pour éviter la perte de la capacité de poursuite, l’idée est alors de prendre comme
algorithme :
µ̂n = µ̂n−1 + λ(Xn − µn−1 )
(2.8)
où λ est très petit mais sans être nul. De façon analogue nous allons retrouver un pas constant petit
dans l’algorithme LMS.
Voyons comment l’algorithme (2.8) se comporte aux niveaux de l’acquisition d’une part et de la
capacité de poursuite d’autre part. Un calcul simple donne :
¡
¢
µ̂n = λ Xn + · · · + (1 − λ)j Xn−j + · · · + (1 − λ)n−1 X1
Il s’en suit que, quand n croı̂t et si 0 < λ < 2, les termes du passé sont “oubliés” de façon exponentielle
avec le taux (1 − λ). D’où une capacité à mieux prendre en compte les propriétés statistiques des
échantillons récents. Malheureusement la propriété de convergence n’est plus assurée. En effet en
supposant que Xt est un processus aléatoire de moyenne µ et de covariance γX (h), on obtient :
£
¤
1 − (1 − λ)2n
E (µ̂n − µ)2 = γX (0)λ
+ µ2 (1 − λ)2n
2−λ
Quand n tend vers l’infini, on a :
£
¤
λ
E (µ̂n − µ)2 ∼ γX (0)
2−λ
La propriété d’acquisition est perdue. Heureusement l’écart quadratique asymptotique peut être rendue
aussi faible que l’on veut, en prenant :
λ¿2
En conclusion il en ressort que, plus le pas d’adaptation est petit, meilleure est la capacité d’acquisition
mais pire est la capacité de poursuite. Il faut donc envisager un certain compromis entre ces deux
exigences.
2.2.3
Algorithme du gradient stochastique
Reprenons l’équation (2.5), donnant la récursion de l’algorithme du gradient. On peut encore
écrire :
¤
£
ψ n = ψ n−1 + µ(E [Yn Xn ] − E Xn XTn ψ n−1 )
£
¤
= ψ n−1 + µE Xn (Yn − XTn ψ n−1 )
18
Le terme en = Yn − XTn ψ n−1 a une signification particuluière : il représente l’écart entre la valeur
calculée avec la coefficients ψ n−1 à l’étape précédente et la valeur observée en absence de bruit.
L’algorithme LMS (Least Mean Square) ou algorithme du gradient stochastique, imaginé par Widrow,
fournit une solution adaptative simple, en remplaçant E [Xn en ] par sa valeur “instantanée”. Ce qui
conduit à l’algorithme suivant :
Valeurs initiales :
ψ 0 = 0,
Pour n = {1, . . .} répéter :
• e(n) = Yn − XTn ψ n−1
• ψ n = ψ n−1 + µXn en
Concernant la convergence de l’algorithme, deux questions se posent :
– Existe-t-il des valeurs initiales ψ0 et des valeurs de µ qui assurent la convergence de l’algorithme
vers le filtre de Wiener (dans un sens qui reste à préciser puisque ψn est aléatoire) ?
– Dans le cas de l’existence de plusieurs minima, existe-t-il une condition pratique portant sur le
choix de la valeur initiale qui garantisse la convergence vers le minimum global ?
Ces problèmes sont difficiles à résoudre car la suppression de l’espérance mathématique dans l’équation
récurrente rend l’analyse très complexe. Dans cette brève introduction de l’algorithme LMS, nous nous
limitons à l’étude de la convergence de E [ψ n ] dans le cas où les entrées sont indépendantes.
2.3
Algorithme LMS à entrées indépendantes
Reprenons l’équation d’adaption du LMS où nous remplaçons µ par µn de façon à étudier la
convergence et la capacité de poursuite :
ψ n = ψ n−1 + µn Xn (Yn − XTn ψ n−1 )
Nous supposons que l’hypothèse suivante :
la suite Xn est i.i.d.
(H)
est vérifiée. Cette hypothèse est irréaliste puisque Xn et Xn−1 partagent plusieurs coordonnées en
commun. Néanmoins elle est largement utilisée dans la littérature pour mettre en évidence le comportement de l’algorithme en fonction du choix de µn .
Comportement de E [ψ n ]
Notons Vn = ψ n − ψ ? l’écart entre le filtre obtenu à l’instant n et la solution de Wiener. On a :
Vn = (I − µn Xn XTn )Vn−1 + µn Xn (Yn − XTn ψ ? )
Notons que :
£
¤
E Xn (Yn − XTn ψ) = γ − Γψ ? = 0
19
(2.9)
Par conséquent :
En utilisant l’hypothèse H, on a :
¤
£
E [Vn ] = E (I − µn Xn XTn )Vn−1
E [Vn ] = (I − µn Γ)E [Vn−1 ]
Et donc, d’après les résultats obtenus pour l’algorithme du gradient déterministe, si µ n = µ <
2/ maxi λi , alors :
E [ψ n ] → ψ
Désajustement
Dans l’équation (2.4), le terme V T ΓV mesure l’écart introduit par l’algorithme du gradient par
rapport à l’erreur minimale. Ici Vn est aléatoire. Ce qui conduit aux définitions de l’excès d’erreur
quadratique minimale :
¤
£
²n = E [J(ψ n ) − Jmin ] = E VnT ΓVn
et du désajustement
Mn =
On a
²n
Jmin
£ T
¤
£
¤
£
¤
T
T
²n = E Vn−1
ΓVn−1 = E Tr(ΓVn−1 Vn−1
) = Tr(ΓE Vn−1 Vn−1
)
En utilisant l’hypothèse H et certaines approximations, on obtient Mn ≈ µTr(Γ).
2.4
Résultat numérique en annulation d’écho
Le signal utile Sn est nul et le signal comportant l’écho est Yn = 0 + hn ? Xn où hn est le filtre de
réponse impulsionnelle finie {1 0,3 −0,1 0,2} supposé inconnu et Xn un bruit blanc. La longueur du
filtre d’annulation d’écho est 20. Les valeurs en décibels du carré de l’erreur, obtenues par l’algorithme
LMS et intégrées avec un facteur d’oubli de 0,2, sont reportées figure 2.4 en fonction du nombre de
pas d’algorithme. Les valeurs de µ = 0,02 et µ = 0,05 conduisent à la convergence. On observe que la
vitesse de convergence la plus faible correspond à la valeur de µ la plus faible.
.
Dans le cas où on est en présence d’une activité vocale devant le microphone, le signal S n produit
par l’utilisateur du microphone intervient comme un bruit qui s’ajoute à l’écho. Cela rend plus difficile
l’adaptation de l’algorithme et ce d’autant plus que le signal Sn est relativement puissant par rapport
à l’écho. Nous avons effectué la simulation suivante : le signal d’écho est un bruit blanc filtré. La figure
2.5 montre les résultats obtenus : l’annulation est satisfaisante au bout d’environ 200 échantillons.
En pratique on adopte souvent, pour fixer la valeur de µ, la procédure suivante : on augmente
progressivement µ jusqu’à ce que l’algorithme diverge puis ensuite on réduit la valeur obtenue d’au
moins 10%. Une fois la valeur de µ fixée, on présente les résultats sous la forme de l’évolution du carré
de l’écart instantané p(n) = e2 (n). Toutefois comme la forme de p(n) est souvent très chaotique, il est
d’usage de lisser p(n) en moyennant sur N valeurs consécutives.
20
0
−50
µ =0,02
−100
−150
−200
−250
µ =0,05
−300
−350
0
500
1000
1500
2000
2500
3000
Fig. 2.4 – Algorithme LMS : évolution de l’écart quadratique, en dB, en
fonction du nombre de pas de l’algorithme, pour deux valeurs du pas µ = 0,02 et
µ = 0,05. L’écho est un bruit blanc filtré par le filtre de réponse impulsionnelle
finie {1 ; 0,3 ; −0,1 ; 0,2}.
1
0
−1
3500
5
4000
4500
5000
5500
6000
6500
4000
4500
5000
5500
6000
6500
4000
4500
5000
5500
6000
6500
0
−5
3500
1
0
−1
−2
3500
Fig. 2.5 – Algorithme LMS : Courbe du haut : signal de parole sans l’écho ;
Courbe du milieu : signal de parole auquel s’ajoute l’écho, qui est un bruit blanc
filtré par le filtre de réponse impulsionnelle finie {1 ; 0,3 ; −0,1 ; 0,2} ; Courbe du
bas : signal après traitement.
21
Il apparaı̂t à la convergence un désajustement dû au fait que µ 6= 0. Ce que l’on peut retenir est
que le désajustement est d’autant plus petit que µ est petit. En contrepartie la vitesse de descente
est plus faible. Il y a donc un compromis à trouver entre ces deux exigences. Les exemples qui suivent
mettent en évidence ces comportements.
Exercice 2.2
Cette exercice est la suite de l’exercice 1.3. On suppose à présent que φ1 varie lentement et on souhaite effectuer
un filtrage adaptatif de Xn . On note ψ(n) = {ψk (n)}{k=0,...,p−1} le “filtre” égaliseur obtenu à l’instant n.
Déterminer l’algorithme LMS d’adaptation de ψ(n) basé sur la minimisation de J(ψ).
Exercice 2.3
Soit Zn un processus aléatoire i.i.d., centré de variance 1 et soit le processus Xn stationnaire défini par Xn =
(1 − α)Zn + αXn−1 où 0 < α < 1.
£ ¤
1.Montrer que E Xn2 = (1 − α)/(1 + α).
2.On note ψ le prédicteur optimal d’ordre 1 défini par Yn = ψX
£ n−1
¤ et ẽn = Xn − Yn son erreur associée.
Déterminer l’expression de ψ ainsi que l’écart quadratique E ẽ2n associée.
3.Ecrire les équations de l’algorithme LMS donnant ψ̂n .
4.On note Vn = ψ̂n − ψ. Montrer que ẽn est indépendant de Xn−1 . Vn−1 est-il indépendant de ẽn ? Vn−1
est-il indépendant de Xn−1 ? Que peut-on dire si α est petit ?
Exercice 2.4. Suppression d’un brouilleur sinusoı̈dal
On suppose que l’on observe le signal Yt = A cos(2πf0 t + Φ) + St où f0 et une fréquence connue, A et φ des
paramètres inconnus et St un signal utile. On suppose que A et Ψ peuvent être considérés comme aléatoires
indépendants de St . D’où l’idée de soustraire à Xt un mélange pondéré de sinusoı̈des de fréquence f0 décalées.
En déduire un algorithme LMS qui annule le brouilleur sinusoı̈dal.
22