Filtre de Wiener

Transcription

Filtre de Wiener

Filtre de Wiener
Maurice Charbit
26 juin 2002
Chapitre 1
Filtrage de Wiener
Le filtrage de Wiener est un problème d’estimation où on dispose d’une connaissance a priori
sur le paramètre à estimer. Cette connaissance se présente sous la forme de données probabilistes.
Typiquement on veut estimer un signal noyé dans un bruit et on sait que le signal est a priori centré,
blanc, etc. En inférence statistique, lorsque l’on prend en compte une connaissance probabiliste sur le
paramètre à estimer on parle d’estimation bayesienne.
1.1
Estimation Bayésienne
En estimation statistique, l’observation est modélisée par une famille de mesures de probabilité
PX|θ (dx, θ) définie sur un espace d’observations {X , B(X )} où θ ∈ Θ représente le paramètre à
estimer. Dans l’approche bayésienne, l’espace des paramètres est muni d’une mesure de probabilité
Pθ (dθ) qui modélise la connaissance que l’on a a priori sur le paramètre à estimer. On peut alors
munir X × Θ de la mesure produit PX|θ (dx, θ)Pθ (dθ)1 . On rappelle qu’un estimateur est une fonction
mesurable de X dans Θ.
Pour définir l’estimateur bayesien, on introduit une fonction C : Θ × Θ 7→ R+ appelée fonction de
coût. L’estimateur bayesien associé à C est la fonction mesurable θ̂ de X 7→ Θ telle que, pour toute
fonction mesurable T de X 7→ Θ, on ait :
h
i
E C(θ, θ̂(X)) ≤ E [C(θ, T (X))]
(1.1)
où
E [C(θ, T (X))] =
Z
X ×Θ
C(t, T (x))PX|θ (dx, t)Pθ (dt)
Dans le cas où PX|θ (dx, t)Pθ (dt) possède une densité pX|θ (x, θ)pθ (θ) par rapport à la mesure de Lebesgue dans X × Θ, on a :
Z
E[C(θ, T (X))] =
C(t, T (x))pX|θ (x, t)pθ (t)dxdt
(1.2)
X ×Θ
1
C’est pourquoi nous avons noté la loi de X comme une probabilité conditionnelle de X sachant θ.
1
Un exemple qui relève de l’approche bayesienne est la réception d’un signal en présence de bruit additif.
Le “paramètre” à estimer est alors le signal utile. Ainsi en communications numériques et en absence
d’interférences entre symboles, l’observation
Xk = θ k + W k
où Wk est une suite de variables aléatoires indépendantes, gaussiennes, centrées, de variance σ 2 ,
indépendantes de la suite θk . Concernant la loi a priori on suppose que la suite θk est une suite
de variables aléatoires à valeurs dans un alphabet fini de taille M , indépendantes, identiquement
distribuées et de loi uniforme. L’observation est la suite X1 , . . . , Xn et le paramètre à estimer la suite
θ1 , . . . , θn . On a :
!
Ã
n
1
1 X
(xk − θk )2
pX1 ,··· ,Xn |θ1 ,··· ,θn (x1 , · · · , xn , θ1 , . . . , θn ) = √
exp − 2
2σ
(σ 2π)n
k=1
Qn
En prenant comme fonction de coût C(θ, α) = 1 − k=1 11(θk = αk ), le risque bayesien est simplement
la probabilité d’erreur moyenne. On montre alors que le minimum est obtenu θ̂k (Xk ) (décision symbole
par symbole). Notons que, dans cet exemple, il y a autant de paramètres à estimer que d’observations.
On comprend bien que, sans a priori sur le paramètre (à savoir l’alphabet fini, la loi de probabilité),
l’estimation serait plus difficile.
Espérance conditionnelle
En règle générale la fonction de coût C(θ, α) est une fonction croissante d’une distance entre θ et
α, qui vaut 0 quand θ = α. Un cas particulier important est celui où c(θ, α) = kθ − αk 2 . On alors :
h
i
£
¤
E kθ − θ̂(X)k2 ≤ E kθ − T (X)k2
Dans ce cas, on montre que θ̂(X) est l’espérance conditionnelle de θ sachant X :
Z
θ̂ = E [θ|X] : x ∈ X 7→
tPθ|X (dt, x)
Θ
On rappelle que, dans le cas où la loi conjointe PX|θ (dx, θ)Pθ (dθ) a une densité, l’espérance conditionnelle a pour expression :
R
tpX|θ (x, t)pθ (t)dt
θ̂ : x ∈ X 7→ RΘ
Θ pX|θ (x, t)pθ (t)dt
Maximum a Posteriori (MAP)
Dans le cas où PX|θ (dx, t)Pθ (dt) possède comme densité pX|θ (x, θ)pθ (θ), que la fonction de coût
est C(θ, α) = 11(kθ − αk > ²) et que l’on fait tendre ² vers 0, l’estimateur bayesien est donné par :
θ̂(X) = arg max pX|θ (X, θ)pθ (θ)
θ∈Θ
2
Il est désigné sous le terme d’estimateur du maximum a posteriori en abrégé MAP. En passant au
logarithme, on a aussi :
¡
¢
θ̂(X) = arg max log(pX|θ (X, θ)) + log(pθ (θ))
θ∈Θ
En comparant à l’estimateur du maximum de vraisemblance, défini par :
θ̂M V (X) = arg max log(pX|θ (X, θ))
θ∈Θ
on s’aperçoit que la connaissance a priori, introduite par le terme log(p θ (θ)), intervient comme une
pénalisation sur θ d’autant plus forte que pθ (θ) est faible.
Estimation linéaire bayesienne
Dans le cas où la loi conjointe de (X, θ) est gaussienne on vérifie aisément que l’espérance
conditionnelle E [θ|X] est une fonction linéaire de X. Dans le cas général il n’est pas ainsi, ce qui peut
rendre difficile sa mise en œuvre numérique. C’est pourquoi, même si l’hypothèse gaussienne n’est pas
justifiée, on s’intéresse à l’estimation linéaire bayesien, en particulier dans le cas des modèles linéaires
d’observation. Cela débouche sur le filtre de Wiener.
1.2
Estimation bayésienne linéaire en moyenne quadratique
Théorème 1.1 (Estimateur linéaire bayesien). Soit une observation X = (X1 , . . . , Xn )T et
un paramètre θ. On suppose connus £les moments conjoints ¤de (X, θ) jusqu’à
l’ordre deux, à ¤sa£
T , R
voir E [θ], £E [X] ainsi que RθX = E
(θ
−
E
[θ])(X
−
E
[X])
=
E
(θ
−
E
[θ])(θ − E [θ])T et
θθ
¤
RXX = E (X − E [X])(X − E [X])T . Alors l’estimateur linéaire bayesien de risque quadratique minimum est donné par :
−1
θ̂(X) = E [θ] + RθX RXX
(X − E [X])
(1.3)
Le risque quadratique minimale est donné par R = Tr(R²² ) où
−1
R²² = Rθθ − RθX RXX
RXθ
(1.4)
T .
et où RXθ = RθX
En effet l’approche linéaire bayésienne quadratique consiste à trouver l’estimateur de la forme :
θ̂(X) = E [θ] + A(X − E [X]) + a
oùh A est une matrice ide dimension p × n et a un vecteur de dimension p qui minimise
E (θ − θ̂(X))T (θ − θ̂(X)) .
D’après le théorème de projection, la solution est telle que ² = (θ − θ̂(X)) est orthogonal à chacune
des variables aléatoires de l’ensemble {1, (X1 − E [X1 ]), . . . , (Xn − E [Xn ])}. Le produit scalaire avec 1
s’écrit :
E [(θ − E [θ] − A(X − E [X]) − a)1] = 0
3
qui entraı̂ne que a = 0. Par conséquent, en regroupant les autres produits scalaires sous forme matricielle, on obtient :
£
¤
£
¤
E (θ − E [θ])(X − E [X])T = AE (X − E [X])(X − E [X])T
£
¤ £
¤−1
dont on déduit que A = E (θ − E [θ])(X − E [X])T E (X − E [X])(X − E [X])T
et donc que l’estimateur cherché a pour expression :
−1
θ̂(X) = E [θ] + RθX RXX
(X − E [X])
Considérons à présent la matrice de dispersion de cet estimateur définie par :
h
i
R²² = E (θ − θ̂(X))(θ − θ̂(X)))T
i
h
En utilisant l’orthogonalité précédente on note que E (θ − θ̂(X))θ̂(X)T = 0 et donc :
h
i
h³
´ i
R²² = E (θ − θ̂(X))θ T = E (θ − E [θ]) − (θ̂(X) − E [θ]) θT
h³
´
i
= E (θ − E [θ]) − (θ̂(X) − E [θ]) (θ − E [θ])T
h
i
= Rθθ − E (θ̂(X) − E [θ])(θ − E [θ])T
−1
D’après (1.3), θ̂(X) − E [θ] = RθX RXX
(X − E [X]), ce qui montre (1.4). On en déduit la valeur
minimale du risque qui s’écrit R = Tr(R²² ).
Remarquons ici que la solution nécessite uniquement la connaissance des deux premiers moments
du couple (X, θ) mais pas celle de leur loi de probabilité conjointe.
Exercice 1.1
Soit le modèle d’observation signal plus bruit Xk = θ+Wk où Wt est un bruit gaussien, centré, blanc, dePvariance
n
2
. On suppose que θ est uniforme sur (−θ0 , θ0 ) et que Wk et θ sont indépendants. On note X̄ = n−1 k=1 Xk .
σW
1.Montrer que l’estimateur bayesien a pour expression :
R θ0
0
θ̂N L (X) = R−θ
θ0
up(u)du
−θ0
p(u)du
´
³
2
2
.
où p(u) = (2πσW
/n)−1/2 exp − (u−X)
2
2σ /n
W
2.Montrer que l’estimateur linéaire bayesien a pour expression :
θ̂L (X) =
θ02 /3
2 /n X̄
+ σW
θ02 /3
4
Modèle linéaire
On dit que le modèle est linéaire si l’observation est relié au paramètre θ par une expression de la
forme :
X = Hθ + W
(1.5)
où H est une matrice connue de dimension n × p et W un bruit centré de matrice de covariance
connue RW W (voir l’exemple 1.1 où H = [1, . . . , 1]T ). On peut alors déduire du modèle d’observation
les expressions de RXθ et de RXX en fonction de H, Rθθ et RW W puis appliquer le résultat donné par
(1.3). Ce qui est résumé dans le résultat suivant.
Théorème 1.2 (Gauss-Markov bayesien). Soit le modèle linéaire d’observation défini par
X = Hθ + W
(1.6)
où X est un vecteur de longueur n représentant les observations, W un bruit centré, de matrice de
covariance RW W et θ un paramètre de moyenne a priori E [θ] et de covariance Rθθ . On suppose que
θ et W ne sont pas corrélés. L’estimateur bayesien linéaire est alors donné par :
θ̂(X) = E [θ] + Rθθ H T (HRθθ H T + RW W )−1 (X − HE [θ])
¡ −1
¢−1 T −1
−1
= E [θ] + Rθθ
+ H T RW
H RW W (X − HE [θ])
WH
(1.7)
(1.8)
et le risque bayesien R = Tr(R²² ) où :
R²² = Rθθ − Rθθ H T (HRθθ H T + RW W )−1 HRθθ
¡ −1
¢
−1
T −1
+ HRW
= Rθθ
WH
(1.9)
(1.10)
En effet partant de (1.6) un calcul simple montre que RθX = Rθθ H T et RXX = HRθθ H T + RW W .
Il suffit ensuite d’appliquer (1.3) et (1.4).
Exemple 1.1 : Egalisation
L’observation X (voir figure 1.1) est reliée à θ par le modèle linéaire X = Hθ + W où H est connu et où
le bruit W est indépendant de θ. C’est la situation rencontrée dans l’égalisation linéaire en communications
numériques. H représente alors les coefficients du filtre modélisant le canal de transmission. En pratique la
connaissance de H s’obtient, le plus souvent, en envoyant préalablement une séquence dite d’apprentissage.
W est le bruit supposé blanc. Et θ est la suite des symboles d’information. La connaissance de H et les
hypothèses du second ordre faites permettent de déterminer RθX et RXX .
θ
W
+
H
X
+
Fig. 1.1 – Egalisation linéaire.
5
A
θ
Estimation récursive
On souhaite à présent calculer de façon récursive θ̂. D’après (1.7), le calcul de θ̂(X) nécessite la
manipulation d’une matrice H de dimension n × p. Si cette matrice doit être construite à partir d’un
flux continu de données et que l’on veut effectuer le calcul en temps réel, le fait que la taille de H
croı̂t de façon illimitée rend difficile un calcul direct. L’algorithme récursif fournit une solution à ce
problème. Il présente en outre l’avantage de pas nécessiter d’inversion matricielle. Il fonctionne par
mise à jour de la valeur θ̂ au fur et à mesure que les données arrivent.
Indexons par n les éléments qui interviennent. Pour cela posons :
¸
·
¸ ·
Xn
n×1
(1.11)
Xn+1 =
=
1×1
Xn+1
·
¸ ·
¸
Hn
n×p
Hn+1 =
=
(1.12)
hTn+1
1×p
¸
·
RW W,n
0
2
2
(1.13)
RW W,n+1 = diag(σ1 , . . . , σn+1 ) =
2
0
σn+1
où nous avons supposé que le bruit Wt est à composantes non corrélées. Les solutions obtenues pour
l’estimateur aux étapes n et (n + 1) vérifient :
−1
Qn (θ̂n − E [θ]) = HnT RW
W,n (Xn − Hn E [θ])
−1
T
Qn+1 (θ̂n+1 − E [θ]) = Hn+1
RW
W (Xn+1 − Hn+1 E [θ])
´
³
−1
−1
T
où on a posé Qn = Rθθ + Hn RW W,n Hn . On vérifie aisément en utilisant (1.13) que :
−2
Qn+1 = Qn + σn+1
hn+1 hTn+1
−1
Q−1
n+1 = Qn −
T
−1
Q−1
n hn+1 hn+1 Qn
2
σn+1
+ hTn+1 Q−1
n hn+1
(1.14)
(1.15)
où nous avons utilisé l’identité (A + uuT )−1 = A−1 − A−1 uuT A−1 /(1 + uT A−1 u).
Un calcul, sans difficulté, donne :
−2
Qn+1 (θ̂n+1 − θ̂n ) = −(Qn+1 − Qn )(θ̂n − E [θ]) + hn+1 σn+1
(Xn+1 − hTn+1 E [θ])
−2
−2
= −σn+1
hn+1 hTn+1 (θ̂n − E [θ]) + hn+1 σn+1
(Xn+1 − hTn+1 E [θ])
−2
= hn+1 σn+1
(Xn+1 − hTn+1 θ̂n )
Par conséquent :
θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 E [θ])
−2
−1
où nous avons posé Kn+1 = Q−1
n+1 hn+1 σn+1 . En utilisant (1.15) et en posant Pn = Qn , on en déduit
que
2 P h
σn+1
Pn hn+1 hTn+1 Pn hn+1
n n+1
2
=
Kn+1 σn+1
= Pn+1 hn+1 = Pn hn+1 − 2
2
σn+1 + hTn+1 Pn hn+1
σn+1
+ hTn+1 Pn hn+1
6
et donc
Kn+1 =
2
σn+1
Pn hn+1
+ hTn+1 Pn hn+1
où Pn+1 vérifie (1.15), ce qui donne :
Pn+1
Pn hn+1 hTn+1 Pn
= Pn − 2
=
Ã
Pn hn+1 hTn+1
I− 2
!
Pn = (I − Kn+1 hTn+1 )P n
En définitif, on a l’algorithme récursif :
Valeurs initiales :
θ̂0 = E [θ]
P0 = Rθθ
Pour n = {0, 1, . . .} répéter :
Kn+1 =
2
σn+1
Pn hn+1
+ hTn+1 Pn hn+1
θ̂n+1 = θ̂n + Kn+1 (Xn+1 − hTn+1 θ̂n )
Pn+1 = (I −
Kn+1 hTn+1 )Pn
(1.16)
(1.17)
(1.18)
L’équation (1.17) montre que, si l’écart entre la valeur observée xn+1 et la valeur hTn+1 θ̂n est nulle alors
on laisse θ̂n inchangé. Sinon on ajuste θ̂n avec un gain Kn . La quantité hTn+1 θ̂n a une interprétation
simple : c’est la valeur qu’aurait xn+1 si le paramètre θ̂n calculé précédemment était juste.
Un calcul simple montre que la covariance de l’erreur quadratique à l’instant n est donnée par R ²² =
Pn . Remarquons que l’algorithme ne nécessite aucune inversion de matrice, que, sans connaissance a
priori sur θ, nous pouvons prendre Rθθ → +∞ enfin que le gain dépend de notre confiance dans la
donnée observée à l’instant n par l’intermédiaire de σn2 comparé à l’erreur de toutes les observations
précédentes et résumée dans Pn−1 .
Exercice 1.2
On considère l’observation Xt = A cos(2πf0 t + Φ) + Wt où la fréquence f0 est supposé connue où (A, Φ) est
2
le paramètre inconnu et où Wt est un bruit blanc, centré de variance σw
. Montrer que le problème peut se
mettre sous forme linéaire de θ = (θ1 , θ2 ). Ecrire l’algorithme récursif donnant l’estimateur linéaire bayesien.
On prendra E [θ] = 0 et Rθθ = σθ2 I.
1.3
Filtre de Wiener
Un exemple fondamental d’application de l’estimation linéaire bayesienne est le filtrage de
Wiener. Dans ce cas l’observation est la suite des p valeurs successives {Xn , Xn−1 · · · , Xn−p+1 }
d’un processus aléatoire Xt supposé stationnaire au second ordre, que l’on peut aussi supposé, sans
perte de généralité, centré. On note γX (h) sa fonction
d’autocovariance. Le paramètre θ est£ une
£ ¤
¤
variable aléatoire, supposée centrée, de variance E θ2 finie. On suppose connues les quantités E θ2 ,
7
£ ¤
£ ¤
γX (h) = E [Xt+h Xt ], et γθX (s) = E [θXn−s ] (notons que l’on a 2E [θXt ] ≤ E Xt2 + E θ2 < +∞).
Un exemple important est donné par le modèle d’observation bruitée Xt = St + Wt où Wt est
un bruit centré, de covariance connue et non corrélé à St . Dans ce contexte, partant de l’observation
{Xt ; n − p + 1 ≤ t ≤ n}, il est d’usage de distinguer les 3 cas suivants :
– le paramètre à estimer est θ = Sn . Cela signifie que l’on cherche à estimer Sn à partir du passé
et du présent. En général on réserve l’expression filtrage à cette situation.
– le paramètre à estimer est θ = Sk pour k < n. Cela signifie que l’on effectue l’estimation de Sk
après avoir observé Xt au delà de k. Cette opération porte le nom de lissage.
– le paramètre à estimer est θ = Sk avec k > n. On parle alors de prédiction.
Dans le cadre des processus aléatoires stationnaires du second ordre le théorème de projection
garantit l’existence et l’unicité de l’estimateur linéaire bayesien quadratique de θ en fonction de
Xn , . . . , Xn−p+1 . Celui-ci est donné par :
θ̂ = (θ|Hn,p ) où
Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 }
Il n’est alors pas étonnant que les équations donnant θ̂ aient des expressions analogues aux équations
de Yule-Walker. Notons :
θ̂ = ψ1,p Xn + · · · + ψp,p Xn−p+1 = [Xn · · · Xn−p+1 ]ψ p
(1.19)
Pour déterminer ψ p , il suffit d’exprimer, d’après le théorème de projection, l’orthogonalité entre la
variable aléatoire (θ − θ̂) et les variables aléatoires Xn−k pour tout k ∈ {0, . . . , p − 1}. On en déduit
que ψ p = [ψ1,p . . . ψp,p ]T est solution de l’équation :
Γp ψ p = γ p
(1.20)
où

γX (p − 1)


..

 γX (1)
γ
(0)
γ
(1)
.
X
X




..
..
..
..
Γp = 

.
.
.
.




..

.
γX (1) 
γX (p − 1) γX (p − 2)
···
γX (1)
γX (0)

γX (0)
γX (1)
···



et γ p = 

γθX (0)
γθX (1)
..
.
γθX (p − 1)





(1.21)
l’équation (1.20) nécessite l’inversion d’une matrice de Toëplitz dont on sait qu’il existe un algorithme
rapide dû à Levinson. Remarquons enfin que le problème de la prédiction linéaire d’un processus du
second ordre est un cas particulier du problème traité ici lorsque l’on fait θ = X n+1 .
Evidemment l’expression (1.19) fait penser à un filtrage linéaire. On notera toutefois que la suite
des coefficients ψj,p dépend en règle générale de p.
Exercice 1.3
On considère le schéma équivalent (voir figure 1.2) d’une chaı̂ne de communications numériques. L’entrée du
filtre de réception a pour expression Xn = an + φ1 an−1 + Wn . On suppose :
–que la suite des symboles ak est une suite de variables aléatoires, à valeurs dans {−1, 1}, indépendantes et
identiquement distribuées suivant une loi équiprobable (P(ak = 1) = 1/2)
8
a(n)
ϕ(n)
v(n)
W(n)
+
X(n)
+
ψ(n)
a(n)
Fig. 1.2 – Egalisation linéaire en communication numérique.
–que le bruit est gaussien, centré et blanc,
–et que an et Wn sont indépendants pour toute suite d’instants.
On suppose que φ1 6= 1 est connu.
1.Déterminer les expressions de la moyenne et de la fonction de covariance de la suite a n .
2.Déterminer, en fonction de σ 2 et de φ1 , les expressions de la moyenne et de la fonction de covariance de
la suite Xn .
3.Déterminer, en fonction de σ 2 et de φ1 , l’expression de la fonction de covariance entre an et Xn .
On considère tout d’abord qu’il n’y a pas de bruit (Wn = 0).
4.Montrer que an s’exprime en fonction du processus Xn par une expression de la forme :
X
ψk Xn−k
an =
k
où ψk est une suite, dépendant de φ1 , dont on déterminera l’expression (indication : on distinguera deux
cas suivant que |φ1 | < 1 ou que |φ1 | > 1).
5.On veut approcher la suite ψk par une suite finie de longueur p. Comment doit-on choisir p suivant la
position de |φ1 | par rapport à 1 ?
On considère maintenant que le bruit Wn est présent et on utilise pour estimer le symbole an−d , un filtre linéaire
de longueur p de la forme :
ân−d = ψ0 Xn + · · · + ψp−1 Xn−p+1
où d est un délai choisi a priori.
2
6.Déterminer, sous forme d’une équation
£ matricielle en
¤ fonction de φ1 et de σ , la suite ψ0 , . . . , ψp−1 (filtre
de Wiener) qui minimise J(ψ) = E (an−d − ân−d )2 . On pourra utiliser la notation :


1 φ1
0 ··· 0

.. 
0 1 φ 1 . . .
.


Φ = .

.
.
.
.
.
.
.
.
.
.
. 0
0 ···
0
1 φ1
7.Comment se fait le choix de d suivant que |φ1 | > 1 ou |φ1 | < 1.
Regardons à présent l’expression du filtre de Wiener lorsque l’on fait tendre p vers l’infini. La
solution précédente possède alors une forme limite appelé filtre de Wiener2 qui est encore donnée par
θ̂ = (θ|Hn ) où
Hn = span{Xt ; t ≤ n}
On rappelle en effet que (voir chapitre 3) :
2
Le mot filtre de Wiener est (malheureusement) utilisé avec des significations un peu différentes suivant le contexte.
9
Proposition 1.1. Soit Xn un processus stationnaire au second ordre. On note Hn = span{Xt ; t ≤ n}.
Alors pour tout θ ∈ L2 (Ω, F, P) et tout n ∈ Z nous avons :
(θ|Hn ) = lim (θ|Hn,p )
p→∞
où Hn,p = span{Xn , Xn−1 , · · · , Xn−p+1 }.
Supposons à présent qu’il existe une suite ψk causale et stable (
tout t ≥ 0, on ait :
+∞
X
k=0
Pp
P+∞
k=0 |ψk |
< +∞) telle que, pour
ψk γX (t − k) = γθX (t)
(1.22)
et posons
θ̃ = limp→+∞ t=0 ψt Xn−t
P
P. pOn vérifie aisément que, pour tout s ≥ 0, le produit scalaire
(θ − pt=0 ψt Xn−t , Xn−s ) = γθX
(s)−
t=0 ψt γX (s−t). Par continuité du produit scalaire, on en déduit
P+∞
que (θ − θ̃, Xn−s ) = γθX (s) − k=0 ψk γX (t − k), qui vaut 0 d’après l’équation (1.22). Par conséquent
θ̃ = (θ|Hn ).
Exercice 1.4
On considère l’observation Xt = Λ + Wt où Wt est un blanc, centré, blanc, de variance 1 et Λ une variable
aléatoire centrée, de variance 1, non corrélée à W .
1.Déterminer l’expression de la fonction d’autocovariance γX (h) de Xt ainsi que la fonction de covariance
entre Xt et Wt .
2.Déterminer en fonction de n l’expression de :
¯
¯2 
n−1
¯
¯
X1
¯
¯
Xn−k ¯ 
E ¯ Λ −
¯
¯
n
k=0
En déduire que Λ ∈ Hn = span{Xt ; t ≤ n}.
3.On suppose que Λ s’écrit :
Λ=
+∞
X
λk Xn−k
k=0
Déterminer, en fonction de λk , E [ΛWn−m ] pour m ≥ 0. Conclure.
Exercice 1.5
On considère l’observation Xt = St + Wt où St et Wt sont deux processus stationnaires au second ordre, centrés,
blancs, non corrélés entre eux. Déterminer le filtre de Wiener.
A première vue on pourrait penser résoudre (1.22) en utilisant la transformée de Fourier. Il n’en
est rien car le système d’équations n’est vrai que pour t ≥ 0. En ignorant cette contrainte, il n’est alors
pas sûr, comme le montre l’exemple suivant, que la solution stable trouvée soit causale. Supposons
que Xt soit un processus MA(1) bruité de la forme :
Xt = St + φSt−1 + Wt
2 , S un bruit blanc de variance σ 2 et où S et W sont supposés
où Wt est un bruit blanc de variance σW
t
u
t
S
non corrélés pour tout couple (t, u). On souhaite estimer θ = Sn . Un calcul simple montre que :
2
E [Xt+h Xt ] = σS2 δt + φσS2 δt−1 + φσS2 δt+1 + σW
δt
10
et E [Sn Xt ] = σS2 δn−t + σS2 φδn−t+1
En considérant à tortPl’expression (1.22) comme une convolution et en passant aux transformées en Z
(définies par φ(z) = k ψk z k ), on en déduit que :
ψ(z) =
z + φz
(1 + φz)(z + φ) + ρ
2 /σ 2 . On sait alors que, si le dénominateur de ψ(z) n’a pas de racines sur le cercle unité, il
où ρ = σW
S
existe une solution stable mais qui n’est pas nécessairement causale. Pour qu’il en soit ainsi il faut en
plus que ces racines soient à l’extérieur du cercle unité. Ici les deux racines sont réelles et de part et
d’autre du cercle unité.
Solution de Wiener
Reprenons l’équation (1.22) :
+∞
X
k=0
ψk γX (t − k) − γSX (t) = 0 pour
t≥0
On suppose que γX (h) et γSX (h) sont de module sommable.
la transformée en Z des deux
P∞ En prenant
t
membres de l’équation (1.22) et en notant [U (z)]+ = t=0 u(t)z la partie causale de u(t), il vient :
[ψ(z)fX (z) − fSX (z)]+ = 0
On a vu que, si la densité spectrale d’un processus stationnaire au second ordre était une fraction
rationnelle, alors elle se factorise sous la forme fX (z) = B(z)B ∗ (1/z ∗ ) où B(z) a toutes ses zéros et
tous ses pôles à l’extérieur du cercle unité. Par conséquent :


µ
¶

fSX (z) 
 ∗

∗
∗
∗
[ψ(z)B(z)B (1/z ) − fSX (z)]+ = B (1/z ) ψ(z)B(z) − ∗
 =0
B (1/z ∗ ) 

|
{z
}
C(z)
+
Comme B(z) a toutes ses zéros et tous ses pôles à l’extérieur du cercle unité, la suite de module
sommable qui lui est associée, est causale tandis que la suite, de module sommable associée à B ∗ (1/z ∗ ),
est une suite anticausale. Par conséquent pour que la convolution associée à B ∗ (1/z ∗ )C(z) ait sa partie
causale nulle, il faut que la partie causale [C(z)]+ soit nulle. Ce qui donne :
·
¸
fSX (z)
ψ(z)B(z) − ∗
=0
(1.23)
B (1/z ∗ ) +
En notant que ψ(z)B(z)
esti associée à une suite causale, on en déduit que la relation (1.23) est vérifiée
h
fSX (z)
si et seulement si B ∗ (1/z ∗ )
= ψ(z)B(z) et donc si :
+
·
¸
fSX (z)
1
ψ(z) =
B(z) B ∗ (1/z ∗ ) +
L’équation (1.24) est la solution du filtre de Wiener.
11
(1.24)
Exercice 1.6. AR(1) causal bruité
On considère l’observation Xt = St + Wt où Wt est un processus stationnaire au second ordre, centré, blanc et
où St est un processus AR(1) causal, non corrélé à Wt . Déterminer le filtre de Wiener qui estime St .
Exercice 1.7. MA(1) bruité
2
On considère le processus défini Xt = Yt + Wt où Yt = Zt + θZt−1 . Zt est un bruit blanc, centré, de variance σZ
,
2
Wt un bruit blanc, centré, de variance σW . On suppose que Zt et Wt ne sont pas corrélés et que −1 < θ < 1.
1.Déterminer les expressions de γX (h), γY X (h) et γZX (h).
2.Déterminer le filtre de Wiener qui estime Yn à partir de Xt , t ≤ n.
3.Déterminer le filtre de Wiener qui estime Sn à partir de Xt , t ≤ n.
12
Chapitre 2
Algorithme LMS
2.1
Notion de Filtrage adaptatif
Nous avons vu que l’estimation linéaire bayesienne quadratique débouchait, dans le cas des signaux
stationnaires, sur le filtre de Wiener dont l’expression dépend essentiellement des covariances entre le
paramètre estimé et l’observation. Dans le cas d’une estimation à partir d’un nombre fini d’observations
présente et passées, son expression est donnée par l’équation (1.20) que nous rappelons (et où nous
avons omis l’indice p relatif à l’ordre du filtre ψ) :
Γψ ? = γ
(2.1)
Γ représente la matrice de covariance de l’observation et γ la covariance entre l’observation et le
paramètre à estimer. Le problème semble donc complètement résolu. Il n’en est rien en pratique car,
d’une part les quantités Γ et γ ne sont pas connues, d’autre part l’hypothèse de stationnarité n’est
jamais vérifiée à long terme. Il faut donc les estimer au fur et à mesure que les observations arrivent.
Cela conduit à la recherche de ψ par un algorithme adaptatif de la forme :
ψ n = ψ n−1 + ∆n
Le terme adaptatif sous-entend en général les trois propriétés suivantes :
– l’algorithme converge (dans un sens à préciser vu le caractère aléatoire) vers la solution cherchée,
– le traitement se fait en temps réel sans intervention humaine,
– l’algorithme possède une capacité de poursuite en présence de non stationnarité.
Les algorithmes de gradient stochastique, souvent désigné par le sigle LMS (Least Mean Squares),
entre dans cette catégorie. Une autre famille est celle des algorithmes récursifs des moindres carrés
(RLS pour Recursive Least Squares).
Dans ce chapitre nous nous intéressons uniquement aux algorithmes de la famille dit du gradient
stochastique qui ont pour expression :
¯
∂J ¯¯
(2.2)
ψ n = ψ n−1 − λ
∂ψ ¯
ψ=ψn−1
avec λ > 0. n désigne l’instant présent de mise à jour et J : ψ 7→ R+ une fonction de coût que l’on
veut minimiser. L’idée contenue dans (2.2) est que cette minimisation peut s’obtenir en se déplaçant
dans un sens opposé (λ > 0) au sens du gradient, d’où le nom de l’algorithme.
13
Annulation d’écho
En annulation d’écho on dispose de deux suites d’observations (X, Y ) supposées stationnaires. Le
paramètre θn à estimer est supposé non corrélé à la suite Xn mais corrélé à l’observation Yn par la
relation Yn = θ+Bn où Bn représente l’écho produit par Xn . Dans de nombreuses situations pratiques,
l’écho Bn apparaı̂t comme un simple filtrage linéaire de Xn . En résumé on a :
(
Yn = θ + B n
Bn = h n ? X n
Partant de là, on choisit d’estimer θ par une expression de la forme :
θ̂ = Yn − ψ T Xn
(2.3)
où£ Xn = [Xn . . .¤ Xn−p+1 ] et où ψ est déterminé de façon à minimiser K(ψ) =
E (θ − (Yn − ψ T Xn ))2 . En développant K(ψ) on obtient :
£ ¤
£
¤
£
¤
K(ψ) = E θ2 − 2E [θYn ] − 2E θXTn ψ + E (Yn − ψ T Xn )2
£
¤
Comme θ et X ne sont pas corrélés et que 2E θT Y ne dépend pas de ψ, la minimisation de K(ψ)
par rapport à ψ se ramène à la minimisation de la fonction :
£
¤
J(ψ) = E (Yn − ψ T Xn )2
Dans le cas où Xn et Yn sont stationnaires et conjointement stationnaires, la solution ψ ? vérifie :
Γψ ? = γ
£
¤
T
où Γ = E Xn Xn et γ = E [Yn Xn ]. Elle dépend uniquement des statistiques au second ordre de
(X, Y ) qui peuvent alors être estimées à partir des observations.
Exemple 2.1 : Téléphonie main-libre
En “téléphonie main-libre”, le signal sortant du haut-parleur (figure 2.1), après un trajet acoustique dépendant
du lieu où on se trouve, entre dans le microphone et provoque un écho indésirable. En reprenant les notations
précédentes, θ représente le signal dû au locuteur devant le microphone, Y = θ + B représente le signal à
l’entrée du microphone, et X le signal sortant du haut-parleur. Le fait que l’on puisse modéliser le trajet
acoustique par un filtre linéaire, dont la réponse impulsionnelle inconnue peut comporter plusieurs centaines
de coefficients, justifie un traitement linéaire de la forme θ̂ = Y − ψ T X.
Généralement le signal θ représente une gêne dans l’adaptation du filtre surtout si les hypothèses
d’indépendance sont mal vérifiées. C’est pourquoi on utilise souvent un détecteur d’activité vocale qui sert
à arrêter l’adaptation du filtre (mais pas son utilisation) quand le signal θ est présent devant le microphone.
L’adaptation
se fait alors quand θ = 0, ce qui correspond précisément à la minimisation du terme
i
h
T
2
E (Y − ψ X) .
Exemple 2.2 : Canal full-duplex
On dit qu’un système de transmission est full-duplex si un seul canal est utilisé pour les deux sens de communication.
Cette situation se rencontre en transmission de données sur le canal téléphonique. Le signal présent sur le
canal est alors la somme du signal provenant de l’abonné distant et d’un écho, dû au signal émis par l’abonné
local. Avec les notations précédentes, θ est le signal distant, Y = X + B le signal reçu sur le canal et X le
signal local. En pratique on peut modéliser B comme un filtrage linéaire de X et supposer que X et θ ne sont
pas corrélés. L’annulateur d’écho estime θ par une expression de la forme θ̂ = Y − ψ T X.
14
Y
θ
θ
+
−
B
ψ
Canal
X
Fig. 2.1 – Annulation d’écho.
X
distant
ψ
local
−
θ
Y
θ
+
Fig. 2.2 – Transmission full-duplex.
2.2
2.2.1
Présentation de l’algorithme LMS
Algorithme du gradient déterministe
£
¤
Revenons au problème de la résolution de l’équation Γψ ? = γ où Γ = E Xn XTn et γ = E [Yn Xn ].
Rappelons que l’on cherche une suite de vecteurs ψ n qui converge vers le filtre ψ ? qui minimise la
fonction de coût :
£
¤
J(ψ) = E (Yn − XTn ψ)2
£ ¤
£
¤
£
¤
= E Yn2 − 2E Yn XTn ψ + ψ T E Xn XTn ψ
£ ¤
= E Yn2 − 2γ T ψ + ψ T Γψ
On a :
Γψ ? = γ
et
£ ¤
£ ¤
Jmin = E Yn2 − γ T ψ ? = E Yn2 − ψ T? Γψ ?
et par conséquent, si on pose V = ψ − ψ ? , on a :
J(ψ) = Jmin + V T ΓV
(2.4)
Le terme V T ΓV a une interprétation simple : il mesure l’excès d’erreur minimale par rapport à J min .
L’algorithme du gradient consiste en une mise à jour de la quantité ψ n , obtenue à l’instant présent n,
au moyen de la relation de récurrence :
¯
∂J ¯¯
ψ n = ψ n−1 − λ
∂ψ ¯ψ=ψn−1
15
où λ est un nombre positif. Calculant l’expression du gradient de J(ψ) puis portant le résultat dans
l’équation précédente, nous obtenons :
ψ n = ψ n−1 + µ(γ − Γψ n−1 )
(2.5)
où µ = 2λ > 0. On note que l’algorithme ne nécessite pas d’inversion de matrice. On en déduit :
Vn = (I − µΓ)Vn−1
où
Vn = ψ n − ψ ?
Remarquons que Vn décroı̂t comme (1 − µλi )n = e−n/n0 où n0 = −1/ log(1 − µλi ) ≈ 1/µλi . Par
conséquent les “modes” les moins puissants sont ceux qui mettent le plus de temps à s’annuler.
Exemple 2.3
Nous avons reporté à la figure 2.3 l’évolution de l’écart quadratique entre ψ n et ψ ? au cours de N = 1000
itérations, pour Γ = diag([1 0.01]) et ψ ? = [1 1]T . Nous observons que la courbe comporte deux parties
qui correspondent aux réductions successives des modes correspondant aux deux valeurs propres de Γ, de la
plus grande à la plus petite. Ce résultat est très général. Ce qui joue un rôle déterminant dans la rapidité
de décroissance des modes associés à chaque valeur propre est le produit µλ i . La rapidité est d’autant plus
grande que µλi est plus proche de 2 (par valeur inférieure). Par conséquent, pour la valeur propre 1, le choix
de µ = 1 est bon ; par contre, pour la valeur propre 0,004, il faudrait une valeur de µ bien plus grande pour
accélérer la descente. Malheureusement, pour éviter que l’algorithme diverge, on ne peut pas toucher à µ.
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0
200
400
600
800
1000
Fig. 2.3 – Evolution de l’écart quadratique entre la vraie valeur de ψ ? et
la valeur ψ n , en fonction du nombre de pas d’itérations de l’algorithme du
gradient déterministe.
Exercice 2.1. Convergence de l’algorithme du gradient
On se propose d’étudier l’existence d’une solution limite quand n tend vers l’infini de l’équation récurrente 2.5.
On note ψ ? le filtre de Wiener, c’est-à-dire le filtre qui vérifie Γψ ? = γ. On suppose Γ > 0 et on note Γ = QT λQ
la décomposition propre de Γ où Q est unitaire et où Λ = diag(λ1 , . . . , λp ). On pose Wn = Q(ψ n − ψ ? ).
1.Déterminer, en fonction de ψ 0 et de la matrice An = I − µn Γ, l’expression de la solution ψ n de l’équation
(2.5) dans laquelle on a remplacé µ par µn :
ψ n = ψ n−1 + µn (γ − Γψ n−1 )
16
2.Montrer que Wn = (I − µn Λ)Wn−1 .
3.Montrer que, si µn = µ vérifie la double inégalité :
0<µ<
2
maxi (λi )
alors ψ n converge vers ψ ? . Comment se traduit la dispersion des valeurs propres de Γ (traiter le cas
p = 2) en terme de décroissance.
4.On suppose à présent que µn tend vers 0. Dans ce cas à partir d’un certain rang |1 − µk λj | = 1 − µk λj .
Montrer :
n
X
log(1 − µk λj ) + Cte
log(|wn (j)|) =
k=1
P
En notant que log(1 − x) ≤ −x, déduire que, si k µk = +∞ (par exemple µn = 1/n), alors ψ n converge
vers ψ ? . On remarque que,
P si x ∈ (0, x0 ) avec x0 < 1, alors il existe ρ tel que −ρx ≤ log(1 − x). En
déduire que la condition k µk = +∞ est aussi nécessaire.
En résumé l’algorithme du gradient déterministe converge, à condition que µ n soit constantPmais
suffisamment faible ou que µn tende vers 0, mais suffisamment lentement pour que la série
n µn
diverge. Lorsque le gradient déterministe est remplacé par une expression mettant en jeu des quantités
aléatoires, l’analyse est plus difficile. Pour commencer nous allons considérer un exemple.
2.2.2
Exemple introductif : estimation de la moyenne
L’estimation de la moyenne d’un processus stationnaire au second ordre va nous donner un exemple
d’algorithme adaptatif qui permet d’illustrer la plupart des problèmes rencontrés en filtrage adaptatif.
Considérons le processus aléatoire Xt stationnaire au second ordre de moyenne µ = E [Xt ]. Pour
estimer µ, on peut utiliser l’estimateur empirique :
µ̂n =
1
(X1 + · · · + Xn )
n
(2.6)
qui peut se mettre sous la forme récursive (2.2) :
µ̂n = µ̂n−1 + λn (Xn − µ̂n−1 )
(2.7)
où λn = 1/n (avec comme condition initiale µ̂0 = 0). D’après la loi des grands nombres, l’acquisition
automatique est garantit puisque µ̂n converge presque sûrement vers le paramètre cherché :
µ̂n →p.s. µ
Pour étudier la capacité de poursuite, considérons un changement soudain de la moyenne à l’instant
T de la forme E [Xt ] = µ1 11(t ≤ T ) + µ2 11(t > T ). Nous avons alors pour n > T :
µ̂n − µ2 =
et donc µ̂n − µ2 =
T
n (µ1
T
n
1X
1 X
(Xt − µ2 ) +
(Xt − µ2 )
n
n
t=1
t=T +1
− µ2 ) + e où
T
n
1X
1 X
e=
(Xt − µ1 ) +
(Xt − µ2 )
n
n
t=1
t=T +1
17
est une variable aléatoire centrée. Il s’en suit que :
£
¤
²2 = E (µ̂n − µ2 )2 ≥ T 2 (µ1 − µ2 )2 /n2
Si on veut atteindre une précision de ²2 il faut donc prendre n > T |µ1 − µ2 |/². On en déduit que,
plus T est grand, plus n devra être grand pour atteindre un niveau proche de µ 2 . La raison est que le
pas d’adaptation λn = 1/n (voir équation (2.7)) tend vers 0 quand n tend vers l’infini. L’algorithme
perd donc sa capacité de poursuite. Ce résultat est général : quand n tend vers l’infini, la propriété
de convergence nécessite que µn tende vers 0 tandis que la capacité de poursuite veut que µn reste
suffisamment grand. Pour éviter la perte de la capacité de poursuite, l’idée est alors de prendre comme
algorithme :
µ̂n = µ̂n−1 + λ(Xn − µn−1 )
(2.8)
où λ est très petit mais sans être nul. De façon analogue nous allons retrouver un pas constant petit
dans l’algorithme LMS.
Voyons comment l’algorithme (2.8) se comporte aux niveaux de l’acquisition d’une part et de la
capacité de poursuite d’autre part. Un calcul simple donne :
¡
¢
µ̂n = λ Xn + · · · + (1 − λ)j Xn−j + · · · + (1 − λ)n−1 X1
Il s’en suit que, quand n croı̂t et si 0 < λ < 2, les termes du passé sont “oubliés” de façon exponentielle
avec le taux (1 − λ). D’où une capacité à mieux prendre en compte les propriétés statistiques des
échantillons récents. Malheureusement la propriété de convergence n’est plus assurée. En effet en
supposant que Xt est un processus aléatoire de moyenne µ et de covariance γX (h), on obtient :
£
¤
1 − (1 − λ)2n
E (µ̂n − µ)2 = γX (0)λ
+ µ2 (1 − λ)2n
2−λ
Quand n tend vers l’infini, on a :
£
¤
λ
E (µ̂n − µ)2 ∼ γX (0)
2−λ
La propriété d’acquisition est perdue. Heureusement l’écart quadratique asymptotique peut être rendue
aussi faible que l’on veut, en prenant :
λ¿2
En conclusion il en ressort que, plus le pas d’adaptation est petit, meilleure est la capacité d’acquisition
mais pire est la capacité de poursuite. Il faut donc envisager un certain compromis entre ces deux
exigences.
2.2.3
Algorithme du gradient stochastique
Reprenons l’équation (2.5), donnant la récursion de l’algorithme du gradient. On peut encore
écrire :
¤
£
ψ n = ψ n−1 + µ(E [Yn Xn ] − E Xn XTn ψ n−1 )
£
¤
= ψ n−1 + µE Xn (Yn − XTn ψ n−1 )
18
Le terme en = Yn − XTn ψ n−1 a une signification particuluière : il représente l’écart entre la valeur
calculée avec la coefficients ψ n−1 à l’étape précédente et la valeur observée en absence de bruit.
L’algorithme LMS (Least Mean Square) ou algorithme du gradient stochastique, imaginé par Widrow,
fournit une solution adaptative simple, en remplaçant E [Xn en ] par sa valeur “instantanée”. Ce qui
conduit à l’algorithme suivant :
Valeurs initiales :
ψ 0 = 0,
Pour n = {1, . . .} répéter :
• e(n) = Yn − XTn ψ n−1
• ψ n = ψ n−1 + µXn en
Concernant la convergence de l’algorithme, deux questions se posent :
– Existe-t-il des valeurs initiales ψ0 et des valeurs de µ qui assurent la convergence de l’algorithme
vers le filtre de Wiener (dans un sens qui reste à préciser puisque ψn est aléatoire) ?
– Dans le cas de l’existence de plusieurs minima, existe-t-il une condition pratique portant sur le
choix de la valeur initiale qui garantisse la convergence vers le minimum global ?
Ces problèmes sont difficiles à résoudre car la suppression de l’espérance mathématique dans l’équation
récurrente rend l’analyse très complexe. Dans cette brève introduction de l’algorithme LMS, nous nous
limitons à l’étude de la convergence de E [ψ n ] dans le cas où les entrées sont indépendantes.
2.3
Algorithme LMS à entrées indépendantes
Reprenons l’équation d’adaption du LMS où nous remplaçons µ par µn de façon à étudier la
convergence et la capacité de poursuite :
ψ n = ψ n−1 + µn Xn (Yn − XTn ψ n−1 )
Nous supposons que l’hypothèse suivante :
la suite Xn est i.i.d.
(H)
est vérifiée. Cette hypothèse est irréaliste puisque Xn et Xn−1 partagent plusieurs coordonnées en
commun. Néanmoins elle est largement utilisée dans la littérature pour mettre en évidence le comportement de l’algorithme en fonction du choix de µn .
Comportement de E [ψ n ]
Notons Vn = ψ n − ψ ? l’écart entre le filtre obtenu à l’instant n et la solution de Wiener. On a :
Vn = (I − µn Xn XTn )Vn−1 + µn Xn (Yn − XTn ψ ? )
Notons que :
£
¤
E Xn (Yn − XTn ψ) = γ − Γψ ? = 0
19
(2.9)
Par conséquent :
En utilisant l’hypothèse H, on a :
¤
£
E [Vn ] = E (I − µn Xn XTn )Vn−1
E [Vn ] = (I − µn Γ)E [Vn−1 ]
Et donc, d’après les résultats obtenus pour l’algorithme du gradient déterministe, si µ n = µ <
2/ maxi λi , alors :
E [ψ n ] → ψ
Désajustement
Dans l’équation (2.4), le terme V T ΓV mesure l’écart introduit par l’algorithme du gradient par
rapport à l’erreur minimale. Ici Vn est aléatoire. Ce qui conduit aux définitions de l’excès d’erreur
quadratique minimale :
¤
£
²n = E [J(ψ n ) − Jmin ] = E VnT ΓVn
et du désajustement
Mn =
On a
²n
Jmin
£ T
¤
£
¤
£
¤
T
T
²n = E Vn−1
ΓVn−1 = E Tr(ΓVn−1 Vn−1
) = Tr(ΓE Vn−1 Vn−1
)
En utilisant l’hypothèse H et certaines approximations, on obtient Mn ≈ µTr(Γ).
2.4
Résultat numérique en annulation d’écho
Le signal utile Sn est nul et le signal comportant l’écho est Yn = 0 + hn ? Xn où hn est le filtre de
réponse impulsionnelle finie {1 0,3 −0,1 0,2} supposé inconnu et Xn un bruit blanc. La longueur du
filtre d’annulation d’écho est 20. Les valeurs en décibels du carré de l’erreur, obtenues par l’algorithme
LMS et intégrées avec un facteur d’oubli de 0,2, sont reportées figure 2.4 en fonction du nombre de
pas d’algorithme. Les valeurs de µ = 0,02 et µ = 0,05 conduisent à la convergence. On observe que la
vitesse de convergence la plus faible correspond à la valeur de µ la plus faible.
.
Dans le cas où on est en présence d’une activité vocale devant le microphone, le signal S n produit
par l’utilisateur du microphone intervient comme un bruit qui s’ajoute à l’écho. Cela rend plus difficile
l’adaptation de l’algorithme et ce d’autant plus que le signal Sn est relativement puissant par rapport
à l’écho. Nous avons effectué la simulation suivante : le signal d’écho est un bruit blanc filtré. La figure
2.5 montre les résultats obtenus : l’annulation est satisfaisante au bout d’environ 200 échantillons.
En pratique on adopte souvent, pour fixer la valeur de µ, la procédure suivante : on augmente
progressivement µ jusqu’à ce que l’algorithme diverge puis ensuite on réduit la valeur obtenue d’au
moins 10%. Une fois la valeur de µ fixée, on présente les résultats sous la forme de l’évolution du carré
de l’écart instantané p(n) = e2 (n). Toutefois comme la forme de p(n) est souvent très chaotique, il est
d’usage de lisser p(n) en moyennant sur N valeurs consécutives.
20
0
−50
µ =0,02
−100
−150
−200
−250
µ =0,05
−300
−350
0
500
1000
1500
2000
2500
3000
Fig. 2.4 – Algorithme LMS : évolution de l’écart quadratique, en dB, en
fonction du nombre de pas de l’algorithme, pour deux valeurs du pas µ = 0,02 et
µ = 0,05. L’écho est un bruit blanc filtré par le filtre de réponse impulsionnelle
finie {1 ; 0,3 ; −0,1 ; 0,2}.
1
0
−1
3500
5
4000
4500
5000
5500
6000
6500
4000
4500
5000
5500
6000
6500
4000
4500
5000
5500
6000
6500
0
−5
3500
1
0
−1
−2
3500
Fig. 2.5 – Algorithme LMS : Courbe du haut : signal de parole sans l’écho ;
Courbe du milieu : signal de parole auquel s’ajoute l’écho, qui est un bruit blanc
filtré par le filtre de réponse impulsionnelle finie {1 ; 0,3 ; −0,1 ; 0,2} ; Courbe du
bas : signal après traitement.
21
Il apparaı̂t à la convergence un désajustement dû au fait que µ 6= 0. Ce que l’on peut retenir est
que le désajustement est d’autant plus petit que µ est petit. En contrepartie la vitesse de descente
est plus faible. Il y a donc un compromis à trouver entre ces deux exigences. Les exemples qui suivent
mettent en évidence ces comportements.
Exercice 2.2
Cette exercice est la suite de l’exercice 1.3. On suppose à présent que φ1 varie lentement et on souhaite effectuer
un filtrage adaptatif de Xn . On note ψ(n) = {ψk (n)}{k=0,...,p−1} le “filtre” égaliseur obtenu à l’instant n.
Déterminer l’algorithme LMS d’adaptation de ψ(n) basé sur la minimisation de J(ψ).
Exercice 2.3
Soit Zn un processus aléatoire i.i.d., centré de variance 1 et soit le processus Xn stationnaire défini par Xn =
(1 − α)Zn + αXn−1 où 0 < α < 1.
£ ¤
1.Montrer que E Xn2 = (1 − α)/(1 + α).
2.On note ψ le prédicteur optimal d’ordre 1 défini par Yn = ψX
£ n−1
¤ et ẽn = Xn − Yn son erreur associée.
Déterminer l’expression de ψ ainsi que l’écart quadratique E ẽ2n associée.
3.Ecrire les équations de l’algorithme LMS donnant ψ̂n .
4.On note Vn = ψ̂n − ψ. Montrer que ẽn est indépendant de Xn−1 . Vn−1 est-il indépendant de ẽn ? Vn−1
est-il indépendant de Xn−1 ? Que peut-on dire si α est petit ?
Exercice 2.4. Suppression d’un brouilleur sinusoı̈dal
On suppose que l’on observe le signal Yt = A cos(2πf0 t + Φ) + St où f0 et une fréquence connue, A et φ des
paramètres inconnus et St un signal utile. On suppose que A et Ψ peuvent être considérés comme aléatoires
indépendants de St . D’où l’idée de soustraire à Xt un mélange pondéré de sinusoı̈des de fréquence f0 décalées.
En déduire un algorithme LMS qui annule le brouilleur sinusoı̈dal.
22

Filtre de Wiener

Transcription

Documents pareils

Proj` Courte

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

Projet : réalisation d`un jeu simple

Chute libre verticale

FILTRE POUR REFRIGERATEUR SAMSUNG HAFEX

TP2 Base de Données Avancée : JDBC 1

TP Analyse d`un syst`eme dynamique discret : la suite logistique

Master 2 Biostatistiques - UE Bayes

Sujet de partiel d`avril 2004

ASPIRATEUR FIORELLO sans sac ASPIRATEUR FIORELLO sans sac