III. Principe dynamique. Equations de Hamilton-Jacobi

Transcription

III. Principe dynamique. Equations de Hamilton-Jacobi
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
III. Principe dynamique.
Equations de Hamilton-Jacobi-Bellman
27
$
%
On considère, dans toute la suite, le problème de contrôle optimal:
Z
(Px )
Contrôle optimal et équation HJB
'
&
Cadre d’étude
+∞
Minimiser J(yx , u) =
e−λt `(yx (t), u(t))dt
0

 ẏ (t) = f (y (t), u(t)), t > 0
x
x
avec:
 yx (0) = x
u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U }
Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique
f : IRn × IRm 7−→ IRn sont supposées lipschitziennes et bornées. L’ensemble des
commandes U ⊂ IRm est supposé compact.
28
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
On définit la fonction valeur V : IRn → IR associé à (Px ) par:
V (x) := inf(Px ),
pour x ∈ IRn .
Lemme 1 La fonction valeur V (·) est uniformément continue.
29
$
%
u|(0,τ )
Contrôle optimal et équation HJB
Proposition 1 [ Bellman, 1950]
Soit x ∈ IRn et 0 < τ . Alors on a la formule récursive:
Z τ
−λs
−λτ
V (x) = inf
e `(yx(s), u(s))ds + e V (yx (τ )) .
'
&
Principe de programmation dynamique (PPD)
0
Remarque: Soit u ∈ U, et yx l’état associé à u qui démarre en x.
u → (u1 = u|(0,τ ) , u2 = u|(τ,+∞) ) ∈ U1 × U2
yx → (y1 ≡ yx |(0,τ ) , y2 ≡ yx |(τ,+∞) ≡ yyx (τ ) )
30
où U1 = L2 (0, τ ; U ) et U2 = L2 (τ, +∞; U ).
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
7
10
6
5
A
6
8
7 7
9
10
8
6
8
5
9
5
10
Contrôle optimal et équation HJB
'
&
Un petit exemple simple pour comprendre le PPD:
Une compagnie aérienne cherche à minimiser le temps de vol de ses avions, tenant
compte
desreplacements
vents et des restrictions imposées par le contrôle aérien. Les trajets possibles
PSfrag
sur la direction Est-Ouest sont représentés par un ensemble de points “checkpoints”,
entre lesquels l’avion doit aller en ligne droite; le temps de trajet associé (calculé en
moyenne) est représenté (Fig. 1).
12
6
x
10
7
11
B
9
7
Figure 1: Temps de trajet associés aux routes possibles
1. Calculer le temps minimum pour aller du point x au point B. En procédant de
manière récursive (de B vers A), compléter le schéma suivant, qui associe à chaque
31
$
%
PSfrag replacements
18
10
23
A
16
Contrôle optimal et équation HJB
12
'
&
5
6
7
8
9
intersection le temps minimum (et le trajet correspondant) pour aller à B:
B
11
20
Figure 2: Temps minimum pour atteindre B.
2. En déduire un chemin optimal.
32
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Equation HJB: Point de vue formel
Supposons V différentiable et fixons u(t) = u0 ∈ U pour t ∈ (0, τ ). Alors
yx (t) = x + tf (x, u0 ) + o(t),
d’où
V (yx (t)) = V (x) + tDV (x) · f (x, u0 ) + o(t),
et donc, d’après le DPP, pour tout τ > 0:
Z τ
`(yx (t), u0 )e−λt dt + V (yx (τ ))e−λτ ,
V (x) ≤
0
= τ `(x, u0 ) + V (x)(1 − λτ ) + τ DV (x) · f (x, u0 ) + o(t).
Faisant tendre τ vers 0, il vient
λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) ≤ 0.
u0 ∈U
(10)
33
$
%
0
d’où par des calculs similaires
λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) = 0.
u0 ∈U
Contrôle optimal et équation HJB
'
&
Si de plus il existe une trajectoire optimale ū(t) continue en 0, notant y x (t) l’état associé,
alors :
Z s
V (x) =
e−λt `(yx (t), ū(t))dt + V (yx (s))e−λs ,
(11)
Combinant à (10) nous obtenons le résultat suivant :
Théorème 7 Si V est différentiable en x, et s’il existe une trajectoire optimale continue
en x, alors
λV (x) − H(x, DV (x)) = 0,
(12)
où H : IRn × IRn → IR, défini par: H(x, p) = minu∈U `(x, u) + p · f (x, u) .
34
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
La fonction V n’est pas dérivable en général!
Exemple: Prendre `(x, u) = min(x2 − 1, 0)2 , λ = 1,
U := {−1, 1}.
35
$
%
Définition 2
(i) v : IRn −→ IR est sous-solution de viscosité de (12) si
Contrôle optimal et équation HJB
supposons F : IRn × IR × IRn 7−→ IR continue.
'
&
Notion de viscosité F (x, v(x), Dx v(x)) = 0, x ∈ IRn
F (xo, v(xo ), p) ≤ 0 ∀xo ∈ IRn , ∀p ∈ D +v(xo ).
(ii) v est sur-solution de viscosité de (12) si,
F (xo, v(xo ), q) ≥ 0 ∀xo ∈ IRn , ∀q ∈ D − v(xo)
Sous-différentiel
D − v(xo ) :=

Sur-différentiel
D + v(xo ) :=

ff
q ∈ IRn |
lim inf v(y) − v(xo ) − hq, y − xo )i
≥0
|y − xo |
y → xo
p ∈ IRn |
ff
lim sup v(y) − v(xo ) − hp, y − xo )i
≤0 .
y → xo
|y − xo |
36
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Lemme 2 Soit Ω un domaine ouvert de IRn et soit
v : Ω 7−→ IR une fonction continue. Alors
i) p ∈ D + v(xo) ssi il existe une fonction Φ ∈ C 1(Ω) tel que
DΦ(xo) = p et v − Φ admet un maximum local en xo.
ii) q ∈ D −v(xo ) ssi il existe une fonction Φ ∈ C 1 (Ω) tel que
DΦ(xo) = q et v − Φ admet un minimum local en xo.
37
$
%
F (xo, v(xo ), DΦ(xo )) ≤ 0.
Contrôle optimal et équation HJB
'
&
Définition 3
(i) La fonction v : IRn −→ R est sous-solution de viscosité de
(12) si, pour tout Φ : IRn −→ IR de classe C 2 , si xo est un point
de maximum local de v − Φ, alors
(13)
(ii) v est sur-solution de viscosité de (12) si, pour tout
Φ : IRn −→ IR de classe C 2, si xo est un point de minimum
local de v − Φ, alors
F (xo, v(xo ), DΦ(xo )) ≥ 0.
(14)
38
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
IV. Approximation de la fonction valeur.
39
$
%
(Px )
Z +∞
Minimiser J(yx , u) =
e−λt `(yx (t), u(t))dt
0

 ẏ (t) = f (y (t), u(t)), t > 0
x
x
avec:
 yx (0) = x
Contrôle optimal et équation HJB
'
&
On reprend les mêmes notations du chapitre III.
u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U }
Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique f : IRn × IRm 7−→ IRn sont
supposées lipschitziennes et bornées. L’ensemble des commandes U ⊂ IR m est supposé compact.
40
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
La fonction valeur définie par V (x) = inf(Px ), vérifie un
principe de programmation dyamique:
Z τ
−λt
−λτ
V (x) = inf
(15)
`(yx (t), u(t))e dt + V (yx (τ ))e
u∈U
Contrôle optimal et équation HJB
'
&
Rappel:
0
De plus V est solution de viscosité de l’équation HJB suivante:
λV (x) − H(x, DV (x)) = 0 ∀x ∈ IRn ,
où H(x, p) = minu∈U `(x, u) + p · f (x, u) .
(16)
41
$
&
'
✐ Séance 3: Discrétisation du principe dynamique & mise en
oeuvre sur des exemples en dimension 1 et 2.
Contrôle optimal et équation HJB
%
Plan des séances 3 & 4:
✐ Séance 4: Finir l’étude théorique de l’équation HJB. Preuve
de convergence du schéma mis en oeuvre en séance 3 et
analyse d’erreur.
42
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Semi-discrétisation
Soit τ > 0. On considère une approximation de (15) de la
forme:
V τ (x) = inf {`(x, u)τ + (1 − λτ )V τ (yx (τ ))} ,
u∈U
x∈IRn (17)
où yx est solution de: ẏx (t) = f (yx (t), u) t ∈ (0, τ ); yx (0) = x.
D’autres disrétisations sont possibles, comme par exemple:
o
n
V τ (x) = inf `(x, u)τ + V τ (yx (τ ))e−λτ ,
u∈U
∀x ∈ IRn .
(17’)
L’equation (17) admet-elle une solution?
43
$
%
Contrôle optimal et équation HJB
'
&
Théorème 8 Pour τ suffisament petit, l’équation (17) admet
une solution unique V τ . De plus, V τ est bornée, continue sur
IRn , et on a:
kV τ k∞ ≤ λ−1 k`k∞ .
(18)
Notation. Pour toute fonction g ∈ Cb (IRn ), kgk∞ = supx∈IRn |g(x)|.
44
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Idée de la preuve:
Etape 1: Considèrons le problème discret (Pxτ ):

∞
X



(1 − λτ )k `(yx (kτ ), uk );
Min τ



k=0

ẏx (t) = f (yx (t), uk ),




 uk ∈ U ∀ k ∈ IN,
t ∈]kτ, (k + 1)τ [;
yx (0) = x,
La fonction valeur Ve τ (x) = Inf (Pxτ ) vérifie le principe (17).
Remarque: Dans le problème discret, le contrôle est remplacé
par une fonction constante sur chaque intervalle ]kτ, (k + 1)τ [.
45
$
%
Contrôle optimal et équation HJB
'
&
Etape 2: On montre que Ve τ est continue bornée.
Etape 3: On construit l’opérateur T : Cb(IRn ) → Cb(IRn ), par:
T W (x) := inf {τ `(x, u) + (1 − λτ )W (yx(τ ))} .
u∈U
T est un opérateur contractant dans Cb(IRn ), donc T admet
un unique point fixe V τ dans Cb(IRn ).
On déduit des étapes1 et 2 que V τ = Ve τ .
46
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Algorithme de reconstruction des trajectoires optimales
1. on définit
τ
u∗,0
x = argmin{τ `(x, u) + (1 − λτ )V (yx (τ ))}
u∈U
où yx est l’état associée au contrôle constant u, solution de:
yx (t) = f (yx (t), u),
pour t ∈ (0, τ ),
yx (0) = x.
Notons aussi y ∗,0 = x, et y ∗,1 = yx∗ (τ ) où yx∗ est l’état associé à u = ux∗,0 .
2. Pour k = 1, 2, · · · , on construit
τ
u∗,k
x = argmin{τ `(x, u) + (1 − λτ )V (yy ∗,k (τ ))}
u∈U
où yy∗,k est l’état associée au contrôle constant u, solution de:
y(t) = f (yx (t), u),
pour t ∈ (0, τ ),
y(0) = y ∗,k .
47
On note y ∗,k+1 = yy∗∗,k (τ ) où yy∗∗,k est l’état associé à u = u∗,k
x .
$
%
∀t ∈]kτ, (k + 1)τ [ et ∀k ∈ IN.
(19)
Contrôle optimal et équation HJB
u∗x (t) := u∗,k
x ,
'
&
Avec la suite (u∗,k
x )k on construit un contrôle constant par
morceaux:
Théorème 9 Pour tout x ∈ IRn , on a:
V τ (x) = W (x, u∗x ) = inf(Pxτ )
et u∗x est la solution optimale de (Px).
De plus V τ converge uniformément vers V lorsque τ → 0.
48
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
Approximation totale
Soit τ > 0, h > 0 un pas d’espace, et soit G une grille régulière de pas h.
On note Xj les noeuds de G.
1. On part de V 0 quelconque. On calcule V 1 par
V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))).
u∈U
2. Tant que kV 1 − V 0 k > tol, on prend:
V 0 = V 1,
V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))).
u∈U
Ici, la quantité xj + τ f (xj , u) est une approximation de yxj (τ ).
49
$
&
'
Contrôle optimal et équation HJB
%
Remarques.
1) Pour manipuler numériquement V 0 et V 1 , on se contentera
de stocker les valeurs Vj0 = V 0 (xj ) et Vj1 = V 1 (xj ) pour xj ∈ G.
2) La valeur xj + τ f (xj , u) n’a aucune raison d’être un noeud
de G !
50
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"