III. Principe dynamique. Equations de Hamilton-Jacobi

Transcription

Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr
Contrôle optimal et équation HJB
'
&
III. Principe dynamique.
Equations de Hamilton-Jacobi-Bellman
27
$
%
On considère, dans toute la suite, le problème de contrôle optimal:
Z
(Px )
'
&
Cadre d’étude
+∞
Minimiser J(yx , u) =
e−λt `(yx (t), u(t))dt
0

 ẏ (t) = f (y (t), u(t)), t > 0
x
x
avec:
 yx (0) = x
u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U }
Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique
f : IRn × IRm 7−→ IRn sont supposées lipschitziennes et bornées. L’ensemble des
commandes U ⊂ IRm est supposé compact.
28
$
%
Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"
'
&
On définit la fonction valeur V : IRn → IR associé à (Px ) par:
V (x) := inf(Px ),
pour x ∈ IRn .
Lemme 1 La fonction valeur V (·) est uniformément continue.
29
$
%
u|(0,τ )
Proposition 1 [ Bellman, 1950]
Soit x ∈ IRn et 0 < τ . Alors on a la formule récursive:
Z τ
−λs
−λτ
V (x) = inf
e `(yx(s), u(s))ds + e V (yx (τ )) .
'
&
Principe de programmation dynamique (PPD)
0
Remarque: Soit u ∈ U, et yx l’état associé à u qui démarre en x.
u → (u1 = u|(0,τ ) , u2 = u|(τ,+∞) ) ∈ U1 × U2
yx → (y1 ≡ yx |(0,τ ) , y2 ≡ yx |(τ,+∞) ≡ yyx (τ ) )
30
où U1 = L2 (0, τ ; U ) et U2 = L2 (τ, +∞; U ).
$
%
7
10
6
5
A
6
8
7 7
9
10
8
6
8
5
9
5
10
'
&
Un petit exemple simple pour comprendre le PPD:
Une compagnie aérienne cherche à minimiser le temps de vol de ses avions, tenant
compte
desreplacements
vents et des restrictions imposées par le contrôle aérien. Les trajets possibles
PSfrag
sur la direction Est-Ouest sont représentés par un ensemble de points “checkpoints”,
entre lesquels l’avion doit aller en ligne droite; le temps de trajet associé (calculé en
moyenne) est représenté (Fig. 1).
12
6
x
10
7
11
B
9
7
Figure 1: Temps de trajet associés aux routes possibles
1. Calculer le temps minimum pour aller du point x au point B. En procédant de
manière récursive (de B vers A), compléter le schéma suivant, qui associe à chaque
31
$
%
PSfrag replacements
18
10
23
A
16
12
'
&
5
6
7
8
9
intersection le temps minimum (et le trajet correspondant) pour aller à B:
B
11
20
Figure 2: Temps minimum pour atteindre B.
2. En déduire un chemin optimal.
32
$
%
'
&
Equation HJB: Point de vue formel
Supposons V différentiable et fixons u(t) = u0 ∈ U pour t ∈ (0, τ ). Alors
yx (t) = x + tf (x, u0 ) + o(t),
d’où
V (yx (t)) = V (x) + tDV (x) · f (x, u0 ) + o(t),
et donc, d’après le DPP, pour tout τ > 0:
Z τ
`(yx (t), u0 )e−λt dt + V (yx (τ ))e−λτ ,
V (x) ≤
0
= τ `(x, u0 ) + V (x)(1 − λτ ) + τ DV (x) · f (x, u0 ) + o(t).
Faisant tendre τ vers 0, il vient
λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) ≤ 0.
u0 ∈U
(10)
33
$
%
0
d’où par des calculs similaires
λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) = 0.
u0 ∈U
'
&
Si de plus il existe une trajectoire optimale ū(t) continue en 0, notant y x (t) l’état associé,
alors :
Z s
V (x) =
e−λt `(yx (t), ū(t))dt + V (yx (s))e−λs ,
(11)
Combinant à (10) nous obtenons le résultat suivant :
Théorème 7 Si V est différentiable en x, et s’il existe une trajectoire optimale continue
en x, alors
λV (x) − H(x, DV (x)) = 0,
(12)
où H : IRn × IRn → IR, défini par: H(x, p) = minu∈U `(x, u) + p · f (x, u) .
34
$
%
'
&
La fonction V n’est pas dérivable en général!
Exemple: Prendre `(x, u) = min(x2 − 1, 0)2 , λ = 1,
U := {−1, 1}.
35
$
%
Définition 2
(i) v : IRn −→ IR est sous-solution de viscosité de (12) si
supposons F : IRn × IR × IRn 7−→ IR continue.
'
&
Notion de viscosité F (x, v(x), Dx v(x)) = 0, x ∈ IRn
F (xo, v(xo ), p) ≤ 0 ∀xo ∈ IRn , ∀p ∈ D +v(xo ).
(ii) v est sur-solution de viscosité de (12) si,
F (xo, v(xo ), q) ≥ 0 ∀xo ∈ IRn , ∀q ∈ D − v(xo)
Sous-différentiel
D − v(xo ) :=

Sur-différentiel
D + v(xo ) :=

ff
q ∈ IRn |
lim inf v(y) − v(xo ) − hq, y − xo )i
≥0
|y − xo |
y → xo
p ∈ IRn |
ff
lim sup v(y) − v(xo ) − hp, y − xo )i
≤0 .
y → xo
|y − xo |
36
$
%
'
&
Lemme 2 Soit Ω un domaine ouvert de IRn et soit
v : Ω 7−→ IR une fonction continue. Alors
i) p ∈ D + v(xo) ssi il existe une fonction Φ ∈ C 1(Ω) tel que
DΦ(xo) = p et v − Φ admet un maximum local en xo.
ii) q ∈ D −v(xo ) ssi il existe une fonction Φ ∈ C 1 (Ω) tel que
DΦ(xo) = q et v − Φ admet un minimum local en xo.
37
$
%
F (xo, v(xo ), DΦ(xo )) ≤ 0.
'
&
Définition 3
(i) La fonction v : IRn −→ R est sous-solution de viscosité de
(12) si, pour tout Φ : IRn −→ IR de classe C 2 , si xo est un point
de maximum local de v − Φ, alors
(13)
(ii) v est sur-solution de viscosité de (12) si, pour tout
Φ : IRn −→ IR de classe C 2, si xo est un point de minimum
local de v − Φ, alors
F (xo, v(xo ), DΦ(xo )) ≥ 0.
(14)
38
$
%
'
&
IV. Approximation de la fonction valeur.
39
$
%
(Px )
Z +∞
Minimiser J(yx , u) =
e−λt `(yx (t), u(t))dt
0

 ẏ (t) = f (y (t), u(t)), t > 0
x
x
avec:
 yx (0) = x
'
&
On reprend les mêmes notations du chapitre III.
u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U }
Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique f : IRn × IRm 7−→ IRn sont
supposées lipschitziennes et bornées. L’ensemble des commandes U ⊂ IR m est supposé compact.
40
$
%
La fonction valeur définie par V (x) = inf(Px ), vérifie un
principe de programmation dyamique:
Z τ
−λt
−λτ
V (x) = inf
(15)
`(yx (t), u(t))e dt + V (yx (τ ))e
u∈U
'
&
Rappel:
0
De plus V est solution de viscosité de l’équation HJB suivante:
λV (x) − H(x, DV (x)) = 0 ∀x ∈ IRn ,
où H(x, p) = minu∈U `(x, u) + p · f (x, u) .
(16)
41
$
&
'
✐ Séance 3: Discrétisation du principe dynamique & mise en
oeuvre sur des exemples en dimension 1 et 2.
%
Plan des séances 3 & 4:
✐ Séance 4: Finir l’étude théorique de l’équation HJB. Preuve
de convergence du schéma mis en oeuvre en séance 3 et
analyse d’erreur.
42
$
%
'
&
Semi-discrétisation
Soit τ > 0. On considère une approximation de (15) de la
forme:
V τ (x) = inf {`(x, u)τ + (1 − λτ )V τ (yx (τ ))} ,
u∈U
x∈IRn (17)
où yx est solution de: ẏx (t) = f (yx (t), u) t ∈ (0, τ ); yx (0) = x.
D’autres disrétisations sont possibles, comme par exemple:
o
n
V τ (x) = inf `(x, u)τ + V τ (yx (τ ))e−λτ ,
u∈U
∀x ∈ IRn .
(17’)
L’equation (17) admet-elle une solution?
43
$
%
'
&
Théorème 8 Pour τ suffisament petit, l’équation (17) admet
une solution unique V τ . De plus, V τ est bornée, continue sur
IRn , et on a:
kV τ k∞ ≤ λ−1 k`k∞ .
(18)
Notation. Pour toute fonction g ∈ Cb (IRn ), kgk∞ = supx∈IRn |g(x)|.
44
$
%
'
&
Idée de la preuve:
Etape 1: Considèrons le problème discret (Pxτ ):

∞
X



(1 − λτ )k `(yx (kτ ), uk );
Min τ



k=0

ẏx (t) = f (yx (t), uk ),




 uk ∈ U ∀ k ∈ IN,
t ∈]kτ, (k + 1)τ [;
yx (0) = x,
La fonction valeur Ve τ (x) = Inf (Pxτ ) vérifie le principe (17).
Remarque: Dans le problème discret, le contrôle est remplacé
par une fonction constante sur chaque intervalle ]kτ, (k + 1)τ [.
45
$
%
'
&
Etape 2: On montre que Ve τ est continue bornée.
Etape 3: On construit l’opérateur T : Cb(IRn ) → Cb(IRn ), par:
T W (x) := inf {τ `(x, u) + (1 − λτ )W (yx(τ ))} .
u∈U
T est un opérateur contractant dans Cb(IRn ), donc T admet
un unique point fixe V τ dans Cb(IRn ).
On déduit des étapes1 et 2 que V τ = Ve τ .
46
$
%
'
&
Algorithme de reconstruction des trajectoires optimales
1. on définit
τ
u∗,0
x = argmin{τ `(x, u) + (1 − λτ )V (yx (τ ))}
u∈U
où yx est l’état associée au contrôle constant u, solution de:
yx (t) = f (yx (t), u),
pour t ∈ (0, τ ),
yx (0) = x.
Notons aussi y ∗,0 = x, et y ∗,1 = yx∗ (τ ) où yx∗ est l’état associé à u = ux∗,0 .
2. Pour k = 1, 2, · · · , on construit
τ
u∗,k
x = argmin{τ `(x, u) + (1 − λτ )V (yy ∗,k (τ ))}
u∈U
où yy∗,k est l’état associée au contrôle constant u, solution de:
y(t) = f (yx (t), u),
pour t ∈ (0, τ ),
y(0) = y ∗,k .
47
On note y ∗,k+1 = yy∗∗,k (τ ) où yy∗∗,k est l’état associé à u = u∗,k
x .
$
%
∀t ∈]kτ, (k + 1)τ [ et ∀k ∈ IN.
(19)
u∗x (t) := u∗,k
x ,
'
&
Avec la suite (u∗,k
x )k on construit un contrôle constant par
morceaux:
Théorème 9 Pour tout x ∈ IRn , on a:
V τ (x) = W (x, u∗x ) = inf(Pxτ )
et u∗x est la solution optimale de (Px).
De plus V τ converge uniformément vers V lorsque τ → 0.
48
$
%
'
&
Approximation totale
Soit τ > 0, h > 0 un pas d’espace, et soit G une grille régulière de pas h.
On note Xj les noeuds de G.
1. On part de V 0 quelconque. On calcule V 1 par
V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))).
u∈U
2. Tant que kV 1 − V 0 k > tol, on prend:
V 0 = V 1,
V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))).
u∈U
Ici, la quantité xj + τ f (xj , u) est une approximation de yxj (τ ).
49
$
&
'
%
Remarques.
1) Pour manipuler numériquement V 0 et V 1 , on se contentera
de stocker les valeurs Vj0 = V 0 (xj ) et Vj1 = V 1 (xj ) pour xj ∈ G.
2) La valeur xj + τ f (xj , u) n’a aucune raison d’être un noeud
de G !
50
$
%

III. Principe dynamique. Equations de Hamilton-Jacobi

Transcription

Documents pareils

Equation d`Hamilton-Jacobi-Bellman - Laboratoire de Probabilités et

DAM: Thesis SL-DAM-16-0503 - instn

HOTELS A BREST

Modélisation d`un pendule double

L2 Préparation aux Concours - Feuille de TD no1 Équations

POSTE DE MAITRE DE CONFERENCE DE L`ENSTA BRETAGNE

LA NEWS DE L`ENSTA PARISTECH ALUMNI JUILLET 2016

Forces d`inertie et ondes d`inertie

A.1) Tension Superficielle A.1.1) Le nombre de

Plaquette Alpha - ENSTA Bretagne - ACCUEIL

COURS METHODES MATHEMATIQUES POUR L`INGENIEUR 2

COURS OPTIMISATION Cours en Master M1 SITN Ionel Sorin