III. Principe dynamique. Equations de Hamilton-Jacobi
Transcription
III. Principe dynamique. Equations de Hamilton-Jacobi
Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & III. Principe dynamique. Equations de Hamilton-Jacobi-Bellman 27 $ % On considère, dans toute la suite, le problème de contrôle optimal: Z (Px ) Contrôle optimal et équation HJB ' & Cadre d’étude +∞ Minimiser J(yx , u) = e−λt `(yx (t), u(t))dt 0 ẏ (t) = f (y (t), u(t)), t > 0 x x avec: yx (0) = x u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U } Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique f : IRn × IRm 7−→ IRn sont supposées lipschitziennes et bornées. L’ensemble des commandes U ⊂ IRm est supposé compact. 28 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & On définit la fonction valeur V : IRn → IR associé à (Px ) par: V (x) := inf(Px ), pour x ∈ IRn . Lemme 1 La fonction valeur V (·) est uniformément continue. 29 $ % u|(0,τ ) Contrôle optimal et équation HJB Proposition 1 [ Bellman, 1950] Soit x ∈ IRn et 0 < τ . Alors on a la formule récursive: Z τ −λs −λτ V (x) = inf e `(yx(s), u(s))ds + e V (yx (τ )) . ' & Principe de programmation dynamique (PPD) 0 Remarque: Soit u ∈ U, et yx l’état associé à u qui démarre en x. u → (u1 = u|(0,τ ) , u2 = u|(τ,+∞) ) ∈ U1 × U2 yx → (y1 ≡ yx |(0,τ ) , y2 ≡ yx |(τ,+∞) ≡ yyx (τ ) ) 30 où U1 = L2 (0, τ ; U ) et U2 = L2 (τ, +∞; U ). $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr 7 10 6 5 A 6 8 7 7 9 10 8 6 8 5 9 5 10 Contrôle optimal et équation HJB ' & Un petit exemple simple pour comprendre le PPD: Une compagnie aérienne cherche à minimiser le temps de vol de ses avions, tenant compte desreplacements vents et des restrictions imposées par le contrôle aérien. Les trajets possibles PSfrag sur la direction Est-Ouest sont représentés par un ensemble de points “checkpoints”, entre lesquels l’avion doit aller en ligne droite; le temps de trajet associé (calculé en moyenne) est représenté (Fig. 1). 12 6 x 10 7 11 B 9 7 Figure 1: Temps de trajet associés aux routes possibles 1. Calculer le temps minimum pour aller du point x au point B. En procédant de manière récursive (de B vers A), compléter le schéma suivant, qui associe à chaque 31 $ % PSfrag replacements 18 10 23 A 16 Contrôle optimal et équation HJB 12 ' & 5 6 7 8 9 intersection le temps minimum (et le trajet correspondant) pour aller à B: B 11 20 Figure 2: Temps minimum pour atteindre B. 2. En déduire un chemin optimal. 32 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Equation HJB: Point de vue formel Supposons V différentiable et fixons u(t) = u0 ∈ U pour t ∈ (0, τ ). Alors yx (t) = x + tf (x, u0 ) + o(t), d’où V (yx (t)) = V (x) + tDV (x) · f (x, u0 ) + o(t), et donc, d’après le DPP, pour tout τ > 0: Z τ `(yx (t), u0 )e−λt dt + V (yx (τ ))e−λτ , V (x) ≤ 0 = τ `(x, u0 ) + V (x)(1 − λτ ) + τ DV (x) · f (x, u0 ) + o(t). Faisant tendre τ vers 0, il vient λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) ≤ 0. u0 ∈U (10) 33 $ % 0 d’où par des calculs similaires λV (x) − min `(x, u0 ) + DV (x) · f (x, u0 ) = 0. u0 ∈U Contrôle optimal et équation HJB ' & Si de plus il existe une trajectoire optimale ū(t) continue en 0, notant y x (t) l’état associé, alors : Z s V (x) = e−λt `(yx (t), ū(t))dt + V (yx (s))e−λs , (11) Combinant à (10) nous obtenons le résultat suivant : Théorème 7 Si V est différentiable en x, et s’il existe une trajectoire optimale continue en x, alors λV (x) − H(x, DV (x)) = 0, (12) où H : IRn × IRn → IR, défini par: H(x, p) = minu∈U `(x, u) + p · f (x, u) . 34 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & La fonction V n’est pas dérivable en général! Exemple: Prendre `(x, u) = min(x2 − 1, 0)2 , λ = 1, U := {−1, 1}. 35 $ % Définition 2 (i) v : IRn −→ IR est sous-solution de viscosité de (12) si Contrôle optimal et équation HJB supposons F : IRn × IR × IRn 7−→ IR continue. ' & Notion de viscosité F (x, v(x), Dx v(x)) = 0, x ∈ IRn F (xo, v(xo ), p) ≤ 0 ∀xo ∈ IRn , ∀p ∈ D +v(xo ). (ii) v est sur-solution de viscosité de (12) si, F (xo, v(xo ), q) ≥ 0 ∀xo ∈ IRn , ∀q ∈ D − v(xo) Sous-différentiel D − v(xo ) := Sur-différentiel D + v(xo ) := ff q ∈ IRn | lim inf v(y) − v(xo ) − hq, y − xo )i ≥0 |y − xo | y → xo p ∈ IRn | ff lim sup v(y) − v(xo ) − hp, y − xo )i ≤0 . y → xo |y − xo | 36 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Lemme 2 Soit Ω un domaine ouvert de IRn et soit v : Ω 7−→ IR une fonction continue. Alors i) p ∈ D + v(xo) ssi il existe une fonction Φ ∈ C 1(Ω) tel que DΦ(xo) = p et v − Φ admet un maximum local en xo. ii) q ∈ D −v(xo ) ssi il existe une fonction Φ ∈ C 1 (Ω) tel que DΦ(xo) = q et v − Φ admet un minimum local en xo. 37 $ % F (xo, v(xo ), DΦ(xo )) ≤ 0. Contrôle optimal et équation HJB ' & Définition 3 (i) La fonction v : IRn −→ R est sous-solution de viscosité de (12) si, pour tout Φ : IRn −→ IR de classe C 2 , si xo est un point de maximum local de v − Φ, alors (13) (ii) v est sur-solution de viscosité de (12) si, pour tout Φ : IRn −→ IR de classe C 2, si xo est un point de minimum local de v − Φ, alors F (xo, v(xo ), DΦ(xo )) ≥ 0. (14) 38 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & IV. Approximation de la fonction valeur. 39 $ % (Px ) Z +∞ Minimiser J(yx , u) = e−λt `(yx (t), u(t))dt 0 ẏ (t) = f (y (t), u(t)), t > 0 x x avec: yx (0) = x Contrôle optimal et équation HJB ' & On reprend les mêmes notations du chapitre III. u ∈ U = {u ∈ L2 (0, +∞; IRm ) | u(t) ∈ U } Hypothèses. La fonction coût ` : IRn × IRm 7−→ IR et la dynamique f : IRn × IRm 7−→ IRn sont supposées lipschitziennes et bornées. L’ensemble des commandes U ⊂ IR m est supposé compact. 40 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr La fonction valeur définie par V (x) = inf(Px ), vérifie un principe de programmation dyamique: Z τ −λt −λτ V (x) = inf (15) `(yx (t), u(t))e dt + V (yx (τ ))e u∈U Contrôle optimal et équation HJB ' & Rappel: 0 De plus V est solution de viscosité de l’équation HJB suivante: λV (x) − H(x, DV (x)) = 0 ∀x ∈ IRn , où H(x, p) = minu∈U `(x, u) + p · f (x, u) . (16) 41 $ & ' ✐ Séance 3: Discrétisation du principe dynamique & mise en oeuvre sur des exemples en dimension 1 et 2. Contrôle optimal et équation HJB % Plan des séances 3 & 4: ✐ Séance 4: Finir l’étude théorique de l’équation HJB. Preuve de convergence du schéma mis en oeuvre en séance 3 et analyse d’erreur. 42 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Semi-discrétisation Soit τ > 0. On considère une approximation de (15) de la forme: V τ (x) = inf {`(x, u)τ + (1 − λτ )V τ (yx (τ ))} , u∈U x∈IRn (17) où yx est solution de: ẏx (t) = f (yx (t), u) t ∈ (0, τ ); yx (0) = x. D’autres disrétisations sont possibles, comme par exemple: o n V τ (x) = inf `(x, u)τ + V τ (yx (τ ))e−λτ , u∈U ∀x ∈ IRn . (17’) L’equation (17) admet-elle une solution? 43 $ % Contrôle optimal et équation HJB ' & Théorème 8 Pour τ suffisament petit, l’équation (17) admet une solution unique V τ . De plus, V τ est bornée, continue sur IRn , et on a: kV τ k∞ ≤ λ−1 k`k∞ . (18) Notation. Pour toute fonction g ∈ Cb (IRn ), kgk∞ = supx∈IRn |g(x)|. 44 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Idée de la preuve: Etape 1: Considèrons le problème discret (Pxτ ): ∞ X (1 − λτ )k `(yx (kτ ), uk ); Min τ k=0 ẏx (t) = f (yx (t), uk ), uk ∈ U ∀ k ∈ IN, t ∈]kτ, (k + 1)τ [; yx (0) = x, La fonction valeur Ve τ (x) = Inf (Pxτ ) vérifie le principe (17). Remarque: Dans le problème discret, le contrôle est remplacé par une fonction constante sur chaque intervalle ]kτ, (k + 1)τ [. 45 $ % Contrôle optimal et équation HJB ' & Etape 2: On montre que Ve τ est continue bornée. Etape 3: On construit l’opérateur T : Cb(IRn ) → Cb(IRn ), par: T W (x) := inf {τ `(x, u) + (1 − λτ )W (yx(τ ))} . u∈U T est un opérateur contractant dans Cb(IRn ), donc T admet un unique point fixe V τ dans Cb(IRn ). On déduit des étapes1 et 2 que V τ = Ve τ . 46 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Algorithme de reconstruction des trajectoires optimales 1. on définit τ u∗,0 x = argmin{τ `(x, u) + (1 − λτ )V (yx (τ ))} u∈U où yx est l’état associée au contrôle constant u, solution de: yx (t) = f (yx (t), u), pour t ∈ (0, τ ), yx (0) = x. Notons aussi y ∗,0 = x, et y ∗,1 = yx∗ (τ ) où yx∗ est l’état associé à u = ux∗,0 . 2. Pour k = 1, 2, · · · , on construit τ u∗,k x = argmin{τ `(x, u) + (1 − λτ )V (yy ∗,k (τ ))} u∈U où yy∗,k est l’état associée au contrôle constant u, solution de: y(t) = f (yx (t), u), pour t ∈ (0, τ ), y(0) = y ∗,k . 47 On note y ∗,k+1 = yy∗∗,k (τ ) où yy∗∗,k est l’état associé à u = u∗,k x . $ % ∀t ∈]kτ, (k + 1)τ [ et ∀k ∈ IN. (19) Contrôle optimal et équation HJB u∗x (t) := u∗,k x , ' & Avec la suite (u∗,k x )k on construit un contrôle constant par morceaux: Théorème 9 Pour tout x ∈ IRn , on a: V τ (x) = W (x, u∗x ) = inf(Pxτ ) et u∗x est la solution optimale de (Px). De plus V τ converge uniformément vers V lorsque τ → 0. 48 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons" Ecole Nationale Supérieure de Techniques Avancées (ENSTA) - http://www.ensta.fr Contrôle optimal et équation HJB ' & Approximation totale Soit τ > 0, h > 0 un pas d’espace, et soit G une grille régulière de pas h. On note Xj les noeuds de G. 1. On part de V 0 quelconque. On calcule V 1 par V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))). u∈U 2. Tant que kV 1 − V 0 k > tol, on prend: V 0 = V 1, V 1 (xj ) = min(∆t`(xj , u) + (1 + λτ )V 0 (xj + τ f (xj , u))). u∈U Ici, la quantité xj + τ f (xj , u) est une approximation de yxj (τ ). 49 $ & ' Contrôle optimal et équation HJB % Remarques. 1) Pour manipuler numériquement V 0 et V 1 , on se contentera de stocker les valeurs Vj0 = V 0 (xj ) et Vj1 = V 1 (xj ) pour xj ∈ G. 2) La valeur xj + τ f (xj , u) n’a aucune raison d’être un noeud de G ! 50 $ % Ce document est mis à votre disposition par l'ENSTA sous couvert de la licence "Creative Commons"