Numérique pour l`optimisation différentiable sans contraintes
Transcription
Numérique pour l`optimisation différentiable sans contraintes
Chapitre 6 10 10 8 10 6 10 4 10 2 0 10 0.2 0.4 0 10 1 1 0.8 0.6 0.6 0.4 0.2 0 ! 0.2 0.8 ! 0.4 ! 0.6 ! 0.8 !1 1 Numérique pour l’optimisation différentiable sans contraintes Introduction Afin de donner un aperçu plus large de l’optimisation, on présente une initiation rapide aux méthodes numériques de base pour l’optimisation différentiable sans contraintes. Le paragraphe 2 expose quelques méthodes numériques faisant appel aux dérivées du premier orde (méthodes de descente, “steepest descent”, pas ajustés). Au paragraphe 3, on aborde la méthode des directions conjuguées qui donne les algorithmes du gradient conjugué, de Fletcher-Reeves, et de PolakRibière. Enfin, le paragraphe 4 traite des méthodes du type Newton qui font en principe appel aux dérivées du deuxième ordre. On peut cependant arriver aux mêmes résultats en optant pour des méthode de type quasi-Newton comme celle de Fletcher-Powell ne faisant appel qu’aux dérivées premières tout en construisant une approximation de l’inverse de la matrice hessienne. Les paragraphes 2 à 4 sont tirés du livre de L. S. Lasdon [1] et la démonstration de la méthode du gradient conjugué de P. G. Ciarlet [1]. 2 Dérivées d’ordre un : méthodes de descente On a vu que les conditions nécessaires pour l’existence minimum local d’une fonction f : Rn → R de classe C (2) en un point x∗ sont ∂f ∗ (x ) = 0, 1 ≤ i ≤ n, (2.1) ∇f (x∗ ) = 0 ou ∂xi ∂2f ∗ ∂2f ∗ (x ) . . . (x ) ∂x2 ∂xn ∂x1 1 . . ∗ . .. .. .. (2.2) Hf (x ) = ≥ 0. 2 2 ∂ f ∂ f ∗ (x∗ ) . . . (x ) ∂x1 ∂xn ∂x2n Pour trouver le minimum de f , il faut résoudre l’équation (2.1) qui est un système de n équations non-linéaires en n inconnues. C’est souvent très difficile pour un 307 308 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes “gros système” comme celui de l’Exemple 2.4 du Chapitre 4. De plus, il faut vérifier la condition de positivité (2.2). On s’oriente alors naturellement vers des méthodes x2 courbe de niveau {x : f (x) = f (x0 )} x0 ∇f (x0 ) x1 Figure 6.1. Gradient et courbes de niveau. itératives qui font appel au gradient ∇f (x) qui “pointe” dans la direction où le taux d’accroissement de f est maximum (−∇f (x) est la direction de la plus grande descente). Le vecteur ∇f (x0 ) est normal à l’ensemble de niveau de la function f passant par x0 . 2.1 Méthode de la plus forte pente (steepest descent Cette méthode de recherche d’un minimum consiste à partir d’un point initial x0 et à calculer ∇f (x0 ). Puis on fait un pas de longueur α0 dans la direction de plus grande descente, −∇f (x0 ), pour obtenir un nouveau point x1 . On répète ensuite jusqu’à ce qu’une condition d’arrêt soit vérifiée (voir Figure 6.2). En résumé x0 point initial déf à l’étape i ≥ 0, xi+1 = xi − αi ∇f (xi ) pour αi > 0 tel que f (xi+1 ) < f (xi ). (2.3) La méthode converge sous des hypothèses très faibles (cf. ? [??]) vers au moins un minimum local de f (x). 2. Dérivées d’ordre un : méthodes de descente 309 ∇f (x0 ) ∇f (x2 ) x0 x2 x1 ∇f (x1 ) Figure 6.2. Méthode de “steepest descent”. 2.2 Méthode du gradient à pas ajustés ou optimaux (optimum gradients) Une façon systèmatique de choisir la longueur du pas dans (2.3) à l’étape i consiste à prendre αi tel que f (xi − αi ∇f (xi )) = inf f (xi − α∇f (xi )) α ou, de façon équivalente, à minimiser la fonction inf gi (α), α≥0 déf gi (α) = f (xi − α∇f (xi )) . (2.4) si le point minimisant est αi = 0, alors f (xi ) est un minimum local de f . Sinon, il existe αi > 0 tel que la condition (2.3) soit vérifée puisque l’on cherche localement la plus petite valeur de gi (α) = f (xi − α∇f (xi )). La conditionnécessaire pour l’existence d’un point minimisant est celle de dérivée de gi (α) égale à zéro dgi (α) = −∇f (xi − α∇f (xi )) · ∇f (xi ) dα ⇒ 0 = ∇f (xi − αi ∇f (xi )) · ∇f (xi ) = ∇f (xi+1 ) · ∇f (xi ). Cette adaptation de la “steepest descent” est appelée méthode d’“optimum gradients” (cf. ? [??]). En résumé, à l’étape i ≥ 0, x0 point initial on prend si déf = −∇f (xi ) et on choisit αi tel que g (α ) = inf g (α), g (α) déf = f (xi + α si ) i i i i α≥0 déf on prend x = x +α s . i+1 i i i 310 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes Géométriquement parlant, αi est choisi en minimisant f (x) dans la direction si à partir du point xi . En un minimum local on a néssairement dgi 0= = ∇f (xi + αi si ) · si = −∇f (xi + αi si ) · ∇f (xi ) = ∇f (xi+1 ) · si . dα α=αi Le vecteur si est donc tangent à la courbe de niveau pour α = αi (c’est-à-dire au point xi+1 ). Le gradient ∇f (xi+1 ) est normal à cette même courbe de niveau. Les pas successifs sont donc orthogonaux. x2 x0 x1 Figure 6.3. Méthode du gradient à pas ajustés ou optimaux. Exemple 2.1. On reprend la fonction f (x1 , x2 ) = x21 + x22 . Alors ∇f (x1 , x2 ) = 2(x1 , x2 ) déf et en posant pour α ∈ R g(α) = f (x − α∇f (x)), l’élément minimisant α∗ de inf α g(α) vérifie la condition 0 = g ′ (α∗ ) = = −∇f (x − α∗ ∇f (x)) · ∇f (x) = −2(x − α∗ 2x) · 2x = −4[1 − 2α∗ ]|x|2 =⇒ α∗ = 1/2. Donc, si on part du point x0 ∈ R2 , le point suivant est donné par 1 x1 = x0 − α∗ ∇f (x0 ) = x0 − 2x0 = 0. 2 C’est le point minimisant. Pour une fonction f avec des lignes de niveau en forme de cercles concentriques, la méthode converge en une itération. 2. Dérivées d’ordre un : méthodes de descente 311 Exemple 2.2. Soit la fonction f dans R2 de l’Exemple 2.2 f (x1 , x2 ) = 16x21 + (x2 − 4)2 , ∇f (x1 , x2 ) = 2(16x1 , x2 − 4) où (0, 4) est le point minimisant. Alors x2 (0, 4) f (x) = 1 f (x) = 4 1 −1 (1, 1) −0.5 0.5 1 x1 f (x) = 25 Figure 6.4. Ensembles de niveau de la fonction f (x) = 16x21 + (x2 − 4)2 de l’Exemple 2.2 et méthode des gradients optimaux à partir du point initial (1, 1). g(α) = f (x − α∇f (x)) = 16(x1 − α32x1 )2 + (x2 − 2α(x2 − 4) − 4)2 = 16 x21 (1 − 32α)2 + (x2 − 4)2 (1 − 2α)2 . Le longueur α du pas est donc donné par g ′ (α) = 0 : −g ′ (α)/4 = (16 x1 )2 (1 − 32α) + (x2 − 4)2 (1 − 2α) = (16 x1 )2 + (x2 − 4)2 − α 32(16 x1 )2 + 2(x2 − 4)2 . 1 312 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes Alors g ′ (α) = 0 si α= (16 x1 )2 + (x2 − 4)2 si (x1 , x2 ) 6= (0, 4) ou 0 si (x1 , x2 ) = (0, 4). 32(16 x1 )2 + 2(x2 − 4)2 Dans le cas où (x1 , x2 ) = (0, 4), ∇f (0, 4) = (0, 0) et l’algorithme s’arrète. Contrairement à l’Exemple 2.1, on n’atteint pas le point minimisant en un seul pas comme le montrent la Figure 6.4 et la Table 6.1. i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 f (x) x x1 1.00E+00 -3.29E-02 3.16E-01 -1.04E-02 9.97E-02 -3.28E-03 3.15E-02 -1.03E-03 9.93E-03 -3.27E-04 3.14E-03 -1.03E-04 9.90E-04 -3.26E-05 3.13E-04 -1.03E-05 x2 1.00E+00 1.19E+00 3.05E+00 3.11E+00 3.70E+00 3.72E+00 3.91E+00 3.91E+00 3.97E+00 3.97E+00 3.99E+00 3.99E+00 4.00E+00 4.00E+00 4.00E+00 4.00E+00 2.50E+01 7.89E+00 2.49E+00 7.87E-01 2.48E-01 7.84E-02 2.48E-02 7.82E-03 2.47E-03 7.79E-04 2.46E-04 7.77E-05 2.45E-05 7.74E-06 2.44E-06 7.71E-07 ∇f (x) ∂1 f (x) ∂2 f (x) 3.20E+01 -6.00E+00 -1.05E+00 -5.61E+00 1.01E+01 -1.89E+00 -3.32E-01 -1.77E+00 3.19E+00 -5.98E-01 -1.05E-01 -5.59E-01 1.01E+00 -1.89E-01 -3.31E-02 -1.77E-01 3.18E-01 -5.96E-02 -1.05E-02 -5.58E-02 1.00E-01 -1.88E-02 -3.30E-03 -1.76E-02 3.17E-02 -5.94E-03 -1.04E-03 -5.56E-03 1.00E-02 -1.88E-03 -3.29E-04 -1.75E-03 α 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 3.23E-02 3.31E-01 s = −α∇f (x) s1 = −α∂1 f (x) s2 = −α∂2 f (x) -1.03E+00 1.94E-01 3.49E-01 1.86E+00 -3.26E-01 6.11E-02 1.10E-01 5.87E-01 -1.03E-01 1.93E-02 3.47E-02 1.85E-01 -3.25E-02 6.09E-03 1.10E-02 5.85E-02 -1.03E-02 1.92E-03 3.46E-03 1.85E-02 -3.24E-03 6.07E-04 1.09E-03 5.83E-03 -1.02E-03 1.92E-04 3.45E-04 1.84E-03 -3.23E-04 6.05E-05 1.09E-04 5.81E-04 Table 6.1. Itérations de la méthode du gradient à pas optimaux pour la fonction f (x) = 16x21 + (x2 − 4)2 . 2.3 Critères d’arrêt Il y a de nombreux critères d’arrêt possible 1) Puisqu’au minimum ∂f /∂xi = 0, on peut arrêter lorsque n P ∂f ∂f 2 (a) ∂x < ε, i = 1, 2, . . . , n, ou (b) ∂xi < ε. i i=1 2) Arrêter lorsque la variation de la fonction est inférieure à une certaine limite η (voir Tableau 6.1), c’est-à-dire |f (xi+1 ) − f (xi )| < η. Beaucoup d’autres critères sont admissibles. Le critère 2) est le plus fiable des deux en autant qu’il soit vérifié pour plusieurs valeurs successives de i. 3. Directions conjuguées et gradient conjugué 313 Il est évident que le choix du critère et de la valeur d’arrêt (ε et η) sont fortement liés à la fonction à minimiser et la manière de programmer la méthode (notion connue sous le nom de conditionnement en analyse numérique) et à l’architecture de l’ordinateur (représentation des nombres et précision machine). Au mieux les méthodes précédentes trouveront un minimum local dans la région du point initial x0 . Il faut répéter la méthode en partant de points différents pour trouver tous les minima locaux. 3 3.1 Directions conjuguées et gradient conjugué Fonction objectif quadratique On a vu dans l’Exemple 2.1 que lorsque les lignes de niveau de la fonction sont des cercles concentriques, la méthode des pas ajustés converge en un pas, alors que dans les Exemples 2.2 et 2.2 où les lignes de niveau sont des ellipses, les pas successifs avec orthogonalité du gradient par rapport seulement au gradient précédent ne sont pas aussi bien adaptés. Si on augmente le rapport entre les deux axes de l’ellipse comme dans l’Exemple 2.2 pour la fonction f (x1 , x2 ) = 16x21 + (x2 − 4)2 , on peut voir sur la Figure 6.4 le cheminement de la méthode qui zigzague de plus en plus avec des pas de plus en plus courts au voisinage du point minimisant (0, 4) ce qui rend la convergence très lente. Par le Théorème de Taylor, une fonction f de classe C (2) ressemble à une fonction quadratique au voisinage d’un point x 1 f (y) ∼ = f (x) + ∇f (x) · (y − x) + Hf (x)(y − x) · (y − x). 2 Il est donc important de développer des méthodes efficaces pour minimiser une fonction quadratique en n variables de la forme 1 déf q(y) = a + b · y + Ay · y, (3.1) 2 où a ∈ R, b ∈ Rn et A est une matrice n × n symétrique et définie positive. C’est qu’en fait, il faut tenir compte de la matrice A qui spécifie l’excentricité des ellipses et choisir des directions qui soient orthogonales par rapport à la matrice A. Cette idée est à l’origine des méthodes de directions conjugées. Définition 3.1. Soit A une matrice n × n symétrique et définie positive. On dit que les n directions {si : 0 ≤ i ≤ n − 1} sont A–conjugées si aucune n’est nulle et que si · Asj = 0, i 6= j, i, j = 0, 1, . . . , n − 1. (3.2) D’où, en particulier, Asi · si > 0, i = 0, 1, . . . , n − 1. Lemme 3.1. Soit A une matrice n×n symétrique et définie positive et {s0 , . . . , sk }, 1 ≤ k ≤ n − 1, des directions A-conjuguées dans Rn . Alors les vecteurs {s0 , . . . , sk } sont linéairement indépendants dans Rn . 314 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes Démonstration. Soient des scalaires {λ0 , . . . , λk } tel que k X λi si = 0. i=0 Pour j, 0 ≤ j ≤ k, on prend le produit scalaire de cette expression avec Asj 0 = Asj · k X i=0 λi si = k X i=0 Asj · λi si = λj Asj · sj . Comme Asj · sj > 0, il vient λj = 0 et ceci est vrai pour tout j, 0 ≤ j ≤ k. Les k directions sont donc linéairement indépendantes. Soit x∗ le point minimisant de q(x). Alors ∇q(x∗ ) = b + Ax∗ = 0. (3.3) Soient x0 le point de départ de l’algorithme et les directions A-conjuguées dans Rn . Elles sont linéairement indépendantes par le Lemme 3.1. On peut donc associer à n−1 tout point x0 ∈ Rn des constantes {βi }i=0 telles que x∗ = x0 + n−1 X βi s i . (3.4) i=0 Les {βi } peuvent être calculées à partir de (3.4) et (3.3) comme suit : ∗ ∀j, 0 = sj · [Ax + b] = sj · Ax0 + En utilisant (3.2), ∀j, ⇒ ∀j, n−1 X i=0 βi sj · Asi + sj · b. 0 = sj · [Ax∗ + b] = sj · [Ax0 + b] + βj sj · Asj βj = − n−1 X (b + Ax0 ) · sj (b + Ax0 ) · sj − et x∗ = x0 + sj . sj · Asj sj · Asj j=0 (3.5) (3.6) (3.7) On considère maintenant une approche itérative qui à partir d’un point x0 minimise q(x) successivement dans les directions s0 , s1 , . . . , sn−1 , choisies de façon à ce que (3.2) soit vérifiée. On construit ainsi une suite de points xi+1 = xi + αi si , i = 0, 1, . . . , n − 1, (3.8) où αi ∈ R minimise gi (α) = q(xi + αsi ), comme dans la méthode des gradients optimaux : d2 gi dgi = si · Asi > 0. (3.9) = s · ∇q(x ) = 0, i i+1 dα dα2 α=αi 3. Directions conjuguées et gradient conjugué 315 Ce qui nous garantit que q(xi+1 ) ≤ q(xi ). Montrons que xn satisfait (3.3), c’est-àdire que xn = x∗ , et que αi = βi . À partir de (3.3) and (3.9) il vient (b + Axi ) · si . (3.10) si · (b + A(xi + αi si )) = 0 ⇒ αi = − si · Asi Mais par (3.8) xi = x0 + i−1 X j=0 αj sj ⇒ xi · Asi = x0 · Asi + i−1 X j=0 αj sj · Asi = x0 · Asi . (3.11) Ainsi de (3.10), (3.7), et (3.4) (b + Ax0 ) · si = βi αi = − si · Asi ∗ ⇒ x = x0 + n−1 X αj sj = xn . (3.12) j=0 Il est clair que l’on obtient toute une famille de méthodes qui minimise en au plus n pas en variant le choix des directions s0 , s1 , ..., sn−1 qui devient ainsi le cœur de la méthode, la difficulté principale étant de les créer de façon récursive. Dans le paragraphe suivant, on présente une façon de construire des directions et la méthode en résultant. 3.2 Méthode du gradient conjugué La méthode des gradients conjugués (cf. M. R. Hestenes et E. Stiefel [1]) est un procédé élégant en n pas pour résoudre un système d’équations linéaires impliquant une matrice symmétrique définie positive. Elle est donc pertinente pour la minimisation de fonctions quadratiques. Il existe plusieurs méthodes de directions conjuguées. Celle de R. Fletcher et C. M. Reeves [1] ne nécessite que le calcul du gradient de f (x) et la mise en réserve de seulement un autre vecteur additionnel. Cette méthode n’est pas aussi efficace que celle de R. Fletcher et M. J. D. Powell [1] que l’on verra plus loin mais elle nécessite moins de mémoire, ce qui constitue un avantage lorsque le nombre n de variables est grand (cf. M. J. Box [1]). L’algorithme est le suivant : soit x0 un point initial et la direction s0 = −∇f (x0 ). Si ∇f (x0 ) = 0, on arrête. Sinon, on passe à l’étape 0 : on choisit ρ0 minimisant g(ρ) = f (x0 + ρs0 ) et on pose x1 = x0 + ρ0 s0 et s1 = −∇f (x1 ) + k∇f (x1 )k2 s0 . k∇f (x0 )k2 À l’étape k, si ∇f (xk ) 6= 0, on choisit ρk minimisant g(ρ) = f (xk + ρsk ) et on pose xk+1 = xk + ρk sk et sk+1 = −∇f (xk+1 ) + k∇f (xk+1 )k2 sk . k∇f (xk )k2 316 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes On suit maintenant la présentation de P. G. Ciarlet [1, pp. 195–199 et 201]. À l’étape k, on a déterminé les points x0 , x1 , . . .xk et l’on supppose que ∇f (xℓ ) 6= 0, 0 ≤ ℓ ≤ k. Soit Gℓ le sous espace linéaire de Rn généré par les gradients 1 déf déf Gℓ = Lin {∇f (xi ) : 0 ≤ i ≤ ℓ} xℓ + Gℓ = {xℓ + yℓ : ∀yℓ ∈ Gℓ } ) ( ℓ X αi ∇f (xi ) : ∀αi ∈ R, 0 ≤ i ≤ ℓ . = xℓ + i=0 Le point xk+1 est solution du problème de minimisation suivant xk+1 ∈ xk + Gk , f (xk+1 ) = inf x∈xk +Gk f (x) = inf f (xk + y). y∈Gk Comme Gk est un sous espace linéaire, on obtient les conditions nécessaires suivantes ∇f (xk+1 ) · y = 0, ∀y ∈ Gk ⇒ ∇f (xk+1 ) · ∇f (xi ) = 0, 0 ≤ i ≤ k. Les gradients {∇f (xℓ ) : 0 ≤ ℓ ≤ k + 1}, sont donc orthogonaux deux à deux et pas seulement d’une étape à l’autre comme dans la méthode des pas optimaux. Comme l’espace Rn est de dimension n, l’algorithme converge en au plus n itérations. Si l’on va jusqu’à la n-ème itération, xn est le minimum et ∇f (xn ) = 0. Pour bien comprendre la méthode du gradient conjugué et en préciser les détails, on se restreint au cas d’une fonction numérique quadratique de la forme déf q(x) = 1 Ax · x + b · x, 2 où A est une matrice n × n symétrique définie positive et b est un vecteur de Rn . On montre d’abord que les directions sucessives sont conjuguées par rapport à la matrice A et l’on calcule la longueur des pas. À l’étape ℓ, on détermine donc ℓ + 1 scalaires tel que déf xℓ+1 − xℓ = ∆ℓ = ℓ X i=0 δiℓ ∇q(xi ), 0 ≤ ℓ ≤ k. (3.13) Comme q est quadratique, on observe que ∇q(x + y) = A(x + y) + b = ∇q(x) + Ay. En utilisant cette identité, il vient ∇q(xℓ+1 ) = ∇q(xℓ ) + A∆ℓ , 2 0 ≤ ℓ ≤ k, ⇒ 0 = ∇q(xℓ+1 ) · ∇q(xℓ ) = k∇q(xℓ )k + A∆ℓ · ∇q(xℓ ), 0 ≤ ℓ ≤ k. 1. Lin {vi : 0 ≤ i ≤ ℓ} est le plus grand sous-espace vectoriel engendré par la famille {vi : 0 ≤ i ≤ ℓ} ou, de façon équivalente, l’ensemble de toutes les combinaisons linaires finies de vecteurs de la famille. En anglais, span {vi : 0 ≤ i ≤ ℓ}. 3. Directions conjuguées et gradient conjugué 317 Comme on suppose que ∇q(xℓ ) 6= 0, il vient A∆ℓ · ∇q(xℓ ) 6= 0 ⇒ ∆ℓ 6= 0, 0 ≤ ℓ ≤ k. Pour k ≥ 1 et 0 ≤ i < ℓ ≤ k, 0 = ∇q(xℓ+1 ) · ∇q(xi ) = ∇q(xℓ ) · ∇q(xi ) + A∆ℓ · ∇q(xi ) ⇒ 0 = A∆ℓ · ∇q(xi ), De là pour 0 ≤ m < ℓ ≤ k A∆m · ∆ℓ = m X i=0 0 ≤ i < ℓ ≤ k. (3.14) (3.15) δim A∇q(xi ) · ∆ℓ = 0 puisque i ≤ m < ℓ ≤ k. Les vecteurs {∆ℓ } sont donc des directions conjuguées par rapport à A (définie positive) car A∆ℓ · ∆ℓ > 0, 0 ≤ ℓ ≤ k, A∆m · ∆ℓ = 0, 0 ≤ m < ℓ ≤ k. Par le Lemme 3.1, elles sont linéairement indépendantes. Comme les ∆ℓ sont des combinaisons linéaires des gradients {∇q(xℓ ) : 0 ≤ ℓ ≤ k}, ces vecteurs sont aussi linéairement indépendants. Les vecteurs de {∇q(xℓ ) : 0 ≤ ℓ ≤ k} et de {∆ℓ : 0 ≤ ℓ ≤ k} sont donc linéairement indépendants. De plus, par la définition (3.13) des ∆ℓ 0 δ0 δ01 . . . δ0k 0 δ11 . . . δ1k [∆0 ∆1 . . . ∆k ] = [∇q(x0 ) ∇q(x1 ) . . . ∇q(xk )] . . . . . . . ... .. k 0 0 . . . δk et nécessairement δℓℓ 6= 0, 0 ≤ ℓ ≤ k car la transformation est nécessairement bijective. Donc pour tout ℓ, 0 ≤ ℓ ≤ k, xℓ+1 − xℓ = ∆ℓ = ℓ X i=0 δiℓ ∇q(xi ) = −δℓℓ sℓ , ℓ−1 X δiℓ − ℓ ∇q(xi ). sℓ = −∇q(xℓ ) + δℓ i=0 déf On est donc amené à prendre les directions de la forme sℓ = −∇q(xℓ ) + ℓ−1 X i=0 λℓi ∇q(xi ), 0 ≤ ℓ ≤ k, où λℓi = −δiℓ /δℓℓ . (3.16) On calcule maintenant xk+1 en supposant connus les λki , 0 ≤ i ≤ k − 1. Par définition de ∆k et les résultats précédents, (k−1 ) X δk i k xk+1 − xk = ∆k = δk ∇q(xi ) + ∇q(xk ) = −δkk sk ⇒ ∆k = −δkk sk . k δ i=0 k 318 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes Comme les vecteurs ∆k , les directions sk sont donc conjuguées par rapport à la matrice A. On a alors k équations 0 = Ask · ∆ℓ = sk · A∆ℓ , 0≤ℓ≤k−1 en k inconnues λki , 0 ≤ i ≤ k − 1. Comme k−1 X ∇q(xℓ+1 ) − ∇q(xℓ ) = A(xℓ+1 − xℓ ) = A∆ℓ et − sk = ∇q(xk ) − on obtient " ∇q(xk ) − # k−1 X λki ∇q(xi ) i=0 · [∇q(xℓ+1 ) − ∇q(xℓ )] = 0, i=0 λki ∇q(xi ) 0 ≤ ℓ ≤ k − 1. Comme les gradients sont orthogonaux deux à deux, on obtient pour ℓ = k − 1 # " k−1 X k λi ∇q(xi ) · [∇q(xk ) − ∇q(xk−1 )] = 0 ∇q(xk ) − i=0 2 2 ⇒ k∇q(xk )k + λkk−1 k∇q(xk−1 )k = 0 et si k ≥ 2 pour 0 ≤ ℓ ≤ k − 2 # " k−1 X k λi ∇q(xi ) · [∇q(xℓ+1 ) − ∇q(xℓ )] = 0 ∇q(xk ) − ⇒ i=0 2 k −λℓ+1 k∇q(xℓ+1 )k 2 + λkℓ k∇q(xℓ )k = 0. On en déduit la formule λkℓ = − k∇q(xk )k k∇q(xℓ )k 2 2 , 0≤ℓ≤k−1 et en substituant dans l’expression (3.16) pour sk −sk = ∇q(xk ) − = ∇q(xk ) + = ∇q(xk ) + k−1 X i=0 k−1 X i=0 λki ∇q(xi ) k∇q(xk )k k∇q(xi )k k∇q(xk )k 2 2 k∇q(xk−1 )k 2 2 ∇q(xi ) ( ∇q(xk−1 ) + ⇒ sk = −∇q(xk ) + k−2 X i=0 2 k∇q(xk )k 2 k∇q(xk−1 )k 2 k∇q(xk−1 )k k∇q(xi )k sk−1 . 2 ) ∇q(xi ) 3. Directions conjuguées et gradient conjugué 319 On obtient donc les directions sucessives par un procédé remarquablement simple s0 = −∇q(x0 ) sℓ = −∇q(xℓ ) + k∇q(xℓ )k 2 2 k∇q(xℓ−1 )k sℓ−1 , 1 ≤ ℓ ≤ k. Il ne reste plus qu’à relier ces directions conjuguées à la minimisation par rapport à ρ à chaque étape de l’algorithme. Comme R sk = {α sk : α ∈ R} ⊂ Gk q(xk − δkk sk ) ≥ inf q(xk + ρsk ) ≥ inf q(xk + y) = q(xk − δkk sk ) y∈Gk ρ∈R ⇒ q(xk − δkk sk ) = inf q(xk + ρsk ) ρ∈R Par unicité, on conclut que le ρk minimisant de l’algorithme vérifie ρk = −δkk pour les directions sk prescrites. Pour compléter, il est aussi possible dans le cas quadratique de déterminer explicitement les ρk solution des problèmes de minimisation unidimensionels : q(xk + ρk sk ) = inf q(xk + ρ sk ). ρ∈R On peut facilement vérifier que 1 A(xk + ρsk ) · (xk + ρsk ) + b · (xk + ρsk ) 2 1 ρ2 = A sk · sk + ρ [Axk + b] · sk + Axk · xk + b · xk 2 2 ρ2 = A sk · sk + ρ ∇q(xk ) · sk + q(xk ). 2 q(xk + ρ sk ) = Comme A est définie positive, en dérivant par rapport à ρ, le point minimisant est donné par ρk = − ∇q(xk ) · sk . A sk · sk On en arrive donc à la définition de l’algorithme de la méthode du gradient conjugué. À l’étape 0, on choisit un point arbitraire x0 . Si ∇q(x0 ) = 0, on arrête. Sinon, on procède comme suit s0 = −∇q(x0 ), ρ0 = − ∇q(x0 ) · s0 , A s0 · s0 x1 = x0 + ρ0 s0 . À l’étape 1, si ∇q(x1 ) = 0, on arrête. Sinon, on procède comme suit s1 = −∇q(x1 ) + k∇q(x1 )k k∇q(x0 )k 2 2 s0 , ρ1 = − ∇q(x1 ) · s1 , A s1 · s1 x2 = x1 + ρ1 s1 . 320 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes À l’étape k, si ∇q(xk ) = 0 on arrête. Sinon, on procède comme suit sk = −∇q(xk ) + k∇q(xk )k 2 k∇q(xk−1 )k 2 sk−1 , ρk = − ∇q(xk ) · sk , A sk · sk xk+1 = xk + ρk sk . On rappelle que pour une fonction q quadratique, la méthode converge en au plus n pas dans Rn . Pour une fonction f qui n’est pas quadratique, l’algorithme est le même, mais les ρk sont déterminés par la recherche unidimensionnelle suivante f (xk + ρk sk ) = inf f (xk + ρ sk ). ρ∈R Cette méthode de R. Fletcher et C. M. Reeves [1] a été initialement conçue comme une méthode de résolution de système linéaire, donc de minimisation d’une fonction quadratique. Afin de l’adapter à des fonctions non nécessairement quadratiques, on note que l’orthogonalité des gradients ∇f (xk ) successivement rencontrés permet d’écrire sk = −∇q(xk ) + = −∇q(xk ) + k∇q(xk )k 2 2 sk−1 k∇q(xk−1 )k ∇q(xk ) · (∇q(xk ) − ∇q(xk−1 )) 2 k∇q(xk−1 )k sk−1 . La méthode du gradient conjugué de ? [??] pour les fonctions f quelconques est définie comme suit. À l’étape 0, on choisit un point arbitraire x0 . Si ∇f (x0 ) = 0, on arrête. Sinon, on procède comme suit s0 = −∇f (x0 ), f (x0 + ρ0 s0 ) = inf f (x0 + ρ s0 ), ρ∈R x1 = x0 + ρ0 s0 , À l’étape 1, si ∇f (x1 ) = 0, on arrête. Sinon, on procède comme suit ∇f (x1 ) · (∇f (x1 ) − ∇f (x0 )) s0 , 2 k∇f (x0 )k f (x1 + ρ1 s1 ) = inf f (x1 + ρ s1 ), x2 = x1 + ρ1 s1 , s1 = −∇f (x1 ) + ρ∈R À l’étape k, si ∇f (xk ) = 0 on arrête. Sinon on procède comme suit ∇f (xk ) · (∇f (xk ) − ∇f (xk−1 )) sk−1 , k∇f (xk−1 )k2 f (xk + ρk sk ) = inf f (xk + ρ sk ), xk+1 = xk + ρk sk . sk = −∇f (xk ) + ρ∈R Dans la pratique la méthode de Polak-Ribière s’avère plus efficace que celle de Fletcher-Reeves. Lorsque la fonctionelle f n’est pas quadratique, les gradients ∇f (xk ) obtenus par la méthode de Polak-Ribière ne sont plus nécessairement deux à deux orthogonaux, et l’algorithme ne se termine pas nécessairement en un nombre fini d’itérations. 4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell 4 321 Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell On a vu que l’introduction de directions conjuguées peut considérablement améliorer la convergence par rapport à la méthode de “steepest descent” ou celle des gradients optimaux. Pour une fonction quadratique les gradients sont conjugués par rapport à la matrice hessienne A. On utilise donc implicitement les dérivées secondes pour construire ces directions même si l’algorithme ne fait qu’appel au gradient. La matrice A contient l’information sur l’excentricité des ensembles de niveau ce qui permet aux directions A-conjuguées d’éviter les comportements en zig-zag (cf. Figures 6.4 et 6.6 pour la fonction de Rosenbrock de l’Exemple 2.3 au Chapitre 4). 4.1 Méthode du type Newton Considérons une approximation quadratique d’une fonction f de classe C (2) autour du point xk 1 gk (x) = f (xk ) + ∇f (xk ) · (x − xk ) + Hf (xk )(x − xk ) · (x − xk ). 2 Un point minimisant xk+1 de gk est caractérisé par ∇gk (xk+1 ) = 0, Hgk (xk+1 ) ≥ 0. En explicitant, il vient ∇f (xk ) + Hf (xk )(xk+1 − xk ) = 0 et Hf (xk ) ≥ 0. Si l’on suppose que la matrice hessienne est définie positive, alors elle est inversible (cf. Lemme 5.1 du Chapitre 2) et le point minimisant est unique et donné par xk+1 = xk − Hf (xk )−1 ∇f (xk ). (4.1) Donc, si f est de classe C (2) autour d’un point x∗ qui minimise localement f et si Hf est définie positive au voisinage de x∗ , on peut définir une suite de points {xk }. Ceci est la généralisation au cas vectoriel de la méthode de Newton appliquée à l’équation 0 = ∇gk (x) = ∇f (xk ) + Hf (xk )(x − xk ). On rappelle que, pour une fonction h : R → R, la méthode de Newton résout h(x) = 0 en construisant une suite {xk } définie par xk+1 = xk − h(xk ) / h′ (xk ). Si f est quadratique f (x) = 1 Ax · x + b · x + c 2 322 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes et si A est symétrique définie positive, alors la méthode de Newton converge en un pas. En effet, ∇f (x) = Ax + b, −1 ⇒ xk+1 = xk − Hf (xk ) Hf (x) = A, ∇f (xk ) = xk − A−1 (Axk + b) = −A−1 b. Cependant, pour une fonction f arbitraire, si l’on part d’un point éloigné de la solution, la méthode de Newton peut ne pas converger. Il faut donc la modifier. 4.2 Adaptation de la méthode de Newton La première modification consiste à introduire un paramètre ρ > 0 et à définir xk+1 = xk − ρk Hf (xk )−1 ∇f (xk ) de telle façon que ρk minimise gk (ρ) = f (xk − ρ Hf (xk )−1 ∇f (xk )). Ce qui garantit que f (xk+1 ) ≤ f (xk ) et ρk ≥ 0. Près du point minimum x∗ de f , on s’attend à ce que ρk = 1 par (4.1). La seconde modification consiste à remplacer Hf (xk )−1 par une matrice Mk définie positive xk+1 = xk − ρMk ∇f (xk ), ρ > 0. (4.2) Pour ρ > 0 petit, xk+1 est près de xk et l’on a par la formule de Taylor f (xk+1 ) = f (xk ) + ∇f (xk ) · (xk+1 − xk ) + o(kxk+1 − xk k2 ) lorsque k → ∞. En substituant xk+1 du côté droit, il vient f (xk+1 ) = f (xk ) − ρ∇f (xk ) · Mk ∇f (xk ) + o(ρ2 ). On voit donc que si Mk est définie positive, il y aura décroissance. Dans (4.2), si Mk = I (matrice identité) et ρ minimise gk (ρ) = f (xk − ρ∇f (xk )), on retrouve la méthode des gradients optimaux du paragraphe 2.2, mais cette méthode ne converge que linéairement. Si dans (4.2) Mk = Hf (xk )−1 et ρ = 1, on a la méthode de Newton qui converge rapidement au voisinage du point minimum mais qui peut ne pas converger en certains points. L’idée est de combiner deux méthodes de ce type pour assurer un bon fonctionnement global. 4.3 Méthode de Fletcher et Powell La méthode de R. Fletcher et M. J. D. Powell [1] en 1963 est probablement la méthode la plus puissante qui ait été développée à l’époque pour la recherche d’un minimum local d’une fonction numérique. Elle est construite de façon que lorsqu’elle est appliquée à une fonction numérique quadratique, elle minimise 4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell 323 en n itérations. Elle accomplit ceci en créant des directions conjuguées. L’aspect original de la méthode repose sur une matrice Hi symétrique définie positive qui change à chaque itération et qui donne la direction de déplacement si à létape i en multipliant Hi par le gradient de f en xi . On procède comme suit. À l’étape 0, on prend x0 ∈ Rn arbitraire H0 = une matrice symétrique définie positive. À l’étape i, on construit la direction si = −Hi ∇f (xi ) et on calcule un scalaire α = αi qui minimise g(α) = f (xi + αsi ). On pose σi = αi si xi+1 = xi + σi Hi+1 = Hi + Ai + Bi où les matrices Ai et Bi sont données par σi ⊗ σi Ai = , yi = ∇f (xi+1 ) − ∇f (xi ) σi · yi H y ⊗ (Hi yi ) Bi = − i i y i · Hi y i (4.3) (4.4) et x ⊗ y est le produit tensoriel : pour deux vecteurs x et y dans Rn , x1 y1 . . . . . . x1 yn .. . x2 yn x2 y1 déf déf x⊗y = . .. ou (x ⊗ y)ij = xi yj .. .. . . xn y1 . . . . . . xn yn est une matrice n × n. Fletcher et Powell démontrent ce qui suit : 1) La matrice Hi est définie positive pour tout i. Donc la méthode converge en général puisque d (4.5) f (xi + αsi ) = −∇f (xi ) · Hi ∇f (xi ) < 0, | {z } dα α=0 si c.-à-d., la fonction f est initialement décroissante dans la direction si de façon que l’on puisse descendre à chaque itération le long de si . 324 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes minimum f (1, 1) = 0 x2 0 17 1.00 numéro d’itération 0.75 3 0.50 12 0.25 0 −1.0 −0.5 6 0.5 1.0 x1 Figure 6.5. Méthode de Fletcher-Powell pour la fonction de Rosenbrock. 2) Quand on applique la méthode à une fonction quadratique du type (3.1), alors (a) les directions si (ou σi ) sont A-conjugées, menant à un minimum en n pas. (b) la matrice Hi converge vers l’inverse de la matrice des dérivées secondes de f , c.-à-d. Hn = A−1 . 3) Dans le cas général, Hi tend aussi vers l’inverse de la matrice des dérivées secondes évaluée au point minimisant. Les expériences numériques confirment la rapidité de convergence de cette méthode. Considérons la fonction de Rosenbrock de l’Exemple 2.3 (Figure 4.1). f (x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2 avec minimum en x∗ = (1, 1). (4.6) Elle possède une vallée très étroite et profonde qui suit la parabole x2 = x21 . C’est ce qui rend la minimisation difficile. Les Figures 6.5 et 6.6 2 montrent les chemins 2. Essais et Figures redessinées à partir de L. S. Lasdon [1, Figures 1-3 et 1-4, p. 9–10]. 4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell 325 1 1.00 0 2 minimum f (1, 1) = 0 0.75 numéro d’tération 0.50 13 70 0.25 67 46 −1.0 −0.5 0.5 1.0 Figure 6.6. Méthode des gradients optimaux pour la fonction de Rosenbrock. (et le nombre d’itérations) suivis par les méthodes des gradients optimaux et de Fletcher-Powell. Le détail de cet algorithme se trouve dans D. Pearson [1]. 326 Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes Éléments de bibliographie I. Adler [1], On the Equivalence of Linear Programming Problems and Zero-Sum Games, http ://www.optimization-online.org, June 2010. P. Alart, O. Maisonneuve et R. T. Rockafellar [1], Nonsmooth mechanics and analysis : Theoretical and numerical advances, Springer-Verlag, Berlin, 2006. J.-P. Aubin et A. Cellina [1], Differential inclusions, Springer-Verlag, Berlin, 1984. J.-P. Aubin et H. Frankowska [1], Set-Valued Analysis, Birkhäuser, Boston, 1990. M. Barbut, B. Locker, L. Mazilak et P. Priouret [1], Cinquante ans de correspondance mathématique en 107 lettres, Paul Lévy Maurice Fréchet, Birkhäuser, Boston, 1990. A. Bastiani [1], Applications différentiables et variétes diflérentiables de dimension infinie, J. Analyse Math. 13 (1964), 1–114. L. D. Berkovitz [1], Convexity and optimization in Rn , Pure and Applied Mathematics (New York). Wiley-Interscience [John Wiley & Sons], New York, 2002. G. Beveridge et R. Schechter [1], Optimization : Theory and practice, McGraw Hill Book Co., New York, 1970. E. Blum et W. Oettli [1], Direct Proof of the Existence Theorem for Quadratic Programming, Operations Research 20, No. 1 (1972), 165–167. F. Bonnans [1], Optimisation continue, Dunod, Paris, 2006. F. Bonnans et A. Shapiro [1], Perturbation analysis of optimization problems, Springer Series in Operations Research, Springer-Verlag, New York, 2000. É. Borel [1], Traité du calcul des probabilités et de ses applications. Applications aux jeux de hasard, rédigé avec la collab. de Jean Ville, Gauthier-Villars, Paris, 1938. J. M. Borwein et A. S. Lewis 367 368 Éléments de bibliographie [1], Convex analysis and nonlinear optimization. Theory and examples, CMS (Canadian Mathematical Society) Books in Mathematics, Volume 3, Springer-Verlag, New York, 2000. G. Bouligand [1], Sur les surfaces dépourvues de points hyperlimités, Ann. Soc. Polon. Math. 9 (1930), 32–41. [2], Introduction à la géométrie infinitésimale directe, Gauthier-Villars, Paris, 1932. M. J. Box [1], A comparison of several current optimization methods and the use of transformations in constrained problems, Brit. Computer Journal, 9, 1966, pp 67–68. M. J. Box, D. Davies et W. H. Swann [1], Techniques d’optimisation non linéaire, Entreprise moderne d’édition, Paris, 1971. S. Boyd et L. Vandenberghe [1], Convex optimization, Cambridge University Press, Cambridge, 2004. P. Cannarsa et C. Sinestrari [1], Semiconcave functions, Hamilton-Jacobi equations, and optimal control, Progress in Nonlinear Differential Equations and Their Applications, Volume 58, Birkhäuser Boston, Boston, MA, 2004. J. Caristi [1], Fixed point theorems for mappings satisfying inwardness conditions, Trans. Amer. Math. Soc. 215 (1976), 241–251. J. Caristi et W. A. Kirk [1], Geometric fixed point theory and inwardness conditions, dans ≪The geometry of metric and linear spaces≫ (Proc. Conf., Michigan State Univ., East Lansing, Mich., 1974), pp. 74–83, Lecture Notes in Math., Volume 490, Springer, Berlin, 1975. P. G. Ciarlet [1], Introduction à l’analyse numérique matricielle er à l’optimisation, Masson, Paris 1983. F. H. Clarke [1], Necessary Conditions for Nonsmooth Problems in Optimal Control and the Calculus of Variations, Ph.D. thesis, Univ. of Washington, 1973. [2], Optimization and Nonsmooth Analysis, John Wiley and Sons, New York, Chichester, Brisbane, Toronto, Singapore, 1983. T. Clausen [1], Über die Form Architektonischer Säulen, dans astronaumiques I,≫ (1849–1853), 279–284. Mélanges mathématiques et ≪ L. Collatz et W. Wetterling [1], Optimierungsaufgaben, Heidelberger Taschenbücher, Band 15, Springer-Verlag, Berlin-New York 1966, Traduction anglaise par P. Wadsack. Optimization problems, Applied Mathematical Sciences, Vol. 17, Springer-Verlag, New York-Heidelberg, 1975. S. J. Cox [1], The shape of the ideal column, Math. Intelligencer (1) 14 (1992), 16–24. Éléments de bibliographie 369 [2], The generalized gradient at a multiple eigenvalue, J. Funct. Anal. (1) 133 (1995), 30–40. S. J. Cox, B. Kawohl et P. X. Uhlig [1], On the optimal insulation of conductors, J. Optim. Theory Appl. (2) 100 (1999), 253–263. S. J. Cox et C. M. McCarthy [1], The shape of the tallest column, SIAM J. Math. Anal. (3) 29 (1998), 547–554. S. J. Cox et M. L Overton [1], On the optimal design of columns against buckling, SIAM J. Math. Anal. (2) 23 (1992), 287–325. G. B. Dantzig [1], Programming in a linear structure, U. S. Air Force Comptroller, USAF, Washington, D.C., 1948. [2], A Proof of the Equivalence of the Programming Problem and the Game Problem, dans ≪Activity Analysis of Production and Allocation≫ , T. C. Koopmans (ed.), John Wiley & Sons, New York, 1951. [3], Maximization of a linear function subject to linear inequalities, dans ≪Activity Analysis of Production and Allocation≫, T. C. Koopmans (ed.), John Wiley & Sons, New York, 1951, pp. 339–347. [4], Linear Programming and Extensions, Princeton University Press, Princeton, 1963. M. C. Delfour et J.-P. Zolésio [1], Shapes and geometries : Metrics, analysis, differential calculus and optimization, SIAM series on Advances in Design and Control, SIAM, Philadelphia, PA 2011, second edition. V. F. Demyanov et A. M. Rubinov [1], Constructive Nonsmooth Analysis, Peter Lang Verlag, New York, 1995. U. Dini [1], Fondamenti per la teorica delle funzioni di variabili reali, T. Nistri, Pisa 1878 [Fondements de la théorie des fonctions d’une variable réelle] (traduction allemande : Grundlagen für eine Theorie der Funktionen einer veränderlichen reellen Grösse, Teubner, 1892). A. Dontchev et R. T. Rockafellar [1], Implicit functions and solution mappings. A view from variational analysis, Springer Monographs in Mathematics, Springer, Dordrecht, 2009. A. Ja. Dubovitskiı̌ et A. A. Miljutin [1], Extremal problems with constraints, (Russian) Ž. Vyčisl. Mat. i Mat. Fiz. 5 (1965), 395–453. M. Durea [1], On the existence and stability of approximate solutions of perturbed vector equilibrium problems, Journal of Mathematical Analysis and Applications 333, no. 2 (2007), 1165–1179. I. Ekeland [1], On the variational principle, Journal of Mathematical Analysis and Applications 47, no. 2 (1974), 324–353. 370 Éléments de bibliographie [2], Nonconvex minimization problems, Bulletin of the American Mathematical Society 1 (1979), 443–474. I. Ekeland et R. Temam [1], Analyse convexe et problèmes variationnels, Dunod Gauthier-Villars, Paris, 1974. Traduction anglaise : Convex analysis and variational problems, North– Holland Publishing Co., Amsterdam-Oxford ; American Elsevier Publishing Co., New York, 1976 (Corrected reprinting, SIAM, Philadelphia, 1999). L. Euler [1], Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive solutio problematis isoperimetrici latissimo sensu accepti, 1744 [Une méthode pour trouver des lignes courbes jouissant de propriétés de maximum ou de minimum, ou la solution de problèmes isopérimétrique dans le sens le plus large], Opera Omnia : Series 1, Volume 24 (1952), 1–308. J. Farkas [1], Über die Theorie der Einfachen Ungleichungen, Journal für die Reine und Angewandte Mathematik 124 (1902), 1–27. W. Fenchel [1], On conjugate convex functions, Canad. J. Math. 1 (1949), 73–77. [2], Convex cones, sets and functions, Mimeographed Lecture Notes, Princeton University, Princeton, 1951. [3], A remark on convex sets and polarity, Medd. Lunds Univ. Mat. Sem. (Supplementband) (1952), 82–89. [4], Über konvexe Funktionen mit vorgeschriebenen Niveaumannigfaltigkeiten, Math. Z. 63 (1956), 496–506. W. Fenchel et T. Bonnesen [1], Theorie der konvexen Körper, Ergebnisse der Mathematik und ihrer Grenzgebiete—, 3. Berlin : 1. Verlag von Julius Springer, 1931. [2], Theorie der konvexen Körper, Chelsea Publishing Co., Bronx, New York, 1971. [3], Theorie der konvexen Körper, Springer-Verlag, Berlin, 1974. [4], Theory of convex bodies, L. Boron, C. Christenson and B. Smith (eds.), BCS Associates, Moscow, Idaho, 1987. J. Ferguson [1], A. Brief Survey of the History of the Calculus of Variations and Its Applications, University of Victoria, Canada, 2004 (arXiv :math/0402357). P. de Fermat [1], Methodus ad disquirendam Maximam et Minimam, Varia opera mathematica, 1679 (D’abord consigné dans une lettre à Mersenne en 1638, la première version imprimée de la méthode se retrouve dans le cinquième volume de Supplementum Cursus Mathematici (1642) écrit par Herigone, et ce n’est qu’en 1979 qu’elle apparaı̂t dans Varia opera mathematica.). Version électronique du manuscrit en latin : http ://fr.wikisource.org/wiki/Œuvres de Fermat - Livre I - Maxima et Minima. [2], De tangentibus linearum curvarum, Varia opera mathematica, 1679. W. H. Fleming [1], Functions of several variables, Addison–Wesley, Reading, Massachusetts, 1965. Éléments de bibliographie 371 R. Fletcher et M. J. D. Powell [1], A rapidly convergent descent method for minimization, Brit. Computer Journal 6, 1963, 163–168. R. Fletcher et C. M. Reeves [1], Function minimization by conjugate gradients, Brit. Computer Journal, 7, 1964, pp. 149–154. M. Fortin et Z. Mghazli [1], Analyse d’un élément mixte pour le problème de Stokes. I. Résultats généraux, Numer. Math. 62 (1992), 149–160. [2], Analyse d’un élément mixte pour le problème de Stokes. II. Construction et estimations d’erreur, Numer. Math. 62 (1992), no. 2, 161–188. M. Frank et P. Wolfe [1], An Algorithm for Quadratic Programming, Naval Res. Log. Quart. 3 (1956), 95–110. M. Fréchet [1], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t. CLII (1911), 845–847. [2], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t. CLII (1911), 1050–1051. [3], Sur la notion de différentielle totale, Nouv. Ann. Math. 12 (1912), 385–403 et 433–449. [4], La notion de différentielle dans l’Analyse générale, Ann. c. Norm., XLII (1925), 293–323. [5], Sur la notion de différentielle, Journal de Mathématiques Pures et Appliquées 16 (1937), 233–250. R. Gateaux [1], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 22-2 (1913), 646–648. [2], Sur les fonctionnelles continues et les fonctionnelles analytiques, Comptes rendus de l’académie des sciences (Paris) 157 (1913), 325–327. [3], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 23-1 (1914), 310–315. [4], Sur les fonctionnelles d’ordre entier d’approximation, Rend. Acc. Linc., 23-1 (1914), 405–408. [5], Représentation d’une fonctionnelle continue, satisfaisant à la condition du cycle fermé, Rend. Acc. Linc., 23-1 (1914), 481–486. [6], Sur la notion d’intégrale dans le domaine fonctionnel et sur la théorie du potentiel, Bulletin de la Société Mathématique de France 47 (1919), 47–67 (suivi d’une note de P. Lévy 67–70). [7], Fonctions d’une infinité de variables indépendantes, Bulletin de la Société Mathématique de France 47 (1919), 70–96. [8], Sur diverses questions du calcul fonctionnel, Bulletin de la Société Mathématique de France 50 (1922), 1–37. I. V. Girsanov 372 Éléments de bibliographie [1], Lectures on mathematical theory of extremum problems, Springer-Verlag, New York, 1974. J. Hadamard [1], Leçons sur le calcul des variations, vol. I, Hermann, Paris, 1910. [2], La notion de différentielle dans l’enseignement, Scripta Univ. Ab. Bib., Hierosolymitanarum, Jerusalem, 1923. Réimprimé dans la ≪Mathematical Gazette≫ 19, no. 236 (1935), 341–342. G. Hadley [1], Nonlinear and dynamic programming, Addison–Wesley Publishing Co., Reading, Massachusetts, 1964. M. R. Hestenes [1], Optimization theory, the finite dimensional case, J. Wiley-Interscience, New York, 1975. M. R. Hestenes et E. Stiefel [1], Methods of conjugate gradients for solving linear systems, J. Res. Natl. Bur. Stand. 49 (1952), 409–436. M. Intriligator [1], Mathematical optimization and economic theory, Prentice–Hall, Englewood Cliffs, NJ, 1971. A. D. Ioffe [1], Metric regularity and subdifferential calculus, (Russian) Uspekhi Mat. Nauk 55 (2000), no. 3 (333), 103–162 ; traduction anglaise dans Russian Math. Surveys 55 (2000), no. 3, 501–558. A. D. Ioffe et V. M. Tikhomirov [1], Théorie des problèmes extrémaux, Édition Nauka, Moscou, 1974. Traduit de l’édition en russe, Series in Nonlinear Analysis and Its Applications, Izdat. Nauka, Moscow, 1974. G .G. Joseph [1], The Crest of the Peacock, Princeton University Press, Princeton, NJ, 2000, pp. 298–300. L .V. Kantorovich [1], Mathematical Methods of Organizing and Planning Production, Leningrad State University Press, Leningrad, Russia, 1939. [2], A new method of solving some classes of extremal problems, Doklady Akad Sci USSR 28 (1940), 211–214. W. Karush [1], Minima of functions of several variables with inequalities as side conditions, Master’s thesis, University of Chicago, 1939. J. Kowalik et M. Osborne [1], Methods for unconstrained optimization problems, American Elsevier Publishing Co., New York, 1968. H. W. Kuhn et A. W. Tucker [1], Nonlinear programming, dans ≪Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability≫, J. Neyman, ed., University of California Press, Berkeley, CA, 1951, pp. 481–492. Éléments de bibliographie 373 [2], John von Neumann’s work in the theory of games and mathematical economics, Bull. Amer. Math. Soc. 64, Number 3, Part 2 (1958), 100–122. J. L. Lagrange [1], Sur la figure des colonnes, dans ≪Miscellanea Taurinensia V,≫ 123, 1770–1773. [2], Mécanique analytique, Courcier, Paris, 1788. (reissued by Cambridge University Press, 2009 ; ISBN 9781108001748) L. S. Lasdon [1], Optimization theory for large systems, Collier-Macmillan, Toronto, 1970. S. R. Lay [1], Convex sets and their applications, J. Wiley & Sons, New York, 1982 (book dedicated to F. A. Valentine). A.-M. Legendre [1], Sur la manière de distinguer les Maxima des Minima dans le Calcul des Variations, dans ≪Histoire de l’Académie Royale des Sciences≫, Année 1786, Mémoires de Mathématiques et de Physique, Paris, 1786, pp. 7–37. G. W. Leibniz [1], Nova methodus pro maximis et minimis, itemque tangentibus, quae nec fractas nec irrationales quantitates moratur, et singulare pro illis calculi genus, Acta Eruditorum, 1684 [Nouvelle méthode pour les maxima et minima, ainsi que les tangentes, qui ne bute ni sur les fractions ni sur les irrationnelles, avec un mode original de calcul]. B. Lemaire [1], Problèmes min-max et applications au contrôle optimal de systèmes gouvernés par des équations aux dérivées partielles linéaires, Thèse de doctorat d’état, Université de Montpellier, Montpellier, France, 1970. D. G. Luenberger [1], Introduction to linear and nonlinear programming Addison–Wesley, Reading, Mass., Don Mills, Ont., 1973 ; Linear and nonlinear programming, 2nd ed. Addison– Wesley, Reading, Mass., Don Mills, Ont., 1984. [2], Optimization by vector space methods Wiley, New York, 1969. O. Mangasarian [1], Nonlinear programming, McGraw–Hill Book Co., New York, 1969. L. Mazilak [1], The ghosts of the Ecole Normale. Life, death and destiny of René Gateaux, submitted to Historia Mathematica (Les fantômes de l’École Normale. Vie, mort et destin de René Gateaux, Université Pierre et Marie Curie Paris, France, 2007). [2], Communication privée. L. Mazilak et R. Tazzioli [1], Mathematicians at war. Volterra and his French colleagues in World War I, Archimedes : New Studies in the History and Philosophy of Science and Technology, 22. Springer, New York, 2009. A. D. Michal [1], Differential calculus in linear topological spaces, PYOC. Nat. Acad. Sci. U.S.A. 24 (1938), 340–342. 374 Éléments de bibliographie A. A. Miljutin [1], General schemes for obtaining necessary conditions for an extremum, and problems of optimal control, (en russe) Uspehi Mat. Nauk 25, no. 5 (155) (1970), 110– 116. B. S. Mordukhovich [1], Variational analysis and generalized differentiation. I. Basic theory, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Volume 330, Springer-Verlag, Berlin, 2006. [2], Variational analysis and generalized differentiation. II. Applications, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Volume 331, Springer-Verlag, Berlin, 2006. M. Nagumo [1], Über die Loge der Integralkurven gewöhnlicher Differentialgleichungen, (en allemand) Proc. Phys. Math. Soc. Japan 24 (1942), 551–559. J. F. Nash [1], Non-Cooperative Games, The Annals of Mathematics 54, no. 2 (1951), 286–295. I. Newton [1], Method of fluxions and infinite series, Heney Woodfall, London, 1736 (rédigé en 1671). [2], Philosophiae Naturalis Principia Mathematica, 1687 et 1726 (troisième édition). Traduction française par Émilie du Châtelet : Principes mathématiques de philosophie naturelle, Paris, 1756. Definitiones (Définitions), p. 1–11 ; Axiomata sive leges motus (Des lois ou axiomes du mouvement), p. 12–25) ; De motu corporum : liber primus (Sur le mouvement des corps : livre premier), p. 26–235 ; De motu corporum : liber secundus (Sur le mouvement des corps : livre second), p. 236–400 ; De mundi systemate : liber tertius (Sur le système du monde : livre troisième), p. 401–510. J. M. Ortega et W. C. Rheinboldt [1], Iterative solution of nonlinear equations in several variables, Classics in Applied Mathematics, Volume 30, SIAM, Philadelphia, 2000. D. Pearson [1], Variable metric methods of minimisation, Brit. Computer Journal 12, 1969, pp. 171–178. J.-P. Penot [1], Calcul sous-différentiel et optimisation, Journal of Functional Analysis 27 (1978), 248–276. J. Pierpont [1], The theory of functions of real variables, Vol. I, Ginn and Company, Boston, New York, Chicago, London, Atlanta, Dallas, Columbus, San Francisco, 1905. [2], The theory of functions of real variables, Vol. II, Ginn and Company, Boston, New York, Chicago, London, 1912. J. A. Plateau [1], Statique expérimentale et théorique des liquides soumis aux seules forces moléculaires, Gauthier-Villars, Paris, 1873. E. Polak [1], Computational methods in optimization, Academic Press, New York, 1972. Éléments de bibliographie 375 [2], Optimization : Algorithms and consistent approximations, Applied Mathematical Sciences, Springer, New York,1997. B T. Polyak [1], Introduction to optimization, Optimization Software, Inc., Publications Division, New York, 1987. R. T. Rockafellar [1], Convex analysis, Princeton University Press, Princeton, NJ, 1972. R. T. Rockafellar et R. J.-B. Wets [1], Variational analysis, Fundamental Principles of Mathematical Sciences, Volume 317, Springer, Berlin, 1998. H. H. Rosenbrock [1], An automatic method for finding the greatest or least value of a function, Brit. Computer Journal 3 (1960), 175–184. W. Rudin [1], Principes d’analyse mathématique, Édiscience, Paris 1995 [traduction de l’anglais, Principles of mathematical analysis, McGraw–Hill, New York, 1964. D. L. Russell [1], Optimization theory, W.A. Benjamin, New York, 1970. L. Schwartz [1], Cours d’analyse, Hermann, Paris, 1967. F. Severi [1], Su alcune questioni di topologia infinitesimale, Ann. Polon. Soc. Math. 9 (1930), 97–108. J. Stoer et C. Witzgall [1], Convexity and optimization in finite dimensions, Volume 1, Springer-Verlag, New York, 1970. O. Stolz [1], Grundzüge der Differential und Integralrechnung, I, B. G. Teubner, Leipzig, 1893 (The Cornell University Library Collections). W. Takahashi [1], Existence theorems generalizing fixed point theorems for multivalued mappings, dans ≪Fixed Point Theory and Applications ≫ (Marseille, 1989), M. Thra and J. Baillon, eds., pp. 397–406, Pitman Res. Notes Math. Ser., Volume 252, Longman Sci. Tech., Harlow, 1991. V. M. Tihomirov [1], Elements of the theory of extrema, Econometric Institute, Erasmus University Rotterdam, 1997. H. Tuy [1], Convex analysis and global optimization, Kluwer Academic Publishers, Dordrecht, 1998. F. A. Valentine [1], Convex sets, McGraw–Hill, New York, 1964. B. van Brunt 376 Éléments de bibliographie [1], The Calculus of Variations, Springer-Verlag, New York, 2004. J. von Neumann [1], Zur Theorie der Gesellschaftsspiele. Mathematische Annalen 100 (1) (1928), 295–320. Trad. : ≪On the Theory of Games of Strategy,≫ dans ≪Contributions to the Theory of Games,≫ v. 4, A. W. Tucker and R. D. Luce, eds. (1959), pp. 13–42. J. von Neumann et O. Morgenstern [1], Theory of Games and Economic Behavior, Princeton University Press, Princeton, 1944. K. Weierstrass [1], Mathematische Werke. Rester Band. Abhandlungen I. Mayer & Müller, Berlin 1894 ; Zweiter Band. Abhandlungen II. Mayer & Müller, Berlin 1895 ; Dritter Band. Abhandlungen III. Mayer & Müller, Berlin 1903. [2], Mathematische Werke. Vierter Band. Vorlesungen über die Theorie der Abelschen Transcendenten. Mayer & Müller, Berlin 1902. [3], Mathematische Werke. Siebenter Band. Vorlesungen über Variationsrechnung. Akademische Verlagsgesellschaft M. B. H., Leipzig, 1927. J. D. Weston [1], A characterization of metric completeness, Proc. Amer. Math. Soc. 64 (1977), no. 1, 186–188. H. Whitney [1], A function that is not constant on a connected set of critical points, Duke Math. J. 1, no. 4 (1935), 514–517. W. H. Young [1], On differentials, Proc. London Mathematical Society, series 2, 7 (1909), 157. [2], The fundamental theorems of Differential Calculus, University Press, Cambridge, 1910. W. Zangwill [1], Nonlinear Programming–A Unified Approach, Prentice–Hall, Englewood Cliffs, NJ, 1969. J.-P. Zolésio [1], Identification de domaines par déformation, Thèse de doctorat d’état, Université de Nice, France, 1979. [2], Semiderivatives of repeated eigenvalues, dans ≪Optimization of Distributed Parameter Structures,≫ Vol. II (Iowa City, IA, 1980), E. J. Haug and J. Céa, eds., 1457–1473, NATO Adv. Sci. Inst. Ser. E : Appl. Sci., 50, Sijhofff and Nordhoff, Alphen aan den Rijn, 1981 (Nijhoff, The Hague).