Numérique pour l`optimisation différentiable sans contraintes

Transcription

Numérique pour l`optimisation différentiable sans contraintes
Chapitre 6
10
10
8
10
6
10
4
10
2
0
10
0.2
0.4
0
10
1
1
0.8
0.6
0.6
0.4
0.2
0
! 0.2
0.8
! 0.4
! 0.6
! 0.8
!1
1
Numérique pour
l’optimisation
différentiable sans
contraintes
Introduction
Afin de donner un aperçu plus large de l’optimisation, on présente une initiation rapide aux méthodes numériques de base pour l’optimisation différentiable
sans contraintes. Le paragraphe 2 expose quelques méthodes numériques faisant
appel aux dérivées du premier orde (méthodes de descente, “steepest descent”,
pas ajustés). Au paragraphe 3, on aborde la méthode des directions conjuguées
qui donne les algorithmes du gradient conjugué, de Fletcher-Reeves, et de PolakRibière. Enfin, le paragraphe 4 traite des méthodes du type Newton qui font en
principe appel aux dérivées du deuxième ordre. On peut cependant arriver aux
mêmes résultats en optant pour des méthode de type quasi-Newton comme celle
de Fletcher-Powell ne faisant appel qu’aux dérivées premières tout en construisant
une approximation de l’inverse de la matrice hessienne. Les paragraphes 2 à 4 sont
tirés du livre de L. S. Lasdon [1] et la démonstration de la méthode du gradient
conjugué de P. G. Ciarlet [1].
2
Dérivées d’ordre un : méthodes de descente
On a vu que les conditions nécessaires pour l’existence minimum local d’une
fonction f : Rn → R de classe C (2) en un point x∗ sont
∂f ∗
(x ) = 0, 1 ≤ i ≤ n,
(2.1)
∇f (x∗ ) = 0 ou
∂xi


∂2f ∗
∂2f
∗
(x
)
.
.
.
(x
)

 ∂x2
∂xn ∂x1
1




.
.
∗
.
..
..
..
(2.2)
Hf (x ) = 
 ≥ 0.


2
2
 ∂ f
∂ f ∗ 
(x∗ ) . . .
(x )
∂x1 ∂xn
∂x2n
Pour trouver le minimum de f , il faut résoudre l’équation (2.1) qui est un système
de n équations non-linéaires en n inconnues. C’est souvent très difficile pour un
307
308
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
“gros système” comme celui de l’Exemple 2.4 du Chapitre 4. De plus, il faut vérifier
la condition de positivité (2.2). On s’oriente alors naturellement vers des méthodes
x2
courbe de niveau
{x : f (x) = f (x0 )}
x0
∇f (x0 )
x1
Figure 6.1. Gradient et courbes de niveau.
itératives qui font appel au gradient ∇f (x) qui “pointe” dans la direction où le
taux d’accroissement de f est maximum (−∇f (x) est la direction de la plus grande
descente). Le vecteur ∇f (x0 ) est normal à l’ensemble de niveau de la function f
passant par x0 .
2.1
Méthode de la plus forte pente (steepest descent
Cette méthode de recherche d’un minimum consiste à partir d’un point initial
x0 et à calculer ∇f (x0 ). Puis on fait un pas de longueur α0 dans la direction de plus
grande descente, −∇f (x0 ), pour obtenir un nouveau point x1 . On répète ensuite
jusqu’à ce qu’une condition d’arrêt soit vérifiée (voir Figure 6.2). En résumé
x0 point initial
déf
à l’étape i ≥ 0,
xi+1 = xi − αi ∇f (xi )
pour αi > 0 tel que f (xi+1 ) < f (xi ).
(2.3)
La méthode converge sous des hypothèses très faibles (cf. ? [??]) vers au moins un
minimum local de f (x).
2. Dérivées d’ordre un : méthodes de descente
309
∇f (x0 )
∇f (x2 )
x0
x2
x1
∇f (x1 )
Figure 6.2. Méthode de “steepest descent”.
2.2
Méthode du gradient à pas ajustés ou optimaux (optimum
gradients)
Une façon systèmatique de choisir la longueur du pas dans (2.3) à l’étape i
consiste à prendre αi tel que
f (xi − αi ∇f (xi )) = inf f (xi − α∇f (xi ))
α
ou, de façon équivalente, à minimiser la fonction
inf gi (α),
α≥0
déf
gi (α) = f (xi − α∇f (xi )) .
(2.4)
si le point minimisant est αi = 0, alors f (xi ) est un minimum local de f . Sinon,
il existe αi > 0 tel que la condition (2.3) soit vérifée puisque l’on cherche localement la plus petite valeur de gi (α) = f (xi − α∇f (xi )). La conditionnécessaire pour
l’existence d’un point minimisant est celle de dérivée de gi (α) égale à zéro
dgi
(α) = −∇f (xi − α∇f (xi )) · ∇f (xi )
dα
⇒ 0 = ∇f (xi − αi ∇f (xi )) · ∇f (xi ) = ∇f (xi+1 ) · ∇f (xi ).
Cette adaptation de la “steepest descent” est appelée méthode d’“optimum
gradients” (cf. ? [??]). En résumé,
à l’étape i ≥ 0,
x0 point initial
on prend si déf
= −∇f (xi ) et on choisit αi tel que
g (α ) = inf g (α), g (α) déf
= f (xi + α si )
i
i
i i
α≥0
déf
on prend x
= x +α s .
i+1
i
i i
310
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
Géométriquement parlant, αi est choisi en minimisant f (x) dans la direction si à
partir du point xi . En un minimum local on a néssairement
dgi 0=
= ∇f (xi + αi si ) · si = −∇f (xi + αi si ) · ∇f (xi ) = ∇f (xi+1 ) · si .
dα α=αi
Le vecteur si est donc tangent à la courbe de niveau pour α = αi (c’est-à-dire au
point xi+1 ). Le gradient ∇f (xi+1 ) est normal à cette même courbe de niveau. Les
pas successifs sont donc orthogonaux.
x2
x0
x1
Figure 6.3. Méthode du gradient à pas ajustés ou optimaux.
Exemple 2.1.
On reprend la fonction f (x1 , x2 ) = x21 + x22 . Alors
∇f (x1 , x2 ) = 2(x1 , x2 )
déf
et en posant pour α ∈ R g(α) = f (x − α∇f (x)), l’élément minimisant α∗ de
inf α g(α) vérifie la condition
0 = g ′ (α∗ ) = = −∇f (x − α∗ ∇f (x)) · ∇f (x)
= −2(x − α∗ 2x) · 2x = −4[1 − 2α∗ ]|x|2 =⇒ α∗ = 1/2.
Donc, si on part du point x0 ∈ R2 , le point suivant est donné par
1
x1 = x0 − α∗ ∇f (x0 ) = x0 − 2x0 = 0.
2
C’est le point minimisant. Pour une fonction f avec des lignes de niveau en forme
de cercles concentriques, la méthode converge en une itération.
2. Dérivées d’ordre un : méthodes de descente
311
Exemple 2.2.
Soit la fonction f dans R2 de l’Exemple 2.2
f (x1 , x2 ) = 16x21 + (x2 − 4)2 ,
∇f (x1 , x2 ) = 2(16x1 , x2 − 4)
où (0, 4) est le point minimisant. Alors
x2
(0, 4)
f (x) = 1
f (x) = 4
1
−1
(1, 1)
−0.5
0.5
1
x1
f (x) = 25
Figure 6.4. Ensembles de niveau de la fonction f (x) = 16x21 + (x2 − 4)2
de l’Exemple 2.2 et méthode des gradients optimaux à partir du point initial (1, 1).
g(α) = f (x − α∇f (x)) = 16(x1 − α32x1 )2 + (x2 − 2α(x2 − 4) − 4)2
= 16 x21 (1 − 32α)2 + (x2 − 4)2 (1 − 2α)2 .
Le longueur α du pas est donc donné par g ′ (α) = 0 :
−g ′ (α)/4 = (16 x1 )2 (1 − 32α) + (x2 − 4)2 (1 − 2α)
= (16 x1 )2 + (x2 − 4)2 − α 32(16 x1 )2 + 2(x2 − 4)2 .
1
312
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
Alors g ′ (α) = 0 si
α=
(16 x1 )2 + (x2 − 4)2
si (x1 , x2 ) 6= (0, 4) ou 0 si (x1 , x2 ) = (0, 4).
32(16 x1 )2 + 2(x2 − 4)2
Dans le cas où (x1 , x2 ) = (0, 4), ∇f (0, 4) = (0, 0) et l’algorithme s’arrète. Contrairement à l’Exemple 2.1, on n’atteint pas le point minimisant en un seul pas comme
le montrent la Figure 6.4 et la Table 6.1.
i
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
f (x)
x
x1
1.00E+00
-3.29E-02
3.16E-01
-1.04E-02
9.97E-02
-3.28E-03
3.15E-02
-1.03E-03
9.93E-03
-3.27E-04
3.14E-03
-1.03E-04
9.90E-04
-3.26E-05
3.13E-04
-1.03E-05
x2
1.00E+00
1.19E+00
3.05E+00
3.11E+00
3.70E+00
3.72E+00
3.91E+00
3.91E+00
3.97E+00
3.97E+00
3.99E+00
3.99E+00
4.00E+00
4.00E+00
4.00E+00
4.00E+00
2.50E+01
7.89E+00
2.49E+00
7.87E-01
2.48E-01
7.84E-02
2.48E-02
7.82E-03
2.47E-03
7.79E-04
2.46E-04
7.77E-05
2.45E-05
7.74E-06
2.44E-06
7.71E-07
∇f (x)
∂1 f (x)
∂2 f (x)
3.20E+01
-6.00E+00
-1.05E+00 -5.61E+00
1.01E+01
-1.89E+00
-3.32E-01
-1.77E+00
3.19E+00
-5.98E-01
-1.05E-01
-5.59E-01
1.01E+00
-1.89E-01
-3.31E-02
-1.77E-01
3.18E-01
-5.96E-02
-1.05E-02
-5.58E-02
1.00E-01
-1.88E-02
-3.30E-03
-1.76E-02
3.17E-02
-5.94E-03
-1.04E-03
-5.56E-03
1.00E-02
-1.88E-03
-3.29E-04
-1.75E-03
α
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
s = −α∇f (x)
s1 = −α∂1 f (x) s2 = −α∂2 f (x)
-1.03E+00
1.94E-01
3.49E-01
1.86E+00
-3.26E-01
6.11E-02
1.10E-01
5.87E-01
-1.03E-01
1.93E-02
3.47E-02
1.85E-01
-3.25E-02
6.09E-03
1.10E-02
5.85E-02
-1.03E-02
1.92E-03
3.46E-03
1.85E-02
-3.24E-03
6.07E-04
1.09E-03
5.83E-03
-1.02E-03
1.92E-04
3.45E-04
1.84E-03
-3.23E-04
6.05E-05
1.09E-04
5.81E-04
Table 6.1. Itérations de la méthode du gradient à pas optimaux pour la
fonction f (x) = 16x21 + (x2 − 4)2 .
2.3
Critères d’arrêt
Il y a de nombreux critères d’arrêt possible
1) Puisqu’au minimum ∂f /∂xi = 0, on peut arrêter lorsque
n P
∂f ∂f 2
(a) ∂x
<
ε,
i
=
1,
2,
.
.
.
,
n,
ou
(b)
∂xi < ε.
i
i=1
2) Arrêter lorsque la variation de la fonction est inférieure à une certaine limite
η (voir Tableau 6.1), c’est-à-dire
|f (xi+1 ) − f (xi )| < η.
Beaucoup d’autres critères sont admissibles. Le critère 2) est le plus fiable des deux
en autant qu’il soit vérifié pour plusieurs valeurs successives de i.
3. Directions conjuguées et gradient conjugué
313
Il est évident que le choix du critère et de la valeur d’arrêt (ε et η) sont fortement liés à la fonction à minimiser et la manière de programmer la méthode (notion
connue sous le nom de conditionnement en analyse numérique) et à l’architecture
de l’ordinateur (représentation des nombres et précision machine).
Au mieux les méthodes précédentes trouveront un minimum local dans la
région du point initial x0 . Il faut répéter la méthode en partant de points différents
pour trouver tous les minima locaux.
3
3.1
Directions conjuguées et gradient conjugué
Fonction objectif quadratique
On a vu dans l’Exemple 2.1 que lorsque les lignes de niveau de la fonction sont
des cercles concentriques, la méthode des pas ajustés converge en un pas, alors que
dans les Exemples 2.2 et 2.2 où les lignes de niveau sont des ellipses, les pas successifs
avec orthogonalité du gradient par rapport seulement au gradient précédent ne sont
pas aussi bien adaptés. Si on augmente le rapport entre les deux axes de l’ellipse
comme dans l’Exemple 2.2 pour la fonction f (x1 , x2 ) = 16x21 + (x2 − 4)2 , on peut
voir sur la Figure 6.4 le cheminement de la méthode qui zigzague de plus en plus
avec des pas de plus en plus courts au voisinage du point minimisant (0, 4) ce qui
rend la convergence très lente.
Par le Théorème de Taylor, une fonction f de classe C (2) ressemble à une
fonction quadratique au voisinage d’un point x
1
f (y) ∼
= f (x) + ∇f (x) · (y − x) + Hf (x)(y − x) · (y − x).
2
Il est donc important de développer des méthodes efficaces pour minimiser une
fonction quadratique en n variables de la forme
1
déf
q(y) = a + b · y + Ay · y,
(3.1)
2
où a ∈ R, b ∈ Rn et A est une matrice n × n symétrique et définie positive. C’est
qu’en fait, il faut tenir compte de la matrice A qui spécifie l’excentricité des ellipses
et choisir des directions qui soient orthogonales par rapport à la matrice A. Cette
idée est à l’origine des méthodes de directions conjugées.
Définition 3.1.
Soit A une matrice n × n symétrique et définie positive. On dit que les n directions
{si : 0 ≤ i ≤ n − 1} sont A–conjugées si aucune n’est nulle et que
si · Asj = 0, i 6= j,
i, j = 0, 1, . . . , n − 1.
(3.2)
D’où, en particulier, Asi · si > 0, i = 0, 1, . . . , n − 1.
Lemme 3.1. Soit A une matrice n×n symétrique et définie positive et {s0 , . . . , sk },
1 ≤ k ≤ n − 1, des directions A-conjuguées dans Rn . Alors les vecteurs {s0 , . . . , sk }
sont linéairement indépendants dans Rn .
314
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
Démonstration. Soient des scalaires {λ0 , . . . , λk } tel que
k
X
λi si = 0.
i=0
Pour j, 0 ≤ j ≤ k, on prend le produit scalaire de cette expression avec Asj
0 = Asj ·
k
X
i=0
λi si =
k
X
i=0
Asj · λi si = λj Asj · sj .
Comme Asj · sj > 0, il vient λj = 0 et ceci est vrai pour tout j, 0 ≤ j ≤ k. Les k
directions sont donc linéairement indépendantes.
Soit x∗ le point minimisant de q(x). Alors
∇q(x∗ ) = b + Ax∗ = 0.
(3.3)
Soient x0 le point de départ de l’algorithme et les directions A-conjuguées dans Rn .
Elles sont linéairement indépendantes par le Lemme 3.1. On peut donc associer à
n−1
tout point x0 ∈ Rn des constantes {βi }i=0
telles que
x∗ = x0 +
n−1
X
βi s i .
(3.4)
i=0
Les {βi } peuvent être calculées à partir de (3.4) et (3.3) comme suit :
∗
∀j,
0 = sj · [Ax + b] = sj · Ax0 +
En utilisant (3.2),
∀j,
⇒ ∀j,
n−1
X
i=0
βi sj · Asi + sj · b.
0 = sj · [Ax∗ + b] = sj · [Ax0 + b] + βj sj · Asj
βj = −
n−1
X
(b + Ax0 ) · sj
(b + Ax0 ) · sj
−
et x∗ = x0 +
sj .
sj · Asj
sj · Asj
j=0
(3.5)
(3.6)
(3.7)
On considère maintenant une approche itérative qui à partir d’un point x0
minimise q(x) successivement dans les directions s0 , s1 , . . . , sn−1 , choisies de façon
à ce que (3.2) soit vérifiée. On construit ainsi une suite de points
xi+1 = xi + αi si ,
i = 0, 1, . . . , n − 1,
(3.8)
où αi ∈ R minimise gi (α) = q(xi + αsi ), comme dans la méthode des gradients
optimaux :
d2 gi
dgi = si · Asi > 0.
(3.9)
=
s
·
∇q(x
)
=
0,
i
i+1
dα dα2
α=αi
3. Directions conjuguées et gradient conjugué
315
Ce qui nous garantit que q(xi+1 ) ≤ q(xi ). Montrons que xn satisfait (3.3), c’est-àdire que xn = x∗ , et que αi = βi . À partir de (3.3) and (3.9) il vient
(b + Axi ) · si
.
(3.10)
si · (b + A(xi + αi si )) = 0 ⇒ αi = −
si · Asi
Mais par (3.8)
xi = x0 +
i−1
X
j=0
αj sj
⇒ xi · Asi = x0 · Asi +
i−1
X
j=0
αj sj · Asi = x0 · Asi .
(3.11)
Ainsi de (3.10), (3.7), et (3.4)
(b + Ax0 ) · si
= βi
αi = −
si · Asi
∗
⇒ x = x0 +
n−1
X
αj sj = xn .
(3.12)
j=0
Il est clair que l’on obtient toute une famille de méthodes qui minimise en au plus
n pas en variant le choix des directions s0 , s1 , ..., sn−1 qui devient ainsi le cœur
de la méthode, la difficulté principale étant de les créer de façon récursive. Dans le
paragraphe suivant, on présente une façon de construire des directions et la méthode
en résultant.
3.2
Méthode du gradient conjugué
La méthode des gradients conjugués (cf. M. R. Hestenes et E. Stiefel [1])
est un procédé élégant en n pas pour résoudre un système d’équations linéaires
impliquant une matrice symmétrique définie positive. Elle est donc pertinente pour
la minimisation de fonctions quadratiques. Il existe plusieurs méthodes de directions conjuguées. Celle de R. Fletcher et C. M. Reeves [1] ne nécessite que
le calcul du gradient de f (x) et la mise en réserve de seulement un autre vecteur additionnel. Cette méthode n’est pas aussi efficace que celle de R. Fletcher
et M. J. D. Powell [1] que l’on verra plus loin mais elle nécessite moins de
mémoire, ce qui constitue un avantage lorsque le nombre n de variables est grand
(cf. M. J. Box [1]).
L’algorithme est le suivant :
soit x0 un point initial et la direction s0 = −∇f (x0 ).
Si ∇f (x0 ) = 0, on arrête. Sinon, on passe à l’étape 0 : on choisit ρ0 minimisant
g(ρ) = f (x0 + ρs0 ) et on pose
x1 = x0 + ρ0 s0
et s1 = −∇f (x1 ) +
k∇f (x1 )k2
s0 .
k∇f (x0 )k2
À l’étape k, si ∇f (xk ) 6= 0, on choisit ρk minimisant g(ρ) = f (xk + ρsk ) et on pose
xk+1 = xk + ρk sk
et sk+1 = −∇f (xk+1 ) +
k∇f (xk+1 )k2
sk .
k∇f (xk )k2
316
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
On suit maintenant la présentation de P. G. Ciarlet [1, pp. 195–199 et 201].
À l’étape k, on a déterminé les points x0 , x1 , . . .xk et l’on supppose que
∇f (xℓ ) 6= 0,
0 ≤ ℓ ≤ k.
Soit Gℓ le sous espace linéaire de Rn généré par les gradients 1
déf
déf
Gℓ = Lin {∇f (xi ) : 0 ≤ i ≤ ℓ}
xℓ + Gℓ = {xℓ + yℓ : ∀yℓ ∈ Gℓ }
)
(
ℓ
X
αi ∇f (xi ) : ∀αi ∈ R, 0 ≤ i ≤ ℓ .
= xℓ +
i=0
Le point xk+1 est solution du problème de minimisation suivant
xk+1 ∈ xk + Gk ,
f (xk+1 ) =
inf
x∈xk +Gk
f (x) = inf f (xk + y).
y∈Gk
Comme Gk est un sous espace linéaire, on obtient les conditions nécessaires suivantes
∇f (xk+1 ) · y = 0,
∀y ∈ Gk
⇒ ∇f (xk+1 ) · ∇f (xi ) = 0,
0 ≤ i ≤ k.
Les gradients {∇f (xℓ ) : 0 ≤ ℓ ≤ k + 1}, sont donc orthogonaux deux à deux et pas
seulement d’une étape à l’autre comme dans la méthode des pas optimaux. Comme
l’espace Rn est de dimension n, l’algorithme converge en au plus n itérations. Si
l’on va jusqu’à la n-ème itération, xn est le minimum et ∇f (xn ) = 0.
Pour bien comprendre la méthode du gradient conjugué et en préciser les
détails, on se restreint au cas d’une fonction numérique quadratique de la forme
déf
q(x) =
1
Ax · x + b · x,
2
où A est une matrice n × n symétrique définie positive et b est un vecteur de Rn .
On montre d’abord que les directions sucessives sont conjuguées par rapport à la
matrice A et l’on calcule la longueur des pas. À l’étape ℓ, on détermine donc ℓ + 1
scalaires tel que
déf
xℓ+1 − xℓ = ∆ℓ =
ℓ
X
i=0
δiℓ ∇q(xi ),
0 ≤ ℓ ≤ k.
(3.13)
Comme q est quadratique, on observe que
∇q(x + y) = A(x + y) + b = ∇q(x) + Ay.
En utilisant cette identité, il vient
∇q(xℓ+1 ) = ∇q(xℓ ) + A∆ℓ ,
2
0 ≤ ℓ ≤ k,
⇒ 0 = ∇q(xℓ+1 ) · ∇q(xℓ ) = k∇q(xℓ )k + A∆ℓ · ∇q(xℓ ),
0 ≤ ℓ ≤ k.
1. Lin {vi : 0 ≤ i ≤ ℓ} est le plus grand sous-espace vectoriel engendré par la famille {vi :
0 ≤ i ≤ ℓ} ou, de façon équivalente, l’ensemble de toutes les combinaisons linaires finies de vecteurs
de la famille. En anglais, span {vi : 0 ≤ i ≤ ℓ}.
3. Directions conjuguées et gradient conjugué
317
Comme on suppose que ∇q(xℓ ) 6= 0, il vient
A∆ℓ · ∇q(xℓ ) 6= 0
⇒ ∆ℓ 6= 0,
0 ≤ ℓ ≤ k.
Pour k ≥ 1 et 0 ≤ i < ℓ ≤ k,
0 = ∇q(xℓ+1 ) · ∇q(xi ) = ∇q(xℓ ) · ∇q(xi ) + A∆ℓ · ∇q(xi )
⇒ 0 = A∆ℓ · ∇q(xi ),
De là pour 0 ≤ m < ℓ ≤ k
A∆m · ∆ℓ =
m
X
i=0
0 ≤ i < ℓ ≤ k.
(3.14)
(3.15)
δim A∇q(xi ) · ∆ℓ = 0
puisque i ≤ m < ℓ ≤ k. Les vecteurs {∆ℓ } sont donc des directions conjuguées par
rapport à A (définie positive) car
A∆ℓ · ∆ℓ > 0,
0 ≤ ℓ ≤ k,
A∆m · ∆ℓ = 0,
0 ≤ m < ℓ ≤ k.
Par le Lemme 3.1, elles sont linéairement indépendantes. Comme les ∆ℓ sont des
combinaisons linéaires des gradients {∇q(xℓ ) : 0 ≤ ℓ ≤ k}, ces vecteurs sont aussi
linéairement indépendants.
Les vecteurs de {∇q(xℓ ) : 0 ≤ ℓ ≤ k} et de {∆ℓ : 0 ≤ ℓ ≤ k} sont donc
linéairement indépendants. De plus, par la définition (3.13) des ∆ℓ

 0
δ0 δ01 . . . δ0k
 0 δ11 . . . δ1k 


[∆0 ∆1 . . . ∆k ] = [∇q(x0 ) ∇q(x1 ) . . . ∇q(xk )]  . .
. . . . . ... 

 ..
k
0
0 . . . δk
et nécessairement δℓℓ 6= 0, 0 ≤ ℓ ≤ k car la transformation est nécessairement
bijective. Donc pour tout ℓ, 0 ≤ ℓ ≤ k,
xℓ+1 − xℓ = ∆ℓ =
ℓ
X
i=0
δiℓ ∇q(xi )
=
−δℓℓ sℓ ,
ℓ−1 X
δiℓ
− ℓ ∇q(xi ).
sℓ = −∇q(xℓ ) +
δℓ
i=0
déf
On est donc amené à prendre les directions de la forme
sℓ = −∇q(xℓ ) +
ℓ−1
X
i=0
λℓi ∇q(xi ),
0 ≤ ℓ ≤ k,
où λℓi = −δiℓ /δℓℓ .
(3.16)
On calcule maintenant xk+1 en supposant connus les λki , 0 ≤ i ≤ k − 1. Par
définition de ∆k et les résultats précédents,
(k−1
)
X δk
i
k
xk+1 − xk = ∆k = δk
∇q(xi ) + ∇q(xk ) = −δkk sk ⇒ ∆k = −δkk sk .
k
δ
i=0 k
318
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
Comme les vecteurs ∆k , les directions sk sont donc conjuguées par rapport à la
matrice A. On a alors k équations
0 = Ask · ∆ℓ = sk · A∆ℓ ,
0≤ℓ≤k−1
en k inconnues λki , 0 ≤ i ≤ k − 1. Comme
k−1
X
∇q(xℓ+1 ) − ∇q(xℓ ) = A(xℓ+1 − xℓ ) = A∆ℓ et − sk = ∇q(xk ) −
on obtient
"
∇q(xk ) −
#
k−1
X
λki ∇q(xi )
i=0
· [∇q(xℓ+1 ) − ∇q(xℓ )] = 0,
i=0
λki ∇q(xi )
0 ≤ ℓ ≤ k − 1.
Comme les gradients sont orthogonaux deux à deux, on obtient pour ℓ = k − 1
#
"
k−1
X
k
λi ∇q(xi ) · [∇q(xk ) − ∇q(xk−1 )] = 0
∇q(xk ) −
i=0
2
2
⇒ k∇q(xk )k + λkk−1 k∇q(xk−1 )k = 0
et si k ≥ 2 pour 0 ≤ ℓ ≤ k − 2
#
"
k−1
X
k
λi ∇q(xi ) · [∇q(xℓ+1 ) − ∇q(xℓ )] = 0
∇q(xk ) −
⇒
i=0
2
k
−λℓ+1 k∇q(xℓ+1 )k
2
+ λkℓ k∇q(xℓ )k = 0.
On en déduit la formule
λkℓ = −
k∇q(xk )k
k∇q(xℓ )k
2
2
,
0≤ℓ≤k−1
et en substituant dans l’expression (3.16) pour sk
−sk = ∇q(xk ) −
= ∇q(xk ) +
= ∇q(xk ) +
k−1
X
i=0
k−1
X
i=0
λki ∇q(xi )
k∇q(xk )k
k∇q(xi )k
k∇q(xk )k
2
2
k∇q(xk−1 )k
2
2
∇q(xi )
(
∇q(xk−1 ) +
⇒ sk = −∇q(xk ) +
k−2
X
i=0
2
k∇q(xk )k
2
k∇q(xk−1 )k
2
k∇q(xk−1 )k
k∇q(xi )k
sk−1 .
2
)
∇q(xi )
3. Directions conjuguées et gradient conjugué
319
On obtient donc les directions sucessives par un procédé remarquablement simple
s0 = −∇q(x0 )
sℓ = −∇q(xℓ ) +
k∇q(xℓ )k
2
2
k∇q(xℓ−1 )k
sℓ−1 ,
1 ≤ ℓ ≤ k.
Il ne reste plus qu’à relier ces directions conjuguées à la minimisation par
rapport à ρ à chaque étape de l’algorithme. Comme R sk = {α sk : α ∈ R} ⊂ Gk
q(xk − δkk sk ) ≥ inf q(xk + ρsk ) ≥ inf q(xk + y) = q(xk − δkk sk )
y∈Gk
ρ∈R
⇒ q(xk −
δkk sk )
= inf q(xk + ρsk )
ρ∈R
Par unicité, on conclut que le ρk minimisant de l’algorithme vérifie ρk = −δkk pour
les directions sk prescrites.
Pour compléter, il est aussi possible dans le cas quadratique de déterminer
explicitement les ρk solution des problèmes de minimisation unidimensionels :
q(xk + ρk sk ) = inf q(xk + ρ sk ).
ρ∈R
On peut facilement vérifier que
1
A(xk + ρsk ) · (xk + ρsk ) + b · (xk + ρsk )
2
1
ρ2
= A sk · sk + ρ [Axk + b] · sk + Axk · xk + b · xk
2
2
ρ2
= A sk · sk + ρ ∇q(xk ) · sk + q(xk ).
2
q(xk + ρ sk ) =
Comme A est définie positive, en dérivant par rapport à ρ, le point minimisant est
donné par
ρk = −
∇q(xk ) · sk
.
A sk · sk
On en arrive donc à la définition de l’algorithme de la méthode du gradient
conjugué. À l’étape 0, on choisit un point arbitraire x0 . Si ∇q(x0 ) = 0, on arrête.
Sinon, on procède comme suit
s0 = −∇q(x0 ),
ρ0 = −
∇q(x0 ) · s0
,
A s0 · s0
x1 = x0 + ρ0 s0 .
À l’étape 1, si ∇q(x1 ) = 0, on arrête. Sinon, on procède comme suit
s1 = −∇q(x1 ) +
k∇q(x1 )k
k∇q(x0 )k
2
2
s0 ,
ρ1 = −
∇q(x1 ) · s1
,
A s1 · s1
x2 = x1 + ρ1 s1 .
320
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
À l’étape k, si ∇q(xk ) = 0 on arrête. Sinon, on procède comme suit
sk = −∇q(xk ) +
k∇q(xk )k
2
k∇q(xk−1 )k
2
sk−1 ,
ρk = −
∇q(xk ) · sk
,
A sk · sk
xk+1 = xk + ρk sk .
On rappelle que pour une fonction q quadratique, la méthode converge en au
plus n pas dans Rn . Pour une fonction f qui n’est pas quadratique, l’algorithme est
le même, mais les ρk sont déterminés par la recherche unidimensionnelle suivante
f (xk + ρk sk ) = inf f (xk + ρ sk ).
ρ∈R
Cette méthode de R. Fletcher et C. M. Reeves [1] a été initialement
conçue comme une méthode de résolution de système linéaire, donc de minimisation
d’une fonction quadratique. Afin de l’adapter à des fonctions non nécessairement
quadratiques, on note que l’orthogonalité des gradients ∇f (xk ) successivement rencontrés permet d’écrire
sk = −∇q(xk ) +
= −∇q(xk ) +
k∇q(xk )k
2
2 sk−1
k∇q(xk−1 )k
∇q(xk ) · (∇q(xk ) − ∇q(xk−1 ))
2
k∇q(xk−1 )k
sk−1 .
La méthode du gradient conjugué de ? [??] pour les fonctions f quelconques
est définie comme suit. À l’étape 0, on choisit un point arbitraire x0 . Si ∇f (x0 ) = 0,
on arrête. Sinon, on procède comme suit
s0 = −∇f (x0 ),
f (x0 + ρ0 s0 ) = inf f (x0 + ρ s0 ),
ρ∈R
x1 = x0 + ρ0 s0 ,
À l’étape 1, si ∇f (x1 ) = 0, on arrête. Sinon, on procède comme suit
∇f (x1 ) · (∇f (x1 ) − ∇f (x0 ))
s0 ,
2
k∇f (x0 )k
f (x1 + ρ1 s1 ) = inf f (x1 + ρ s1 ), x2 = x1 + ρ1 s1 ,
s1 = −∇f (x1 ) +
ρ∈R
À l’étape k, si ∇f (xk ) = 0 on arrête. Sinon on procède comme suit
∇f (xk ) · (∇f (xk ) − ∇f (xk−1 ))
sk−1 ,
k∇f (xk−1 )k2
f (xk + ρk sk ) = inf f (xk + ρ sk ), xk+1 = xk + ρk sk .
sk = −∇f (xk ) +
ρ∈R
Dans la pratique la méthode de Polak-Ribière s’avère plus efficace que celle de
Fletcher-Reeves. Lorsque la fonctionelle f n’est pas quadratique, les gradients ∇f (xk )
obtenus par la méthode de Polak-Ribière ne sont plus nécessairement deux à deux
orthogonaux, et l’algorithme ne se termine pas nécessairement en un nombre fini
d’itérations.
4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell
4
321
Dérivées d’ordre deux : méthodes de Newton et de
Fletcher-Powell
On a vu que l’introduction de directions conjuguées peut considérablement
améliorer la convergence par rapport à la méthode de “steepest descent” ou celle
des gradients optimaux. Pour une fonction quadratique les gradients sont conjugués
par rapport à la matrice hessienne A. On utilise donc implicitement les dérivées
secondes pour construire ces directions même si l’algorithme ne fait qu’appel au
gradient. La matrice A contient l’information sur l’excentricité des ensembles de
niveau ce qui permet aux directions A-conjuguées d’éviter les comportements en
zig-zag (cf. Figures 6.4 et 6.6 pour la fonction de Rosenbrock de l’Exemple 2.3 au
Chapitre 4).
4.1
Méthode du type Newton
Considérons une approximation quadratique d’une fonction f de classe C (2)
autour du point xk
1
gk (x) = f (xk ) + ∇f (xk ) · (x − xk ) + Hf (xk )(x − xk ) · (x − xk ).
2
Un point minimisant xk+1 de gk est caractérisé par
∇gk (xk+1 ) = 0,
Hgk (xk+1 ) ≥ 0.
En explicitant, il vient
∇f (xk ) + Hf (xk )(xk+1 − xk ) = 0 et Hf (xk ) ≥ 0.
Si l’on suppose que la matrice hessienne est définie positive, alors elle est inversible
(cf. Lemme 5.1 du Chapitre 2) et le point minimisant est unique et donné par
xk+1 = xk − Hf (xk )−1 ∇f (xk ).
(4.1)
Donc, si f est de classe C (2) autour d’un point x∗ qui minimise localement f et
si Hf est définie positive au voisinage de x∗ , on peut définir une suite de points
{xk }. Ceci est la généralisation au cas vectoriel de la méthode de Newton appliquée
à l’équation
0 = ∇gk (x) = ∇f (xk ) + Hf (xk )(x − xk ).
On rappelle que, pour une fonction h : R → R, la méthode de Newton résout
h(x) = 0
en construisant une suite {xk } définie par
xk+1 = xk − h(xk ) / h′ (xk ).
Si f est quadratique
f (x) =
1
Ax · x + b · x + c
2
322
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
et si A est symétrique définie positive, alors la méthode de Newton converge en un
pas. En effet,
∇f (x) = Ax + b,
−1
⇒ xk+1 = xk − Hf (xk )
Hf (x) = A,
∇f (xk ) = xk − A−1 (Axk + b) = −A−1 b.
Cependant, pour une fonction f arbitraire, si l’on part d’un point éloigné de la
solution, la méthode de Newton peut ne pas converger. Il faut donc la modifier.
4.2
Adaptation de la méthode de Newton
La première modification consiste à introduire un paramètre ρ > 0 et à définir
xk+1 = xk − ρk Hf (xk )−1 ∇f (xk )
de telle façon que ρk minimise
gk (ρ) = f (xk − ρ Hf (xk )−1 ∇f (xk )).
Ce qui garantit que f (xk+1 ) ≤ f (xk ) et ρk ≥ 0. Près du point minimum x∗ de f ,
on s’attend à ce que ρk = 1 par (4.1).
La seconde modification consiste à remplacer Hf (xk )−1 par une matrice Mk
définie positive
xk+1 = xk − ρMk ∇f (xk ), ρ > 0.
(4.2)
Pour ρ > 0 petit, xk+1 est près de xk et l’on a par la formule de Taylor
f (xk+1 ) = f (xk ) + ∇f (xk ) · (xk+1 − xk ) + o(kxk+1 − xk k2 )
lorsque k → ∞. En substituant xk+1 du côté droit, il vient
f (xk+1 ) = f (xk ) − ρ∇f (xk ) · Mk ∇f (xk ) + o(ρ2 ).
On voit donc que si Mk est définie positive, il y aura décroissance. Dans (4.2), si
Mk = I (matrice identité) et ρ minimise gk (ρ) = f (xk − ρ∇f (xk )), on retrouve la
méthode des gradients optimaux du paragraphe 2.2, mais cette méthode ne converge
que linéairement. Si dans (4.2) Mk = Hf (xk )−1 et ρ = 1, on a la méthode de
Newton qui converge rapidement au voisinage du point minimum mais qui peut ne
pas converger en certains points. L’idée est de combiner deux méthodes de ce type
pour assurer un bon fonctionnement global.
4.3
Méthode de Fletcher et Powell
La méthode de R. Fletcher et M. J. D. Powell [1] en 1963 est probablement la méthode la plus puissante qui ait été développée à l’époque pour la
recherche d’un minimum local d’une fonction numérique. Elle est construite de façon
que lorsqu’elle est appliquée à une fonction numérique quadratique, elle minimise
4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell
323
en n itérations. Elle accomplit ceci en créant des directions conjuguées. L’aspect
original de la méthode repose sur une matrice Hi symétrique définie positive qui
change à chaque itération et qui donne la direction de déplacement si à létape i en
multipliant Hi par le gradient de f en xi .
On procède comme suit. À l’étape 0, on prend
x0 ∈ Rn arbitraire
H0 = une matrice symétrique définie positive.
À l’étape i, on construit la direction
si = −Hi ∇f (xi )
et on calcule un scalaire α = αi qui minimise g(α) = f (xi + αsi ). On pose


σi = αi si
xi+1 = xi + σi


Hi+1 = Hi + Ai + Bi
où les matrices Ai et Bi sont données par

σi ⊗ σi

 Ai =
, yi = ∇f (xi+1 ) − ∇f (xi )

σi · yi
H y ⊗ (Hi yi )


 Bi = − i i
y i · Hi y i
(4.3)
(4.4)
et x ⊗ y est le produit tensoriel : pour deux vecteurs x et y dans Rn ,


x1 y1 . . . . . . x1 yn


..
.
x2 yn 
x2 y1
déf 
déf


x⊗y =  .
..  ou (x ⊗ y)ij = xi yj
..
 ..

.
.
xn y1 . . . . . . xn yn
est une matrice n × n.
Fletcher et Powell démontrent ce qui suit :
1) La matrice Hi est définie positive pour tout i. Donc la méthode converge en
général puisque
d
(4.5)
f (xi + αsi )
= −∇f (xi ) · Hi ∇f (xi ) < 0,
| {z }
dα
α=0
si
c.-à-d., la fonction f est initialement décroissante dans la direction si de façon
que l’on puisse descendre à chaque itération le long de si .
324
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
minimum
f (1, 1) = 0
x2
0
17
1.00
numéro
d’itération
0.75
3
0.50
12
0.25
0
−1.0
−0.5
6
0.5
1.0 x1
Figure 6.5. Méthode de Fletcher-Powell pour la fonction de Rosenbrock.
2) Quand on applique la méthode à une fonction quadratique du type (3.1), alors
(a) les directions si (ou σi ) sont A-conjugées, menant à un minimum en n pas.
(b) la matrice Hi converge vers l’inverse de la matrice des dérivées secondes
de f , c.-à-d.
Hn = A−1 .
3) Dans le cas général, Hi tend aussi vers l’inverse de la matrice des dérivées
secondes évaluée au point minimisant.
Les expériences numériques confirment la rapidité de convergence de cette
méthode. Considérons la fonction de Rosenbrock de l’Exemple 2.3 (Figure 4.1).
f (x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2 avec minimum en x∗ = (1, 1).
(4.6)
Elle possède une vallée très étroite et profonde qui suit la parabole x2 = x21 . C’est
ce qui rend la minimisation difficile. Les Figures 6.5 et 6.6 2 montrent les chemins
2. Essais et Figures redessinées à partir de L. S. Lasdon [1, Figures 1-3 et 1-4, p. 9–10].
4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell
325
1
1.00
0
2
minimum
f (1, 1) = 0
0.75
numéro
d’tération
0.50
13
70
0.25
67
46
−1.0
−0.5
0.5
1.0
Figure 6.6. Méthode des gradients optimaux pour la fonction de Rosenbrock.
(et le nombre d’itérations) suivis par les méthodes des gradients optimaux et de
Fletcher-Powell. Le détail de cet algorithme se trouve dans D. Pearson [1].
326
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
Éléments de bibliographie
I. Adler
[1], On the Equivalence of Linear Programming Problems and Zero-Sum Games,
http ://www.optimization-online.org, June 2010.
P. Alart, O. Maisonneuve et R. T. Rockafellar
[1], Nonsmooth mechanics and analysis : Theoretical and numerical advances,
Springer-Verlag, Berlin, 2006.
J.-P. Aubin et A. Cellina
[1], Differential inclusions, Springer-Verlag, Berlin, 1984.
J.-P. Aubin et H. Frankowska
[1], Set-Valued Analysis, Birkhäuser, Boston, 1990.
M. Barbut, B. Locker, L. Mazilak et P. Priouret
[1], Cinquante ans de correspondance mathématique en 107 lettres, Paul Lévy Maurice Fréchet, Birkhäuser, Boston, 1990.
A. Bastiani
[1], Applications différentiables et variétes diflérentiables de dimension infinie, J.
Analyse Math. 13 (1964), 1–114.
L. D. Berkovitz
[1], Convexity and optimization in Rn , Pure and Applied Mathematics (New York).
Wiley-Interscience [John Wiley & Sons], New York, 2002.
G. Beveridge et R. Schechter
[1], Optimization : Theory and practice, McGraw Hill Book Co., New York, 1970.
E. Blum et W. Oettli
[1], Direct Proof of the Existence Theorem for Quadratic Programming, Operations
Research 20, No. 1 (1972), 165–167.
F. Bonnans
[1], Optimisation continue, Dunod, Paris, 2006.
F. Bonnans et A. Shapiro
[1], Perturbation analysis of optimization problems, Springer Series in Operations
Research, Springer-Verlag, New York, 2000.
É. Borel
[1], Traité du calcul des probabilités et de ses applications. Applications aux jeux de
hasard, rédigé avec la collab. de Jean Ville, Gauthier-Villars, Paris, 1938.
J. M. Borwein et A. S. Lewis
367
368
Éléments de bibliographie
[1], Convex analysis and nonlinear optimization. Theory and examples, CMS (Canadian Mathematical Society) Books in Mathematics, Volume 3, Springer-Verlag,
New York, 2000.
G. Bouligand
[1], Sur les surfaces dépourvues de points hyperlimités, Ann. Soc. Polon. Math. 9
(1930), 32–41.
[2], Introduction à la géométrie infinitésimale directe, Gauthier-Villars, Paris, 1932.
M. J. Box
[1], A comparison of several current optimization methods and the use of transformations in constrained problems, Brit. Computer Journal, 9, 1966, pp 67–68.
M. J. Box, D. Davies et W. H. Swann
[1], Techniques d’optimisation non linéaire, Entreprise moderne d’édition, Paris,
1971.
S. Boyd et L. Vandenberghe
[1], Convex optimization, Cambridge University Press, Cambridge, 2004.
P. Cannarsa et C. Sinestrari
[1], Semiconcave functions, Hamilton-Jacobi equations, and optimal control, Progress in Nonlinear Differential Equations and Their Applications, Volume 58,
Birkhäuser Boston, Boston, MA, 2004.
J. Caristi
[1], Fixed point theorems for mappings satisfying inwardness conditions, Trans.
Amer. Math. Soc. 215 (1976), 241–251.
J. Caristi et W. A. Kirk
[1], Geometric fixed point theory and inwardness conditions, dans ≪The geometry of
metric and linear spaces≫ (Proc. Conf., Michigan State Univ., East Lansing, Mich.,
1974), pp. 74–83, Lecture Notes in Math., Volume 490, Springer, Berlin, 1975.
P. G. Ciarlet
[1], Introduction à l’analyse numérique matricielle er à l’optimisation, Masson, Paris 1983.
F. H. Clarke
[1], Necessary Conditions for Nonsmooth Problems in Optimal Control and the Calculus of Variations, Ph.D. thesis, Univ. of Washington, 1973.
[2], Optimization and Nonsmooth Analysis, John Wiley and Sons, New York, Chichester, Brisbane, Toronto, Singapore, 1983.
T. Clausen
[1], Über die Form Architektonischer Säulen, dans
astronaumiques I,≫ (1849–1853), 279–284.
Mélanges mathématiques et
≪
L. Collatz et W. Wetterling
[1], Optimierungsaufgaben, Heidelberger Taschenbücher, Band 15, Springer-Verlag,
Berlin-New York 1966, Traduction anglaise par P. Wadsack. Optimization problems,
Applied Mathematical Sciences, Vol. 17, Springer-Verlag, New York-Heidelberg,
1975.
S. J. Cox
[1], The shape of the ideal column, Math. Intelligencer (1) 14 (1992), 16–24.
Éléments de bibliographie
369
[2], The generalized gradient at a multiple eigenvalue, J. Funct. Anal. (1) 133
(1995), 30–40.
S. J. Cox, B. Kawohl et P. X. Uhlig
[1], On the optimal insulation of conductors, J. Optim. Theory Appl. (2) 100 (1999),
253–263.
S. J. Cox et C. M. McCarthy
[1], The shape of the tallest column, SIAM J. Math. Anal. (3) 29 (1998), 547–554.
S. J. Cox et M. L Overton
[1], On the optimal design of columns against buckling, SIAM J. Math. Anal. (2)
23 (1992), 287–325.
G. B. Dantzig
[1], Programming in a linear structure, U. S. Air Force Comptroller, USAF, Washington, D.C., 1948.
[2], A Proof of the Equivalence of the Programming Problem and the Game Problem,
dans ≪Activity Analysis of Production and Allocation≫ , T. C. Koopmans (ed.), John
Wiley & Sons, New York, 1951.
[3], Maximization of a linear function subject to linear inequalities, dans ≪Activity
Analysis of Production and Allocation≫, T. C. Koopmans (ed.), John Wiley & Sons,
New York, 1951, pp. 339–347.
[4], Linear Programming and Extensions, Princeton University Press, Princeton,
1963.
M. C. Delfour et J.-P. Zolésio
[1], Shapes and geometries : Metrics, analysis, differential calculus and optimization, SIAM series on Advances in Design and Control, SIAM, Philadelphia, PA 2011,
second edition.
V. F. Demyanov et A. M. Rubinov
[1], Constructive Nonsmooth Analysis, Peter Lang Verlag, New York, 1995.
U. Dini
[1], Fondamenti per la teorica delle funzioni di variabili reali, T. Nistri, Pisa 1878
[Fondements de la théorie des fonctions d’une variable réelle] (traduction allemande :
Grundlagen für eine Theorie der Funktionen einer veränderlichen reellen Grösse,
Teubner, 1892).
A. Dontchev et R. T. Rockafellar
[1], Implicit functions and solution mappings. A view from variational analysis,
Springer Monographs in Mathematics, Springer, Dordrecht, 2009.
A. Ja. Dubovitskiı̌ et A. A. Miljutin
[1], Extremal problems with constraints, (Russian) Ž. Vyčisl. Mat. i Mat. Fiz. 5
(1965), 395–453.
M. Durea
[1], On the existence and stability of approximate solutions of perturbed vector equilibrium problems, Journal of Mathematical Analysis and Applications 333, no. 2
(2007), 1165–1179.
I. Ekeland
[1], On the variational principle, Journal of Mathematical Analysis and Applications 47, no. 2 (1974), 324–353.
370
Éléments de bibliographie
[2], Nonconvex minimization problems, Bulletin of the American Mathematical Society 1 (1979), 443–474.
I. Ekeland et R. Temam
[1], Analyse convexe et problèmes variationnels, Dunod Gauthier-Villars, Paris,
1974. Traduction anglaise : Convex analysis and variational problems, North–
Holland Publishing Co., Amsterdam-Oxford ; American Elsevier Publishing Co.,
New York, 1976 (Corrected reprinting, SIAM, Philadelphia, 1999).
L. Euler
[1], Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive
solutio problematis isoperimetrici latissimo sensu accepti, 1744 [Une méthode pour
trouver des lignes courbes jouissant de propriétés de maximum ou de minimum, ou
la solution de problèmes isopérimétrique dans le sens le plus large], Opera Omnia :
Series 1, Volume 24 (1952), 1–308.
J. Farkas
[1], Über die Theorie der Einfachen Ungleichungen, Journal für die Reine und Angewandte Mathematik 124 (1902), 1–27.
W. Fenchel
[1], On conjugate convex functions, Canad. J. Math. 1 (1949), 73–77.
[2], Convex cones, sets and functions, Mimeographed Lecture Notes, Princeton University, Princeton, 1951.
[3], A remark on convex sets and polarity, Medd. Lunds Univ. Mat. Sem. (Supplementband) (1952), 82–89.
[4], Über konvexe Funktionen mit vorgeschriebenen Niveaumannigfaltigkeiten,
Math. Z. 63 (1956), 496–506.
W. Fenchel et T. Bonnesen
[1], Theorie der konvexen Körper, Ergebnisse der Mathematik und ihrer Grenzgebiete—, 3. Berlin : 1. Verlag von Julius Springer, 1931.
[2], Theorie der konvexen Körper, Chelsea Publishing Co., Bronx, New York, 1971.
[3], Theorie der konvexen Körper, Springer-Verlag, Berlin, 1974.
[4], Theory of convex bodies, L. Boron, C. Christenson and B. Smith (eds.), BCS
Associates, Moscow, Idaho, 1987.
J. Ferguson
[1], A. Brief Survey of the History of the Calculus of Variations and Its Applications, University of Victoria, Canada, 2004 (arXiv :math/0402357).
P. de Fermat
[1], Methodus ad disquirendam Maximam et Minimam, Varia opera mathematica,
1679 (D’abord consigné dans une lettre à Mersenne en 1638, la première version
imprimée de la méthode se retrouve dans le cinquième volume de Supplementum
Cursus Mathematici (1642) écrit par Herigone, et ce n’est qu’en 1979 qu’elle apparaı̂t dans Varia opera mathematica.). Version électronique du manuscrit en latin :
http ://fr.wikisource.org/wiki/Œuvres de Fermat - Livre I - Maxima et Minima.
[2], De tangentibus linearum curvarum, Varia opera mathematica, 1679.
W. H. Fleming
[1], Functions of several variables, Addison–Wesley, Reading, Massachusetts, 1965.
Éléments de bibliographie
371
R. Fletcher et M. J. D. Powell
[1], A rapidly convergent descent method for minimization, Brit. Computer Journal
6, 1963, 163–168.
R. Fletcher et C. M. Reeves
[1], Function minimization by conjugate gradients, Brit. Computer Journal, 7, 1964,
pp. 149–154.
M. Fortin et Z. Mghazli
[1], Analyse d’un élément mixte pour le problème de Stokes. I. Résultats généraux,
Numer. Math. 62 (1992), 149–160.
[2], Analyse d’un élément mixte pour le problème de Stokes. II. Construction et
estimations d’erreur, Numer. Math. 62 (1992), no. 2, 161–188.
M. Frank et P. Wolfe
[1], An Algorithm for Quadratic Programming, Naval Res. Log. Quart. 3 (1956),
95–110.
M. Fréchet
[1], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t.
CLII (1911), 845–847.
[2], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t.
CLII (1911), 1050–1051.
[3], Sur la notion de différentielle totale, Nouv. Ann. Math. 12 (1912), 385–403 et
433–449.
[4], La notion de différentielle dans l’Analyse générale, Ann. c. Norm., XLII (1925),
293–323.
[5], Sur la notion de différentielle, Journal de Mathématiques Pures et Appliquées
16 (1937), 233–250.
R. Gateaux
[1], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 22-2
(1913), 646–648.
[2], Sur les fonctionnelles continues et les fonctionnelles analytiques, Comptes rendus de l’académie des sciences (Paris) 157 (1913), 325–327.
[3], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 23-1
(1914), 310–315.
[4], Sur les fonctionnelles d’ordre entier d’approximation, Rend. Acc. Linc., 23-1
(1914), 405–408.
[5], Représentation d’une fonctionnelle continue, satisfaisant à la condition du cycle
fermé, Rend. Acc. Linc., 23-1 (1914), 481–486.
[6], Sur la notion d’intégrale dans le domaine fonctionnel et sur la théorie du potentiel, Bulletin de la Société Mathématique de France 47 (1919), 47–67 (suivi d’une
note de P. Lévy 67–70).
[7], Fonctions d’une infinité de variables indépendantes, Bulletin de la Société
Mathématique de France 47 (1919), 70–96.
[8], Sur diverses questions du calcul fonctionnel, Bulletin de la Société
Mathématique de France 50 (1922), 1–37.
I. V. Girsanov
372
Éléments de bibliographie
[1], Lectures on mathematical theory of extremum problems, Springer-Verlag, New
York, 1974.
J. Hadamard
[1], Leçons sur le calcul des variations, vol. I, Hermann, Paris, 1910.
[2], La notion de différentielle dans l’enseignement, Scripta Univ. Ab. Bib., Hierosolymitanarum, Jerusalem, 1923. Réimprimé dans la ≪Mathematical Gazette≫ 19,
no. 236 (1935), 341–342.
G. Hadley
[1], Nonlinear and dynamic programming, Addison–Wesley Publishing Co., Reading, Massachusetts, 1964.
M. R. Hestenes
[1], Optimization theory, the finite dimensional case, J. Wiley-Interscience, New
York, 1975.
M. R. Hestenes et E. Stiefel
[1], Methods of conjugate gradients for solving linear systems, J. Res. Natl. Bur.
Stand. 49 (1952), 409–436.
M. Intriligator
[1], Mathematical optimization and economic theory, Prentice–Hall, Englewood
Cliffs, NJ, 1971.
A. D. Ioffe
[1], Metric regularity and subdifferential calculus, (Russian) Uspekhi Mat. Nauk 55
(2000), no. 3 (333), 103–162 ; traduction anglaise dans Russian Math. Surveys 55
(2000), no. 3, 501–558.
A. D. Ioffe et V. M. Tikhomirov
[1], Théorie des problèmes extrémaux, Édition Nauka, Moscou, 1974. Traduit de
l’édition en russe, Series in Nonlinear Analysis and Its Applications, Izdat. Nauka,
Moscow, 1974.
G .G. Joseph
[1], The Crest of the Peacock, Princeton University Press, Princeton, NJ, 2000, pp.
298–300.
L .V. Kantorovich
[1], Mathematical Methods of Organizing and Planning Production, Leningrad State
University Press, Leningrad, Russia, 1939.
[2], A new method of solving some classes of extremal problems, Doklady Akad Sci
USSR 28 (1940), 211–214.
W. Karush
[1], Minima of functions of several variables with inequalities as side conditions,
Master’s thesis, University of Chicago, 1939.
J. Kowalik et M. Osborne
[1], Methods for unconstrained optimization problems, American Elsevier Publishing
Co., New York, 1968.
H. W. Kuhn et A. W. Tucker
[1], Nonlinear programming, dans ≪Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability≫, J. Neyman, ed., University of
California Press, Berkeley, CA, 1951, pp. 481–492.
Éléments de bibliographie
373
[2], John von Neumann’s work in the theory of games and mathematical economics,
Bull. Amer. Math. Soc. 64, Number 3, Part 2 (1958), 100–122.
J. L. Lagrange
[1], Sur la figure des colonnes, dans ≪Miscellanea Taurinensia V,≫ 123, 1770–1773.
[2], Mécanique analytique, Courcier, Paris, 1788. (reissued by Cambridge University
Press, 2009 ; ISBN 9781108001748)
L. S. Lasdon
[1], Optimization theory for large systems, Collier-Macmillan, Toronto, 1970.
S. R. Lay
[1], Convex sets and their applications, J. Wiley & Sons, New York, 1982 (book
dedicated to F. A. Valentine).
A.-M. Legendre
[1], Sur la manière de distinguer les Maxima des Minima dans le Calcul des Variations, dans ≪Histoire de l’Académie Royale des Sciences≫, Année 1786, Mémoires
de Mathématiques et de Physique, Paris, 1786, pp. 7–37.
G. W. Leibniz
[1], Nova methodus pro maximis et minimis, itemque tangentibus, quae nec fractas
nec irrationales quantitates moratur, et singulare pro illis calculi genus, Acta Eruditorum, 1684 [Nouvelle méthode pour les maxima et minima, ainsi que les tangentes,
qui ne bute ni sur les fractions ni sur les irrationnelles, avec un mode original de
calcul].
B. Lemaire
[1], Problèmes min-max et applications au contrôle optimal de systèmes gouvernés
par des équations aux dérivées partielles linéaires, Thèse de doctorat d’état, Université de Montpellier, Montpellier, France, 1970.
D. G. Luenberger
[1], Introduction to linear and nonlinear programming Addison–Wesley, Reading,
Mass., Don Mills, Ont., 1973 ; Linear and nonlinear programming, 2nd ed. Addison–
Wesley, Reading, Mass., Don Mills, Ont., 1984.
[2], Optimization by vector space methods Wiley, New York, 1969.
O. Mangasarian
[1], Nonlinear programming, McGraw–Hill Book Co., New York, 1969.
L. Mazilak
[1], The ghosts of the Ecole Normale. Life, death and destiny of René Gateaux,
submitted to Historia Mathematica (Les fantômes de l’École Normale. Vie, mort et
destin de René Gateaux, Université Pierre et Marie Curie Paris, France, 2007).
[2], Communication privée.
L. Mazilak et R. Tazzioli
[1], Mathematicians at war. Volterra and his French colleagues in World War I,
Archimedes : New Studies in the History and Philosophy of Science and Technology,
22. Springer, New York, 2009.
A. D. Michal
[1], Differential calculus in linear topological spaces, PYOC. Nat. Acad. Sci. U.S.A.
24 (1938), 340–342.
374
Éléments de bibliographie
A. A. Miljutin
[1], General schemes for obtaining necessary conditions for an extremum, and problems of optimal control, (en russe) Uspehi Mat. Nauk 25, no. 5 (155) (1970), 110–
116.
B. S. Mordukhovich
[1], Variational analysis and generalized differentiation. I. Basic theory, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Volume 330, Springer-Verlag, Berlin, 2006.
[2], Variational analysis and generalized differentiation. II. Applications, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Volume 331, Springer-Verlag, Berlin, 2006.
M. Nagumo
[1], Über die Loge der Integralkurven gewöhnlicher Differentialgleichungen, (en allemand) Proc. Phys. Math. Soc. Japan 24 (1942), 551–559.
J. F. Nash
[1], Non-Cooperative Games, The Annals of Mathematics 54, no. 2 (1951), 286–295.
I. Newton
[1], Method of fluxions and infinite series, Heney Woodfall, London, 1736 (rédigé
en 1671).
[2], Philosophiae Naturalis Principia Mathematica, 1687 et 1726 (troisième édition).
Traduction française par Émilie du Châtelet : Principes mathématiques de philosophie naturelle, Paris, 1756. Definitiones (Définitions), p. 1–11 ; Axiomata sive leges
motus (Des lois ou axiomes du mouvement), p. 12–25) ; De motu corporum : liber
primus (Sur le mouvement des corps : livre premier), p. 26–235 ; De motu corporum :
liber secundus (Sur le mouvement des corps : livre second), p. 236–400 ; De mundi
systemate : liber tertius (Sur le système du monde : livre troisième), p. 401–510.
J. M. Ortega et W. C. Rheinboldt
[1], Iterative solution of nonlinear equations in several variables, Classics in Applied
Mathematics, Volume 30, SIAM, Philadelphia, 2000.
D. Pearson
[1], Variable metric methods of minimisation, Brit. Computer Journal 12, 1969, pp.
171–178.
J.-P. Penot
[1], Calcul sous-différentiel et optimisation, Journal of Functional Analysis 27
(1978), 248–276.
J. Pierpont
[1], The theory of functions of real variables, Vol. I, Ginn and Company, Boston,
New York, Chicago, London, Atlanta, Dallas, Columbus, San Francisco, 1905.
[2], The theory of functions of real variables, Vol. II, Ginn and Company, Boston,
New York, Chicago, London, 1912.
J. A. Plateau
[1], Statique expérimentale et théorique des liquides soumis aux seules forces
moléculaires, Gauthier-Villars, Paris, 1873.
E. Polak
[1], Computational methods in optimization, Academic Press, New York, 1972.
Éléments de bibliographie
375
[2], Optimization : Algorithms and consistent approximations, Applied Mathematical Sciences, Springer, New York,1997.
B T. Polyak
[1], Introduction to optimization, Optimization Software, Inc., Publications Division, New York, 1987.
R. T. Rockafellar
[1], Convex analysis, Princeton University Press, Princeton, NJ, 1972.
R. T. Rockafellar et R. J.-B. Wets
[1], Variational analysis, Fundamental Principles of Mathematical Sciences, Volume
317, Springer, Berlin, 1998.
H. H. Rosenbrock
[1], An automatic method for finding the greatest or least value of a function, Brit.
Computer Journal 3 (1960), 175–184.
W. Rudin
[1], Principes d’analyse mathématique, Édiscience, Paris 1995 [traduction de l’anglais, Principles of mathematical analysis, McGraw–Hill, New York, 1964.
D. L. Russell
[1], Optimization theory, W.A. Benjamin, New York, 1970.
L. Schwartz
[1], Cours d’analyse, Hermann, Paris, 1967.
F. Severi
[1], Su alcune questioni di topologia infinitesimale, Ann. Polon. Soc. Math. 9 (1930),
97–108.
J. Stoer et C. Witzgall
[1], Convexity and optimization in finite dimensions, Volume 1, Springer-Verlag,
New York, 1970.
O. Stolz
[1], Grundzüge der Differential und Integralrechnung, I, B. G. Teubner, Leipzig,
1893 (The Cornell University Library Collections).
W. Takahashi
[1], Existence theorems generalizing fixed point theorems for multivalued mappings,
dans ≪Fixed Point Theory and Applications ≫ (Marseille, 1989), M. Thra and J.
Baillon, eds., pp. 397–406, Pitman Res. Notes Math. Ser., Volume 252, Longman
Sci. Tech., Harlow, 1991.
V. M. Tihomirov
[1], Elements of the theory of extrema, Econometric Institute, Erasmus University
Rotterdam, 1997.
H. Tuy
[1], Convex analysis and global optimization, Kluwer Academic Publishers, Dordrecht, 1998.
F. A. Valentine
[1], Convex sets, McGraw–Hill, New York, 1964.
B. van Brunt
376
Éléments de bibliographie
[1], The Calculus of Variations, Springer-Verlag, New York, 2004.
J. von Neumann
[1], Zur Theorie der Gesellschaftsspiele. Mathematische Annalen 100 (1) (1928),
295–320. Trad. : ≪On the Theory of Games of Strategy,≫ dans ≪Contributions to
the Theory of Games,≫ v. 4, A. W. Tucker and R. D. Luce, eds. (1959), pp. 13–42.
J. von Neumann et O. Morgenstern
[1], Theory of Games and Economic Behavior, Princeton University Press, Princeton, 1944.
K. Weierstrass
[1], Mathematische Werke. Rester Band. Abhandlungen I. Mayer & Müller, Berlin
1894 ; Zweiter Band. Abhandlungen II. Mayer & Müller, Berlin 1895 ; Dritter Band.
Abhandlungen III. Mayer & Müller, Berlin 1903.
[2], Mathematische Werke. Vierter Band. Vorlesungen über die Theorie der Abelschen Transcendenten. Mayer & Müller, Berlin 1902.
[3], Mathematische Werke. Siebenter Band. Vorlesungen über Variationsrechnung.
Akademische Verlagsgesellschaft M. B. H., Leipzig, 1927.
J. D. Weston
[1], A characterization of metric completeness, Proc. Amer. Math. Soc. 64 (1977),
no. 1, 186–188.
H. Whitney
[1], A function that is not constant on a connected set of critical points, Duke Math.
J. 1, no. 4 (1935), 514–517.
W. H. Young
[1], On differentials, Proc. London Mathematical Society, series 2, 7 (1909), 157.
[2], The fundamental theorems of Differential Calculus, University Press, Cambridge, 1910.
W. Zangwill
[1], Nonlinear Programming–A Unified Approach, Prentice–Hall, Englewood Cliffs,
NJ, 1969.
J.-P. Zolésio
[1], Identification de domaines par déformation, Thèse de doctorat d’état, Université de Nice, France, 1979.
[2], Semiderivatives of repeated eigenvalues, dans ≪Optimization of Distributed Parameter Structures,≫ Vol. II (Iowa City, IA, 1980), E. J. Haug and J. Céa, eds.,
1457–1473, NATO Adv. Sci. Inst. Ser. E : Appl. Sci., 50, Sijhofff and Nordhoff,
Alphen aan den Rijn, 1981 (Nijhoff, The Hague).

Documents pareils