Numérique pour l`optimisation différentiable sans contraintes

Transcription

Chapitre 6
10
10
8
10
6
10
4
10
2
0
10
0.2
0.4
0
10
1
1
0.8
0.6
0.6
0.4
0.2
0
! 0.2
0.8
! 0.4
! 0.6
! 0.8
!1
1
Numérique pour
l’optimisation
différentiable sans
contraintes
Introduction
Afin de donner un aperçu plus large de l’optimisation, on présente une initiation rapide aux méthodes numériques de base pour l’optimisation différentiable
sans contraintes. Le paragraphe 2 expose quelques méthodes numériques faisant
appel aux dérivées du premier orde (méthodes de descente, “steepest descent”,
pas ajustés). Au paragraphe 3, on aborde la méthode des directions conjuguées
qui donne les algorithmes du gradient conjugué, de Fletcher-Reeves, et de PolakRibière. Enfin, le paragraphe 4 traite des méthodes du type Newton qui font en
principe appel aux dérivées du deuxième ordre. On peut cependant arriver aux
mêmes résultats en optant pour des méthode de type quasi-Newton comme celle
de Fletcher-Powell ne faisant appel qu’aux dérivées premières tout en construisant
une approximation de l’inverse de la matrice hessienne. Les paragraphes 2 à 4 sont
tirés du livre de L. S. Lasdon [1] et la démonstration de la méthode du gradient
conjugué de P. G. Ciarlet [1].
2
Dérivées d’ordre un : méthodes de descente
On a vu que les conditions nécessaires pour l’existence minimum local d’une
fonction f : Rn → R de classe C (2) en un point x∗ sont
∂f ∗
(x ) = 0, 1 ≤ i ≤ n,
(2.1)
∇f (x∗ ) = 0 ou
∂xi


∂2f ∗
∂2f
∗
(x
)
.
.
.
(x
)

 ∂x2
∂xn ∂x1
1




.
.
∗
.
..
..
..
(2.2)
Hf (x ) = 
 ≥ 0.


2
2
 ∂ f
∂ f ∗ 
(x∗ ) . . .
(x )
∂x1 ∂xn
∂x2n
Pour trouver le minimum de f , il faut résoudre l’équation (2.1) qui est un système
de n équations non-linéaires en n inconnues. C’est souvent très difficile pour un
307
308
Chapitre 6. Numérique pour l’optimisation différentiable sans contraintes
“gros système” comme celui de l’Exemple 2.4 du Chapitre 4. De plus, il faut vérifier
la condition de positivité (2.2). On s’oriente alors naturellement vers des méthodes
x2
courbe de niveau
{x : f (x) = f (x0 )}
x0
∇f (x0 )
x1
Figure 6.1. Gradient et courbes de niveau.
itératives qui font appel au gradient ∇f (x) qui “pointe” dans la direction où le
taux d’accroissement de f est maximum (−∇f (x) est la direction de la plus grande
descente). Le vecteur ∇f (x0 ) est normal à l’ensemble de niveau de la function f
passant par x0 .
2.1
Méthode de la plus forte pente (steepest descent
Cette méthode de recherche d’un minimum consiste à partir d’un point initial
x0 et à calculer ∇f (x0 ). Puis on fait un pas de longueur α0 dans la direction de plus
grande descente, −∇f (x0 ), pour obtenir un nouveau point x1 . On répète ensuite
jusqu’à ce qu’une condition d’arrêt soit vérifiée (voir Figure 6.2). En résumé
x0 point initial
déf
à l’étape i ≥ 0,
xi+1 = xi − αi ∇f (xi )
pour αi > 0 tel que f (xi+1 ) < f (xi ).
(2.3)
La méthode converge sous des hypothèses très faibles (cf. ? [??]) vers au moins un
minimum local de f (x).
2. Dérivées d’ordre un : méthodes de descente
309
∇f (x0 )
∇f (x2 )
x0
x2
x1
∇f (x1 )
Figure 6.2. Méthode de “steepest descent”.
2.2
Méthode du gradient à pas ajustés ou optimaux (optimum
gradients)
Une façon systèmatique de choisir la longueur du pas dans (2.3) à l’étape i
consiste à prendre αi tel que
f (xi − αi ∇f (xi )) = inf f (xi − α∇f (xi ))
α
ou, de façon équivalente, à minimiser la fonction
inf gi (α),
α≥0
déf
gi (α) = f (xi − α∇f (xi )) .
(2.4)
si le point minimisant est αi = 0, alors f (xi ) est un minimum local de f . Sinon,
il existe αi > 0 tel que la condition (2.3) soit vérifée puisque l’on cherche localement la plus petite valeur de gi (α) = f (xi − α∇f (xi )). La conditionnécessaire pour
l’existence d’un point minimisant est celle de dérivée de gi (α) égale à zéro
dgi
(α) = −∇f (xi − α∇f (xi )) · ∇f (xi )
dα
⇒ 0 = ∇f (xi − αi ∇f (xi )) · ∇f (xi ) = ∇f (xi+1 ) · ∇f (xi ).
Cette adaptation de la “steepest descent” est appelée méthode d’“optimum
gradients” (cf. ? [??]). En résumé,
à l’étape i ≥ 0,
x0 point initial
on prend si déf
= −∇f (xi ) et on choisit αi tel que
g (α ) = inf g (α), g (α) déf
= f (xi + α si )
i
i
i i
α≥0
déf
on prend x
= x +α s .
i+1
i
i i
310
Géométriquement parlant, αi est choisi en minimisant f (x) dans la direction si à
partir du point xi . En un minimum local on a néssairement
dgi 0=
= ∇f (xi + αi si ) · si = −∇f (xi + αi si ) · ∇f (xi ) = ∇f (xi+1 ) · si .
dα α=αi
Le vecteur si est donc tangent à la courbe de niveau pour α = αi (c’est-à-dire au
point xi+1 ). Le gradient ∇f (xi+1 ) est normal à cette même courbe de niveau. Les
pas successifs sont donc orthogonaux.
x2
x0
x1
Figure 6.3. Méthode du gradient à pas ajustés ou optimaux.
Exemple 2.1.
On reprend la fonction f (x1 , x2 ) = x21 + x22 . Alors
∇f (x1 , x2 ) = 2(x1 , x2 )
déf
et en posant pour α ∈ R g(α) = f (x − α∇f (x)), l’élément minimisant α∗ de
inf α g(α) vérifie la condition
0 = g ′ (α∗ ) = = −∇f (x − α∗ ∇f (x)) · ∇f (x)
= −2(x − α∗ 2x) · 2x = −4[1 − 2α∗ ]|x|2 =⇒ α∗ = 1/2.
Donc, si on part du point x0 ∈ R2 , le point suivant est donné par
1
x1 = x0 − α∗ ∇f (x0 ) = x0 − 2x0 = 0.
2
C’est le point minimisant. Pour une fonction f avec des lignes de niveau en forme
de cercles concentriques, la méthode converge en une itération.
2. Dérivées d’ordre un : méthodes de descente
311
Exemple 2.2.
Soit la fonction f dans R2 de l’Exemple 2.2
f (x1 , x2 ) = 16x21 + (x2 − 4)2 ,
∇f (x1 , x2 ) = 2(16x1 , x2 − 4)
où (0, 4) est le point minimisant. Alors
x2
(0, 4)
f (x) = 1
f (x) = 4
1
−1
(1, 1)
−0.5
0.5
1
x1
f (x) = 25
Figure 6.4. Ensembles de niveau de la fonction f (x) = 16x21 + (x2 − 4)2
de l’Exemple 2.2 et méthode des gradients optimaux à partir du point initial (1, 1).
g(α) = f (x − α∇f (x)) = 16(x1 − α32x1 )2 + (x2 − 2α(x2 − 4) − 4)2
= 16 x21 (1 − 32α)2 + (x2 − 4)2 (1 − 2α)2 .
Le longueur α du pas est donc donné par g ′ (α) = 0 :
−g ′ (α)/4 = (16 x1 )2 (1 − 32α) + (x2 − 4)2 (1 − 2α)
= (16 x1 )2 + (x2 − 4)2 − α 32(16 x1 )2 + 2(x2 − 4)2 .
1
312
Alors g ′ (α) = 0 si
α=
(16 x1 )2 + (x2 − 4)2
si (x1 , x2 ) 6= (0, 4) ou 0 si (x1 , x2 ) = (0, 4).
32(16 x1 )2 + 2(x2 − 4)2
Dans le cas où (x1 , x2 ) = (0, 4), ∇f (0, 4) = (0, 0) et l’algorithme s’arrète. Contrairement à l’Exemple 2.1, on n’atteint pas le point minimisant en un seul pas comme
le montrent la Figure 6.4 et la Table 6.1.
i
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
f (x)
x
x1
1.00E+00
-3.29E-02
3.16E-01
-1.04E-02
9.97E-02
-3.28E-03
3.15E-02
-1.03E-03
9.93E-03
-3.27E-04
3.14E-03
-1.03E-04
9.90E-04
-3.26E-05
3.13E-04
-1.03E-05
x2
1.00E+00
1.19E+00
3.05E+00
3.11E+00
3.70E+00
3.72E+00
3.91E+00
3.91E+00
3.97E+00
3.97E+00
3.99E+00
3.99E+00
4.00E+00
4.00E+00
4.00E+00
4.00E+00
2.50E+01
7.89E+00
2.49E+00
7.87E-01
2.48E-01
7.84E-02
2.48E-02
7.82E-03
2.47E-03
7.79E-04
2.46E-04
7.77E-05
2.45E-05
7.74E-06
2.44E-06
7.71E-07
∇f (x)
∂1 f (x)
∂2 f (x)
3.20E+01
-6.00E+00
-1.05E+00 -5.61E+00
1.01E+01
-1.89E+00
-3.32E-01
-1.77E+00
3.19E+00
-5.98E-01
-1.05E-01
-5.59E-01
1.01E+00
-1.89E-01
-3.31E-02
-1.77E-01
3.18E-01
-5.96E-02
-1.05E-02
-5.58E-02
1.00E-01
-1.88E-02
-3.30E-03
-1.76E-02
3.17E-02
-5.94E-03
-1.04E-03
-5.56E-03
1.00E-02
-1.88E-03
-3.29E-04
-1.75E-03
α
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
3.23E-02
3.31E-01
s = −α∇f (x)
s1 = −α∂1 f (x) s2 = −α∂2 f (x)
-1.03E+00
1.94E-01
3.49E-01
1.86E+00
-3.26E-01
6.11E-02
1.10E-01
5.87E-01
-1.03E-01
1.93E-02
3.47E-02
1.85E-01
-3.25E-02
6.09E-03
1.10E-02
5.85E-02
-1.03E-02
1.92E-03
3.46E-03
1.85E-02
-3.24E-03
6.07E-04
1.09E-03
5.83E-03
-1.02E-03
1.92E-04
3.45E-04
1.84E-03
-3.23E-04
6.05E-05
1.09E-04
5.81E-04
Table 6.1. Itérations de la méthode du gradient à pas optimaux pour la
fonction f (x) = 16x21 + (x2 − 4)2 .
2.3
Critères d’arrêt
Il y a de nombreux critères d’arrêt possible
1) Puisqu’au minimum ∂f /∂xi = 0, on peut arrêter lorsque
n P
∂f ∂f 2
(a) ∂x
<
ε,
i
=
1,
2,
.
.
.
,
n,
ou
(b)
∂xi < ε.
i
i=1
2) Arrêter lorsque la variation de la fonction est inférieure à une certaine limite
η (voir Tableau 6.1), c’est-à-dire
|f (xi+1 ) − f (xi )| < η.
Beaucoup d’autres critères sont admissibles. Le critère 2) est le plus fiable des deux
en autant qu’il soit vérifié pour plusieurs valeurs successives de i.
3. Directions conjuguées et gradient conjugué
313
Il est évident que le choix du critère et de la valeur d’arrêt (ε et η) sont fortement liés à la fonction à minimiser et la manière de programmer la méthode (notion
connue sous le nom de conditionnement en analyse numérique) et à l’architecture
de l’ordinateur (représentation des nombres et précision machine).
Au mieux les méthodes précédentes trouveront un minimum local dans la
région du point initial x0 . Il faut répéter la méthode en partant de points différents
pour trouver tous les minima locaux.
3
3.1
Directions conjuguées et gradient conjugué
Fonction objectif quadratique
On a vu dans l’Exemple 2.1 que lorsque les lignes de niveau de la fonction sont
des cercles concentriques, la méthode des pas ajustés converge en un pas, alors que
dans les Exemples 2.2 et 2.2 où les lignes de niveau sont des ellipses, les pas successifs
avec orthogonalité du gradient par rapport seulement au gradient précédent ne sont
pas aussi bien adaptés. Si on augmente le rapport entre les deux axes de l’ellipse
comme dans l’Exemple 2.2 pour la fonction f (x1 , x2 ) = 16x21 + (x2 − 4)2 , on peut
voir sur la Figure 6.4 le cheminement de la méthode qui zigzague de plus en plus
avec des pas de plus en plus courts au voisinage du point minimisant (0, 4) ce qui
rend la convergence très lente.
Par le Théorème de Taylor, une fonction f de classe C (2) ressemble à une
fonction quadratique au voisinage d’un point x
1
f (y) ∼
= f (x) + ∇f (x) · (y − x) + Hf (x)(y − x) · (y − x).
2
Il est donc important de développer des méthodes efficaces pour minimiser une
fonction quadratique en n variables de la forme
1
déf
q(y) = a + b · y + Ay · y,
(3.1)
2
où a ∈ R, b ∈ Rn et A est une matrice n × n symétrique et définie positive. C’est
qu’en fait, il faut tenir compte de la matrice A qui spécifie l’excentricité des ellipses
et choisir des directions qui soient orthogonales par rapport à la matrice A. Cette
idée est à l’origine des méthodes de directions conjugées.
Définition 3.1.
Soit A une matrice n × n symétrique et définie positive. On dit que les n directions
{si : 0 ≤ i ≤ n − 1} sont A–conjugées si aucune n’est nulle et que
si · Asj = 0, i 6= j,
i, j = 0, 1, . . . , n − 1.
(3.2)
D’où, en particulier, Asi · si > 0, i = 0, 1, . . . , n − 1.
Lemme 3.1. Soit A une matrice n×n symétrique et définie positive et {s0 , . . . , sk },
1 ≤ k ≤ n − 1, des directions A-conjuguées dans Rn . Alors les vecteurs {s0 , . . . , sk }
sont linéairement indépendants dans Rn .
314
Démonstration. Soient des scalaires {λ0 , . . . , λk } tel que
k
X
λi si = 0.
i=0
Pour j, 0 ≤ j ≤ k, on prend le produit scalaire de cette expression avec Asj
0 = Asj ·
k
X
i=0
λi si =
k
X
i=0
Asj · λi si = λj Asj · sj .
Comme Asj · sj > 0, il vient λj = 0 et ceci est vrai pour tout j, 0 ≤ j ≤ k. Les k
directions sont donc linéairement indépendantes.
Soit x∗ le point minimisant de q(x). Alors
∇q(x∗ ) = b + Ax∗ = 0.
(3.3)
Soient x0 le point de départ de l’algorithme et les directions A-conjuguées dans Rn .
Elles sont linéairement indépendantes par le Lemme 3.1. On peut donc associer à
n−1
tout point x0 ∈ Rn des constantes {βi }i=0
telles que
x∗ = x0 +
n−1
X
βi s i .
(3.4)
i=0
Les {βi } peuvent être calculées à partir de (3.4) et (3.3) comme suit :
∗
∀j,
0 = sj · [Ax + b] = sj · Ax0 +
En utilisant (3.2),
∀j,
⇒ ∀j,
n−1
X
i=0
βi sj · Asi + sj · b.
0 = sj · [Ax∗ + b] = sj · [Ax0 + b] + βj sj · Asj
βj = −
n−1
X
(b + Ax0 ) · sj
(b + Ax0 ) · sj
−
et x∗ = x0 +
sj .
sj · Asj
sj · Asj
j=0
(3.5)
(3.6)
(3.7)
On considère maintenant une approche itérative qui à partir d’un point x0
minimise q(x) successivement dans les directions s0 , s1 , . . . , sn−1 , choisies de façon
à ce que (3.2) soit vérifiée. On construit ainsi une suite de points
xi+1 = xi + αi si ,
i = 0, 1, . . . , n − 1,
(3.8)
où αi ∈ R minimise gi (α) = q(xi + αsi ), comme dans la méthode des gradients
optimaux :
d2 gi
dgi = si · Asi > 0.
(3.9)
=
s
·
∇q(x
)
=
0,
i
i+1
dα dα2
α=αi
315
Ce qui nous garantit que q(xi+1 ) ≤ q(xi ). Montrons que xn satisfait (3.3), c’est-àdire que xn = x∗ , et que αi = βi . À partir de (3.3) and (3.9) il vient
(b + Axi ) · si
.
(3.10)
si · (b + A(xi + αi si )) = 0 ⇒ αi = −
si · Asi
Mais par (3.8)
xi = x0 +
i−1
X
j=0
αj sj
⇒ xi · Asi = x0 · Asi +
i−1
X
j=0
αj sj · Asi = x0 · Asi .
(3.11)
Ainsi de (3.10), (3.7), et (3.4)
(b + Ax0 ) · si
= βi
αi = −
si · Asi
∗
⇒ x = x0 +
n−1
X
αj sj = xn .
(3.12)
j=0
Il est clair que l’on obtient toute une famille de méthodes qui minimise en au plus
n pas en variant le choix des directions s0 , s1 , ..., sn−1 qui devient ainsi le cœur
de la méthode, la difficulté principale étant de les créer de façon récursive. Dans le
paragraphe suivant, on présente une façon de construire des directions et la méthode
en résultant.
3.2
Méthode du gradient conjugué
La méthode des gradients conjugués (cf. M. R. Hestenes et E. Stiefel [1])
est un procédé élégant en n pas pour résoudre un système d’équations linéaires
impliquant une matrice symmétrique définie positive. Elle est donc pertinente pour
la minimisation de fonctions quadratiques. Il existe plusieurs méthodes de directions conjuguées. Celle de R. Fletcher et C. M. Reeves [1] ne nécessite que
le calcul du gradient de f (x) et la mise en réserve de seulement un autre vecteur additionnel. Cette méthode n’est pas aussi efficace que celle de R. Fletcher
et M. J. D. Powell [1] que l’on verra plus loin mais elle nécessite moins de
mémoire, ce qui constitue un avantage lorsque le nombre n de variables est grand
(cf. M. J. Box [1]).
L’algorithme est le suivant :
soit x0 un point initial et la direction s0 = −∇f (x0 ).
Si ∇f (x0 ) = 0, on arrête. Sinon, on passe à l’étape 0 : on choisit ρ0 minimisant
g(ρ) = f (x0 + ρs0 ) et on pose
x1 = x0 + ρ0 s0
et s1 = −∇f (x1 ) +
k∇f (x1 )k2
s0 .
k∇f (x0 )k2
À l’étape k, si ∇f (xk ) 6= 0, on choisit ρk minimisant g(ρ) = f (xk + ρsk ) et on pose
xk+1 = xk + ρk sk
et sk+1 = −∇f (xk+1 ) +
k∇f (xk+1 )k2
sk .
k∇f (xk )k2
316
On suit maintenant la présentation de P. G. Ciarlet [1, pp. 195–199 et 201].
À l’étape k, on a déterminé les points x0 , x1 , . . .xk et l’on supppose que
∇f (xℓ ) 6= 0,
0 ≤ ℓ ≤ k.
Soit Gℓ le sous espace linéaire de Rn généré par les gradients 1
déf
déf
Gℓ = Lin {∇f (xi ) : 0 ≤ i ≤ ℓ}
xℓ + Gℓ = {xℓ + yℓ : ∀yℓ ∈ Gℓ }
)
(
ℓ
X
αi ∇f (xi ) : ∀αi ∈ R, 0 ≤ i ≤ ℓ .
= xℓ +
i=0
Le point xk+1 est solution du problème de minimisation suivant
xk+1 ∈ xk + Gk ,
f (xk+1 ) =
inf
x∈xk +Gk
f (x) = inf f (xk + y).
y∈Gk
Comme Gk est un sous espace linéaire, on obtient les conditions nécessaires suivantes
∇f (xk+1 ) · y = 0,
∀y ∈ Gk
⇒ ∇f (xk+1 ) · ∇f (xi ) = 0,
0 ≤ i ≤ k.
Les gradients {∇f (xℓ ) : 0 ≤ ℓ ≤ k + 1}, sont donc orthogonaux deux à deux et pas
seulement d’une étape à l’autre comme dans la méthode des pas optimaux. Comme
l’espace Rn est de dimension n, l’algorithme converge en au plus n itérations. Si
l’on va jusqu’à la n-ème itération, xn est le minimum et ∇f (xn ) = 0.
Pour bien comprendre la méthode du gradient conjugué et en préciser les
détails, on se restreint au cas d’une fonction numérique quadratique de la forme
déf
q(x) =
1
Ax · x + b · x,
2
où A est une matrice n × n symétrique définie positive et b est un vecteur de Rn .
On montre d’abord que les directions sucessives sont conjuguées par rapport à la
matrice A et l’on calcule la longueur des pas. À l’étape ℓ, on détermine donc ℓ + 1
scalaires tel que
déf
xℓ+1 − xℓ = ∆ℓ =
ℓ
X
i=0
δiℓ ∇q(xi ),
0 ≤ ℓ ≤ k.
(3.13)
Comme q est quadratique, on observe que
∇q(x + y) = A(x + y) + b = ∇q(x) + Ay.
En utilisant cette identité, il vient
∇q(xℓ+1 ) = ∇q(xℓ ) + A∆ℓ ,
2
0 ≤ ℓ ≤ k,
⇒ 0 = ∇q(xℓ+1 ) · ∇q(xℓ ) = k∇q(xℓ )k + A∆ℓ · ∇q(xℓ ),
0 ≤ ℓ ≤ k.
1. Lin {vi : 0 ≤ i ≤ ℓ} est le plus grand sous-espace vectoriel engendré par la famille {vi :
0 ≤ i ≤ ℓ} ou, de façon équivalente, l’ensemble de toutes les combinaisons linaires finies de vecteurs
de la famille. En anglais, span {vi : 0 ≤ i ≤ ℓ}.
317
Comme on suppose que ∇q(xℓ ) 6= 0, il vient
A∆ℓ · ∇q(xℓ ) 6= 0
⇒ ∆ℓ 6= 0,
0 ≤ ℓ ≤ k.
Pour k ≥ 1 et 0 ≤ i < ℓ ≤ k,
0 = ∇q(xℓ+1 ) · ∇q(xi ) = ∇q(xℓ ) · ∇q(xi ) + A∆ℓ · ∇q(xi )
⇒ 0 = A∆ℓ · ∇q(xi ),
De là pour 0 ≤ m < ℓ ≤ k
A∆m · ∆ℓ =
m
X
i=0
0 ≤ i < ℓ ≤ k.
(3.14)
(3.15)
δim A∇q(xi ) · ∆ℓ = 0
puisque i ≤ m < ℓ ≤ k. Les vecteurs {∆ℓ } sont donc des directions conjuguées par
rapport à A (définie positive) car
A∆ℓ · ∆ℓ > 0,
0 ≤ ℓ ≤ k,
A∆m · ∆ℓ = 0,
0 ≤ m < ℓ ≤ k.
Par le Lemme 3.1, elles sont linéairement indépendantes. Comme les ∆ℓ sont des
combinaisons linéaires des gradients {∇q(xℓ ) : 0 ≤ ℓ ≤ k}, ces vecteurs sont aussi
linéairement indépendants.
Les vecteurs de {∇q(xℓ ) : 0 ≤ ℓ ≤ k} et de {∆ℓ : 0 ≤ ℓ ≤ k} sont donc
linéairement indépendants. De plus, par la définition (3.13) des ∆ℓ

 0
δ0 δ01 . . . δ0k
 0 δ11 . . . δ1k 


[∆0 ∆1 . . . ∆k ] = [∇q(x0 ) ∇q(x1 ) . . . ∇q(xk )]  . .
. . . . . ... 

 ..
k
0
0 . . . δk
et nécessairement δℓℓ 6= 0, 0 ≤ ℓ ≤ k car la transformation est nécessairement
bijective. Donc pour tout ℓ, 0 ≤ ℓ ≤ k,
xℓ+1 − xℓ = ∆ℓ =
ℓ
X
i=0
δiℓ ∇q(xi )
=
−δℓℓ sℓ ,
ℓ−1 X
δiℓ
− ℓ ∇q(xi ).
sℓ = −∇q(xℓ ) +
δℓ
i=0
déf
On est donc amené à prendre les directions de la forme
sℓ = −∇q(xℓ ) +
ℓ−1
X
i=0
λℓi ∇q(xi ),
0 ≤ ℓ ≤ k,
où λℓi = −δiℓ /δℓℓ .
(3.16)
On calcule maintenant xk+1 en supposant connus les λki , 0 ≤ i ≤ k − 1. Par
définition de ∆k et les résultats précédents,
(k−1
)
X δk
i
k
xk+1 − xk = ∆k = δk
∇q(xi ) + ∇q(xk ) = −δkk sk ⇒ ∆k = −δkk sk .
k
δ
i=0 k
318
Comme les vecteurs ∆k , les directions sk sont donc conjuguées par rapport à la
matrice A. On a alors k équations
0 = Ask · ∆ℓ = sk · A∆ℓ ,
0≤ℓ≤k−1
en k inconnues λki , 0 ≤ i ≤ k − 1. Comme
k−1
X
∇q(xℓ+1 ) − ∇q(xℓ ) = A(xℓ+1 − xℓ ) = A∆ℓ et − sk = ∇q(xk ) −
on obtient
"
∇q(xk ) −
#
k−1
X
λki ∇q(xi )
i=0
· [∇q(xℓ+1 ) − ∇q(xℓ )] = 0,
i=0
λki ∇q(xi )
0 ≤ ℓ ≤ k − 1.
Comme les gradients sont orthogonaux deux à deux, on obtient pour ℓ = k − 1
#
"
k−1
X
k
λi ∇q(xi ) · [∇q(xk ) − ∇q(xk−1 )] = 0
∇q(xk ) −
i=0
2
2
⇒ k∇q(xk )k + λkk−1 k∇q(xk−1 )k = 0
et si k ≥ 2 pour 0 ≤ ℓ ≤ k − 2
#
"
k−1
X
k
λi ∇q(xi ) · [∇q(xℓ+1 ) − ∇q(xℓ )] = 0
∇q(xk ) −
⇒
i=0
2
k
−λℓ+1 k∇q(xℓ+1 )k
2
+ λkℓ k∇q(xℓ )k = 0.
On en déduit la formule
λkℓ = −
k∇q(xk )k
k∇q(xℓ )k
2
2
,
0≤ℓ≤k−1
et en substituant dans l’expression (3.16) pour sk
−sk = ∇q(xk ) −
= ∇q(xk ) +
= ∇q(xk ) +
k−1
X
i=0
k−1
X
i=0
λki ∇q(xi )
k∇q(xk )k
k∇q(xi )k
k∇q(xk )k
2
2
k∇q(xk−1 )k
2
2
∇q(xi )
(
∇q(xk−1 ) +
⇒ sk = −∇q(xk ) +
k−2
X
i=0
2
k∇q(xk )k
2
k∇q(xk−1 )k
2
k∇q(xk−1 )k
k∇q(xi )k
sk−1 .
2
)
∇q(xi )
319
On obtient donc les directions sucessives par un procédé remarquablement simple
s0 = −∇q(x0 )
sℓ = −∇q(xℓ ) +
k∇q(xℓ )k
2
2
k∇q(xℓ−1 )k
sℓ−1 ,
1 ≤ ℓ ≤ k.
Il ne reste plus qu’à relier ces directions conjuguées à la minimisation par
rapport à ρ à chaque étape de l’algorithme. Comme R sk = {α sk : α ∈ R} ⊂ Gk
q(xk − δkk sk ) ≥ inf q(xk + ρsk ) ≥ inf q(xk + y) = q(xk − δkk sk )
y∈Gk
ρ∈R
⇒ q(xk −
δkk sk )
= inf q(xk + ρsk )
ρ∈R
Par unicité, on conclut que le ρk minimisant de l’algorithme vérifie ρk = −δkk pour
les directions sk prescrites.
Pour compléter, il est aussi possible dans le cas quadratique de déterminer
explicitement les ρk solution des problèmes de minimisation unidimensionels :
q(xk + ρk sk ) = inf q(xk + ρ sk ).
ρ∈R
On peut facilement vérifier que
1
A(xk + ρsk ) · (xk + ρsk ) + b · (xk + ρsk )
2
1
ρ2
= A sk · sk + ρ [Axk + b] · sk + Axk · xk + b · xk
2
2
ρ2
= A sk · sk + ρ ∇q(xk ) · sk + q(xk ).
2
q(xk + ρ sk ) =
Comme A est définie positive, en dérivant par rapport à ρ, le point minimisant est
donné par
ρk = −
∇q(xk ) · sk
.
A sk · sk
On en arrive donc à la définition de l’algorithme de la méthode du gradient
conjugué. À l’étape 0, on choisit un point arbitraire x0 . Si ∇q(x0 ) = 0, on arrête.
Sinon, on procède comme suit
s0 = −∇q(x0 ),
ρ0 = −
∇q(x0 ) · s0
,
A s0 · s0
x1 = x0 + ρ0 s0 .
À l’étape 1, si ∇q(x1 ) = 0, on arrête. Sinon, on procède comme suit
s1 = −∇q(x1 ) +
k∇q(x1 )k
k∇q(x0 )k
2
2
s0 ,
ρ1 = −
∇q(x1 ) · s1
,
A s1 · s1
x2 = x1 + ρ1 s1 .
320
À l’étape k, si ∇q(xk ) = 0 on arrête. Sinon, on procède comme suit
sk = −∇q(xk ) +
k∇q(xk )k
2
k∇q(xk−1 )k
2
sk−1 ,
ρk = −
∇q(xk ) · sk
,
A sk · sk
xk+1 = xk + ρk sk .
On rappelle que pour une fonction q quadratique, la méthode converge en au
plus n pas dans Rn . Pour une fonction f qui n’est pas quadratique, l’algorithme est
le même, mais les ρk sont déterminés par la recherche unidimensionnelle suivante
f (xk + ρk sk ) = inf f (xk + ρ sk ).
ρ∈R
Cette méthode de R. Fletcher et C. M. Reeves [1] a été initialement
conçue comme une méthode de résolution de système linéaire, donc de minimisation
d’une fonction quadratique. Afin de l’adapter à des fonctions non nécessairement
quadratiques, on note que l’orthogonalité des gradients ∇f (xk ) successivement rencontrés permet d’écrire
sk = −∇q(xk ) +
= −∇q(xk ) +
k∇q(xk )k
2
2 sk−1
k∇q(xk−1 )k
∇q(xk ) · (∇q(xk ) − ∇q(xk−1 ))
2
k∇q(xk−1 )k
sk−1 .
La méthode du gradient conjugué de ? [??] pour les fonctions f quelconques
est définie comme suit. À l’étape 0, on choisit un point arbitraire x0 . Si ∇f (x0 ) = 0,
on arrête. Sinon, on procède comme suit
s0 = −∇f (x0 ),
f (x0 + ρ0 s0 ) = inf f (x0 + ρ s0 ),
ρ∈R
x1 = x0 + ρ0 s0 ,
À l’étape 1, si ∇f (x1 ) = 0, on arrête. Sinon, on procède comme suit
∇f (x1 ) · (∇f (x1 ) − ∇f (x0 ))
s0 ,
2
k∇f (x0 )k
f (x1 + ρ1 s1 ) = inf f (x1 + ρ s1 ), x2 = x1 + ρ1 s1 ,
s1 = −∇f (x1 ) +
ρ∈R
À l’étape k, si ∇f (xk ) = 0 on arrête. Sinon on procède comme suit
∇f (xk ) · (∇f (xk ) − ∇f (xk−1 ))
sk−1 ,
k∇f (xk−1 )k2
f (xk + ρk sk ) = inf f (xk + ρ sk ), xk+1 = xk + ρk sk .
sk = −∇f (xk ) +
ρ∈R
Dans la pratique la méthode de Polak-Ribière s’avère plus efficace que celle de
Fletcher-Reeves. Lorsque la fonctionelle f n’est pas quadratique, les gradients ∇f (xk )
obtenus par la méthode de Polak-Ribière ne sont plus nécessairement deux à deux
orthogonaux, et l’algorithme ne se termine pas nécessairement en un nombre fini
d’itérations.
4. Dérivées d’ordre deux : méthodes de Newton et de Fletcher-Powell
4
321
Dérivées d’ordre deux : méthodes de Newton et de
Fletcher-Powell
On a vu que l’introduction de directions conjuguées peut considérablement
améliorer la convergence par rapport à la méthode de “steepest descent” ou celle
des gradients optimaux. Pour une fonction quadratique les gradients sont conjugués
par rapport à la matrice hessienne A. On utilise donc implicitement les dérivées
secondes pour construire ces directions même si l’algorithme ne fait qu’appel au
gradient. La matrice A contient l’information sur l’excentricité des ensembles de
niveau ce qui permet aux directions A-conjuguées d’éviter les comportements en
zig-zag (cf. Figures 6.4 et 6.6 pour la fonction de Rosenbrock de l’Exemple 2.3 au
Chapitre 4).
4.1
Méthode du type Newton
Considérons une approximation quadratique d’une fonction f de classe C (2)
autour du point xk
1
gk (x) = f (xk ) + ∇f (xk ) · (x − xk ) + Hf (xk )(x − xk ) · (x − xk ).
2
Un point minimisant xk+1 de gk est caractérisé par
∇gk (xk+1 ) = 0,
Hgk (xk+1 ) ≥ 0.
En explicitant, il vient
∇f (xk ) + Hf (xk )(xk+1 − xk ) = 0 et Hf (xk ) ≥ 0.
Si l’on suppose que la matrice hessienne est définie positive, alors elle est inversible
(cf. Lemme 5.1 du Chapitre 2) et le point minimisant est unique et donné par
xk+1 = xk − Hf (xk )−1 ∇f (xk ).
(4.1)
Donc, si f est de classe C (2) autour d’un point x∗ qui minimise localement f et
si Hf est définie positive au voisinage de x∗ , on peut définir une suite de points
{xk }. Ceci est la généralisation au cas vectoriel de la méthode de Newton appliquée
à l’équation
0 = ∇gk (x) = ∇f (xk ) + Hf (xk )(x − xk ).
On rappelle que, pour une fonction h : R → R, la méthode de Newton résout
h(x) = 0
en construisant une suite {xk } définie par
xk+1 = xk − h(xk ) / h′ (xk ).
Si f est quadratique
f (x) =
1
Ax · x + b · x + c
2
322
et si A est symétrique définie positive, alors la méthode de Newton converge en un
pas. En effet,
∇f (x) = Ax + b,
−1
⇒ xk+1 = xk − Hf (xk )
Hf (x) = A,
∇f (xk ) = xk − A−1 (Axk + b) = −A−1 b.
Cependant, pour une fonction f arbitraire, si l’on part d’un point éloigné de la
solution, la méthode de Newton peut ne pas converger. Il faut donc la modifier.
4.2
Adaptation de la méthode de Newton
La première modification consiste à introduire un paramètre ρ > 0 et à définir
xk+1 = xk − ρk Hf (xk )−1 ∇f (xk )
de telle façon que ρk minimise
gk (ρ) = f (xk − ρ Hf (xk )−1 ∇f (xk )).
Ce qui garantit que f (xk+1 ) ≤ f (xk ) et ρk ≥ 0. Près du point minimum x∗ de f ,
on s’attend à ce que ρk = 1 par (4.1).
La seconde modification consiste à remplacer Hf (xk )−1 par une matrice Mk
définie positive
xk+1 = xk − ρMk ∇f (xk ), ρ > 0.
(4.2)
Pour ρ > 0 petit, xk+1 est près de xk et l’on a par la formule de Taylor
f (xk+1 ) = f (xk ) + ∇f (xk ) · (xk+1 − xk ) + o(kxk+1 − xk k2 )
lorsque k → ∞. En substituant xk+1 du côté droit, il vient
f (xk+1 ) = f (xk ) − ρ∇f (xk ) · Mk ∇f (xk ) + o(ρ2 ).
On voit donc que si Mk est définie positive, il y aura décroissance. Dans (4.2), si
Mk = I (matrice identité) et ρ minimise gk (ρ) = f (xk − ρ∇f (xk )), on retrouve la
méthode des gradients optimaux du paragraphe 2.2, mais cette méthode ne converge
que linéairement. Si dans (4.2) Mk = Hf (xk )−1 et ρ = 1, on a la méthode de
Newton qui converge rapidement au voisinage du point minimum mais qui peut ne
pas converger en certains points. L’idée est de combiner deux méthodes de ce type
pour assurer un bon fonctionnement global.
4.3
Méthode de Fletcher et Powell
La méthode de R. Fletcher et M. J. D. Powell [1] en 1963 est probablement la méthode la plus puissante qui ait été développée à l’époque pour la
recherche d’un minimum local d’une fonction numérique. Elle est construite de façon
que lorsqu’elle est appliquée à une fonction numérique quadratique, elle minimise
323
en n itérations. Elle accomplit ceci en créant des directions conjuguées. L’aspect
original de la méthode repose sur une matrice Hi symétrique définie positive qui
change à chaque itération et qui donne la direction de déplacement si à létape i en
multipliant Hi par le gradient de f en xi .
On procède comme suit. À l’étape 0, on prend
x0 ∈ Rn arbitraire
H0 = une matrice symétrique définie positive.
À l’étape i, on construit la direction
si = −Hi ∇f (xi )
et on calcule un scalaire α = αi qui minimise g(α) = f (xi + αsi ). On pose


σi = αi si
xi+1 = xi + σi


Hi+1 = Hi + Ai + Bi
où les matrices Ai et Bi sont données par

σi ⊗ σi

 Ai =
, yi = ∇f (xi+1 ) − ∇f (xi )

σi · yi
H y ⊗ (Hi yi )


 Bi = − i i
y i · Hi y i
(4.3)
(4.4)
et x ⊗ y est le produit tensoriel : pour deux vecteurs x et y dans Rn ,


x1 y1 . . . . . . x1 yn


..
.
x2 yn 
x2 y1
déf 
déf


x⊗y =  .
..  ou (x ⊗ y)ij = xi yj
..
 ..

.
.
xn y1 . . . . . . xn yn
est une matrice n × n.
Fletcher et Powell démontrent ce qui suit :
1) La matrice Hi est définie positive pour tout i. Donc la méthode converge en
général puisque
d
(4.5)
f (xi + αsi )
= −∇f (xi ) · Hi ∇f (xi ) < 0,
| {z }
dα
α=0
si
c.-à-d., la fonction f est initialement décroissante dans la direction si de façon
que l’on puisse descendre à chaque itération le long de si .
324
minimum
f (1, 1) = 0
x2
0
17
1.00
numéro
d’itération
0.75
3
0.50
12
0.25
0
−1.0
−0.5
6
0.5
1.0 x1
Figure 6.5. Méthode de Fletcher-Powell pour la fonction de Rosenbrock.
2) Quand on applique la méthode à une fonction quadratique du type (3.1), alors
(a) les directions si (ou σi ) sont A-conjugées, menant à un minimum en n pas.
(b) la matrice Hi converge vers l’inverse de la matrice des dérivées secondes
de f , c.-à-d.
Hn = A−1 .
3) Dans le cas général, Hi tend aussi vers l’inverse de la matrice des dérivées
secondes évaluée au point minimisant.
Les expériences numériques confirment la rapidité de convergence de cette
méthode. Considérons la fonction de Rosenbrock de l’Exemple 2.3 (Figure 4.1).
f (x1 , x2 ) = 100(x2 − x21 )2 + (1 − x1 )2 avec minimum en x∗ = (1, 1).
(4.6)
Elle possède une vallée très étroite et profonde qui suit la parabole x2 = x21 . C’est
ce qui rend la minimisation difficile. Les Figures 6.5 et 6.6 2 montrent les chemins
2. Essais et Figures redessinées à partir de L. S. Lasdon [1, Figures 1-3 et 1-4, p. 9–10].
325
1
1.00
0
2
minimum
f (1, 1) = 0
0.75
numéro
d’tération
0.50
13
70
0.25
67
46
−1.0
−0.5
0.5
1.0
Figure 6.6. Méthode des gradients optimaux pour la fonction de Rosenbrock.
(et le nombre d’itérations) suivis par les méthodes des gradients optimaux et de
Fletcher-Powell. Le détail de cet algorithme se trouve dans D. Pearson [1].
326
Éléments de bibliographie
I. Adler
[1], On the Equivalence of Linear Programming Problems and Zero-Sum Games,
http ://www.optimization-online.org, June 2010.
P. Alart, O. Maisonneuve et R. T. Rockafellar
[1], Nonsmooth mechanics and analysis : Theoretical and numerical advances,
Springer-Verlag, Berlin, 2006.
J.-P. Aubin et A. Cellina
[1], Differential inclusions, Springer-Verlag, Berlin, 1984.
J.-P. Aubin et H. Frankowska
[1], Set-Valued Analysis, Birkhäuser, Boston, 1990.
M. Barbut, B. Locker, L. Mazilak et P. Priouret
[1], Cinquante ans de correspondance mathématique en 107 lettres, Paul Lévy Maurice Fréchet, Birkhäuser, Boston, 1990.
A. Bastiani
[1], Applications différentiables et variétes diflérentiables de dimension infinie, J.
Analyse Math. 13 (1964), 1–114.
L. D. Berkovitz
[1], Convexity and optimization in Rn , Pure and Applied Mathematics (New York).
Wiley-Interscience [John Wiley & Sons], New York, 2002.
G. Beveridge et R. Schechter
[1], Optimization : Theory and practice, McGraw Hill Book Co., New York, 1970.
E. Blum et W. Oettli
[1], Direct Proof of the Existence Theorem for Quadratic Programming, Operations
Research 20, No. 1 (1972), 165–167.
F. Bonnans
[1], Optimisation continue, Dunod, Paris, 2006.
F. Bonnans et A. Shapiro
[1], Perturbation analysis of optimization problems, Springer Series in Operations
Research, Springer-Verlag, New York, 2000.
É. Borel
[1], Traité du calcul des probabilités et de ses applications. Applications aux jeux de
hasard, rédigé avec la collab. de Jean Ville, Gauthier-Villars, Paris, 1938.
J. M. Borwein et A. S. Lewis
367
368
[1], Convex analysis and nonlinear optimization. Theory and examples, CMS (Canadian Mathematical Society) Books in Mathematics, Volume 3, Springer-Verlag,
New York, 2000.
G. Bouligand
[1], Sur les surfaces dépourvues de points hyperlimités, Ann. Soc. Polon. Math. 9
(1930), 32–41.
[2], Introduction à la géométrie infinitésimale directe, Gauthier-Villars, Paris, 1932.
M. J. Box
[1], A comparison of several current optimization methods and the use of transformations in constrained problems, Brit. Computer Journal, 9, 1966, pp 67–68.
M. J. Box, D. Davies et W. H. Swann
[1], Techniques d’optimisation non linéaire, Entreprise moderne d’édition, Paris,
1971.
S. Boyd et L. Vandenberghe
[1], Convex optimization, Cambridge University Press, Cambridge, 2004.
P. Cannarsa et C. Sinestrari
[1], Semiconcave functions, Hamilton-Jacobi equations, and optimal control, Progress in Nonlinear Differential Equations and Their Applications, Volume 58,
Birkhäuser Boston, Boston, MA, 2004.
J. Caristi
[1], Fixed point theorems for mappings satisfying inwardness conditions, Trans.
Amer. Math. Soc. 215 (1976), 241–251.
J. Caristi et W. A. Kirk
[1], Geometric fixed point theory and inwardness conditions, dans ≪The geometry of
metric and linear spaces≫ (Proc. Conf., Michigan State Univ., East Lansing, Mich.,
1974), pp. 74–83, Lecture Notes in Math., Volume 490, Springer, Berlin, 1975.
P. G. Ciarlet
[1], Introduction à l’analyse numérique matricielle er à l’optimisation, Masson, Paris 1983.
F. H. Clarke
[1], Necessary Conditions for Nonsmooth Problems in Optimal Control and the Calculus of Variations, Ph.D. thesis, Univ. of Washington, 1973.
[2], Optimization and Nonsmooth Analysis, John Wiley and Sons, New York, Chichester, Brisbane, Toronto, Singapore, 1983.
T. Clausen
[1], Über die Form Architektonischer Säulen, dans
astronaumiques I,≫ (1849–1853), 279–284.
Mélanges mathématiques et
≪
L. Collatz et W. Wetterling
[1], Optimierungsaufgaben, Heidelberger Taschenbücher, Band 15, Springer-Verlag,
Berlin-New York 1966, Traduction anglaise par P. Wadsack. Optimization problems,
Applied Mathematical Sciences, Vol. 17, Springer-Verlag, New York-Heidelberg,
1975.
S. J. Cox
[1], The shape of the ideal column, Math. Intelligencer (1) 14 (1992), 16–24.
369
[2], The generalized gradient at a multiple eigenvalue, J. Funct. Anal. (1) 133
(1995), 30–40.
S. J. Cox, B. Kawohl et P. X. Uhlig
[1], On the optimal insulation of conductors, J. Optim. Theory Appl. (2) 100 (1999),
253–263.
S. J. Cox et C. M. McCarthy
[1], The shape of the tallest column, SIAM J. Math. Anal. (3) 29 (1998), 547–554.
S. J. Cox et M. L Overton
[1], On the optimal design of columns against buckling, SIAM J. Math. Anal. (2)
23 (1992), 287–325.
G. B. Dantzig
[1], Programming in a linear structure, U. S. Air Force Comptroller, USAF, Washington, D.C., 1948.
[2], A Proof of the Equivalence of the Programming Problem and the Game Problem,
dans ≪Activity Analysis of Production and Allocation≫ , T. C. Koopmans (ed.), John
Wiley & Sons, New York, 1951.
[3], Maximization of a linear function subject to linear inequalities, dans ≪Activity
Analysis of Production and Allocation≫, T. C. Koopmans (ed.), John Wiley & Sons,
New York, 1951, pp. 339–347.
[4], Linear Programming and Extensions, Princeton University Press, Princeton,
1963.
M. C. Delfour et J.-P. Zolésio
[1], Shapes and geometries : Metrics, analysis, differential calculus and optimization, SIAM series on Advances in Design and Control, SIAM, Philadelphia, PA 2011,
second edition.
V. F. Demyanov et A. M. Rubinov
[1], Constructive Nonsmooth Analysis, Peter Lang Verlag, New York, 1995.
U. Dini
[1], Fondamenti per la teorica delle funzioni di variabili reali, T. Nistri, Pisa 1878
[Fondements de la théorie des fonctions d’une variable réelle] (traduction allemande :
Grundlagen für eine Theorie der Funktionen einer veränderlichen reellen Grösse,
Teubner, 1892).
A. Dontchev et R. T. Rockafellar
[1], Implicit functions and solution mappings. A view from variational analysis,
Springer Monographs in Mathematics, Springer, Dordrecht, 2009.
A. Ja. Dubovitskiı̌ et A. A. Miljutin
[1], Extremal problems with constraints, (Russian) Ž. Vyčisl. Mat. i Mat. Fiz. 5
(1965), 395–453.
M. Durea
[1], On the existence and stability of approximate solutions of perturbed vector equilibrium problems, Journal of Mathematical Analysis and Applications 333, no. 2
(2007), 1165–1179.
I. Ekeland
[1], On the variational principle, Journal of Mathematical Analysis and Applications 47, no. 2 (1974), 324–353.
370
[2], Nonconvex minimization problems, Bulletin of the American Mathematical Society 1 (1979), 443–474.
I. Ekeland et R. Temam
[1], Analyse convexe et problèmes variationnels, Dunod Gauthier-Villars, Paris,
1974. Traduction anglaise : Convex analysis and variational problems, North–
Holland Publishing Co., Amsterdam-Oxford ; American Elsevier Publishing Co.,
New York, 1976 (Corrected reprinting, SIAM, Philadelphia, 1999).
L. Euler
[1], Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive
solutio problematis isoperimetrici latissimo sensu accepti, 1744 [Une méthode pour
trouver des lignes courbes jouissant de propriétés de maximum ou de minimum, ou
la solution de problèmes isopérimétrique dans le sens le plus large], Opera Omnia :
Series 1, Volume 24 (1952), 1–308.
J. Farkas
[1], Über die Theorie der Einfachen Ungleichungen, Journal für die Reine und Angewandte Mathematik 124 (1902), 1–27.
W. Fenchel
[1], On conjugate convex functions, Canad. J. Math. 1 (1949), 73–77.
[2], Convex cones, sets and functions, Mimeographed Lecture Notes, Princeton University, Princeton, 1951.
[3], A remark on convex sets and polarity, Medd. Lunds Univ. Mat. Sem. (Supplementband) (1952), 82–89.
[4], Über konvexe Funktionen mit vorgeschriebenen Niveaumannigfaltigkeiten,
Math. Z. 63 (1956), 496–506.
W. Fenchel et T. Bonnesen
[1], Theorie der konvexen Körper, Ergebnisse der Mathematik und ihrer Grenzgebiete—, 3. Berlin : 1. Verlag von Julius Springer, 1931.
[2], Theorie der konvexen Körper, Chelsea Publishing Co., Bronx, New York, 1971.
[3], Theorie der konvexen Körper, Springer-Verlag, Berlin, 1974.
[4], Theory of convex bodies, L. Boron, C. Christenson and B. Smith (eds.), BCS
Associates, Moscow, Idaho, 1987.
J. Ferguson
[1], A. Brief Survey of the History of the Calculus of Variations and Its Applications, University of Victoria, Canada, 2004 (arXiv :math/0402357).
P. de Fermat
[1], Methodus ad disquirendam Maximam et Minimam, Varia opera mathematica,
1679 (D’abord consigné dans une lettre à Mersenne en 1638, la première version
imprimée de la méthode se retrouve dans le cinquième volume de Supplementum
Cursus Mathematici (1642) écrit par Herigone, et ce n’est qu’en 1979 qu’elle apparaı̂t dans Varia opera mathematica.). Version électronique du manuscrit en latin :
http ://fr.wikisource.org/wiki/Œuvres de Fermat - Livre I - Maxima et Minima.
[2], De tangentibus linearum curvarum, Varia opera mathematica, 1679.
W. H. Fleming
[1], Functions of several variables, Addison–Wesley, Reading, Massachusetts, 1965.
371
R. Fletcher et M. J. D. Powell
[1], A rapidly convergent descent method for minimization, Brit. Computer Journal
6, 1963, 163–168.
R. Fletcher et C. M. Reeves
[1], Function minimization by conjugate gradients, Brit. Computer Journal, 7, 1964,
pp. 149–154.
M. Fortin et Z. Mghazli
[1], Analyse d’un élément mixte pour le problème de Stokes. I. Résultats généraux,
Numer. Math. 62 (1992), 149–160.
[2], Analyse d’un élément mixte pour le problème de Stokes. II. Construction et
estimations d’erreur, Numer. Math. 62 (1992), no. 2, 161–188.
M. Frank et P. Wolfe
[1], An Algorithm for Quadratic Programming, Naval Res. Log. Quart. 3 (1956),
95–110.
M. Fréchet
[1], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t.
CLII (1911), 845–847.
[2], Sur la notion de différentielle, Comptes rendus de l’Académie des Sciences, t.
CLII (1911), 1050–1051.
[3], Sur la notion de différentielle totale, Nouv. Ann. Math. 12 (1912), 385–403 et
433–449.
[4], La notion de différentielle dans l’Analyse générale, Ann. c. Norm., XLII (1925),
293–323.
[5], Sur la notion de différentielle, Journal de Mathématiques Pures et Appliquées
16 (1937), 233–250.
R. Gateaux
[1], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 22-2
(1913), 646–648.
[2], Sur les fonctionnelles continues et les fonctionnelles analytiques, Comptes rendus de l’académie des sciences (Paris) 157 (1913), 325–327.
[3], Sur la représentation des fonctionnelles continues, Rend. Acc. Linc., 23-1
(1914), 310–315.
[4], Sur les fonctionnelles d’ordre entier d’approximation, Rend. Acc. Linc., 23-1
(1914), 405–408.
[5], Représentation d’une fonctionnelle continue, satisfaisant à la condition du cycle
fermé, Rend. Acc. Linc., 23-1 (1914), 481–486.
[6], Sur la notion d’intégrale dans le domaine fonctionnel et sur la théorie du potentiel, Bulletin de la Société Mathématique de France 47 (1919), 47–67 (suivi d’une
note de P. Lévy 67–70).
[7], Fonctions d’une infinité de variables indépendantes, Bulletin de la Société
Mathématique de France 47 (1919), 70–96.
[8], Sur diverses questions du calcul fonctionnel, Bulletin de la Société
Mathématique de France 50 (1922), 1–37.
I. V. Girsanov
372
[1], Lectures on mathematical theory of extremum problems, Springer-Verlag, New
York, 1974.
J. Hadamard
[1], Leçons sur le calcul des variations, vol. I, Hermann, Paris, 1910.
[2], La notion de différentielle dans l’enseignement, Scripta Univ. Ab. Bib., Hierosolymitanarum, Jerusalem, 1923. Réimprimé dans la ≪Mathematical Gazette≫ 19,
no. 236 (1935), 341–342.
G. Hadley
[1], Nonlinear and dynamic programming, Addison–Wesley Publishing Co., Reading, Massachusetts, 1964.
M. R. Hestenes
[1], Optimization theory, the finite dimensional case, J. Wiley-Interscience, New
York, 1975.
M. R. Hestenes et E. Stiefel
[1], Methods of conjugate gradients for solving linear systems, J. Res. Natl. Bur.
Stand. 49 (1952), 409–436.
M. Intriligator
[1], Mathematical optimization and economic theory, Prentice–Hall, Englewood
Cliffs, NJ, 1971.
A. D. Ioffe
[1], Metric regularity and subdifferential calculus, (Russian) Uspekhi Mat. Nauk 55
(2000), no. 3 (333), 103–162 ; traduction anglaise dans Russian Math. Surveys 55
(2000), no. 3, 501–558.
A. D. Ioffe et V. M. Tikhomirov
[1], Théorie des problèmes extrémaux, Édition Nauka, Moscou, 1974. Traduit de
l’édition en russe, Series in Nonlinear Analysis and Its Applications, Izdat. Nauka,
Moscow, 1974.
G .G. Joseph
[1], The Crest of the Peacock, Princeton University Press, Princeton, NJ, 2000, pp.
298–300.
L .V. Kantorovich
[1], Mathematical Methods of Organizing and Planning Production, Leningrad State
University Press, Leningrad, Russia, 1939.
[2], A new method of solving some classes of extremal problems, Doklady Akad Sci
USSR 28 (1940), 211–214.
W. Karush
[1], Minima of functions of several variables with inequalities as side conditions,
Master’s thesis, University of Chicago, 1939.
J. Kowalik et M. Osborne
[1], Methods for unconstrained optimization problems, American Elsevier Publishing
Co., New York, 1968.
H. W. Kuhn et A. W. Tucker
[1], Nonlinear programming, dans ≪Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability≫, J. Neyman, ed., University of
California Press, Berkeley, CA, 1951, pp. 481–492.
373
[2], John von Neumann’s work in the theory of games and mathematical economics,
Bull. Amer. Math. Soc. 64, Number 3, Part 2 (1958), 100–122.
J. L. Lagrange
[1], Sur la figure des colonnes, dans ≪Miscellanea Taurinensia V,≫ 123, 1770–1773.
[2], Mécanique analytique, Courcier, Paris, 1788. (reissued by Cambridge University
Press, 2009 ; ISBN 9781108001748)
L. S. Lasdon
[1], Optimization theory for large systems, Collier-Macmillan, Toronto, 1970.
S. R. Lay
[1], Convex sets and their applications, J. Wiley & Sons, New York, 1982 (book
dedicated to F. A. Valentine).
A.-M. Legendre
[1], Sur la manière de distinguer les Maxima des Minima dans le Calcul des Variations, dans ≪Histoire de l’Académie Royale des Sciences≫, Année 1786, Mémoires
de Mathématiques et de Physique, Paris, 1786, pp. 7–37.
G. W. Leibniz
[1], Nova methodus pro maximis et minimis, itemque tangentibus, quae nec fractas
nec irrationales quantitates moratur, et singulare pro illis calculi genus, Acta Eruditorum, 1684 [Nouvelle méthode pour les maxima et minima, ainsi que les tangentes,
qui ne bute ni sur les fractions ni sur les irrationnelles, avec un mode original de
calcul].
B. Lemaire
[1], Problèmes min-max et applications au contrôle optimal de systèmes gouvernés
par des équations aux dérivées partielles linéaires, Thèse de doctorat d’état, Université de Montpellier, Montpellier, France, 1970.
D. G. Luenberger
[1], Introduction to linear and nonlinear programming Addison–Wesley, Reading,
Mass., Don Mills, Ont., 1973 ; Linear and nonlinear programming, 2nd ed. Addison–
Wesley, Reading, Mass., Don Mills, Ont., 1984.
[2], Optimization by vector space methods Wiley, New York, 1969.
O. Mangasarian
[1], Nonlinear programming, McGraw–Hill Book Co., New York, 1969.
L. Mazilak
[1], The ghosts of the Ecole Normale. Life, death and destiny of René Gateaux,
submitted to Historia Mathematica (Les fantômes de l’École Normale. Vie, mort et
destin de René Gateaux, Université Pierre et Marie Curie Paris, France, 2007).
[2], Communication privée.
L. Mazilak et R. Tazzioli
[1], Mathematicians at war. Volterra and his French colleagues in World War I,
Archimedes : New Studies in the History and Philosophy of Science and Technology,
22. Springer, New York, 2009.
A. D. Michal
[1], Differential calculus in linear topological spaces, PYOC. Nat. Acad. Sci. U.S.A.
24 (1938), 340–342.
374
A. A. Miljutin
[1], General schemes for obtaining necessary conditions for an extremum, and problems of optimal control, (en russe) Uspehi Mat. Nauk 25, no. 5 (155) (1970), 110–
116.
B. S. Mordukhovich
[1], Variational analysis and generalized differentiation. I. Basic theory, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Volume 330, Springer-Verlag, Berlin, 2006.
[2], Variational analysis and generalized differentiation. II. Applications, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical
Sciences], Volume 331, Springer-Verlag, Berlin, 2006.
M. Nagumo
[1], Über die Loge der Integralkurven gewöhnlicher Differentialgleichungen, (en allemand) Proc. Phys. Math. Soc. Japan 24 (1942), 551–559.
J. F. Nash
[1], Non-Cooperative Games, The Annals of Mathematics 54, no. 2 (1951), 286–295.
I. Newton
[1], Method of fluxions and infinite series, Heney Woodfall, London, 1736 (rédigé
en 1671).
[2], Philosophiae Naturalis Principia Mathematica, 1687 et 1726 (troisième édition).
Traduction française par Émilie du Châtelet : Principes mathématiques de philosophie naturelle, Paris, 1756. Definitiones (Définitions), p. 1–11 ; Axiomata sive leges
motus (Des lois ou axiomes du mouvement), p. 12–25) ; De motu corporum : liber
primus (Sur le mouvement des corps : livre premier), p. 26–235 ; De motu corporum :
liber secundus (Sur le mouvement des corps : livre second), p. 236–400 ; De mundi
systemate : liber tertius (Sur le système du monde : livre troisième), p. 401–510.
J. M. Ortega et W. C. Rheinboldt
[1], Iterative solution of nonlinear equations in several variables, Classics in Applied
Mathematics, Volume 30, SIAM, Philadelphia, 2000.
D. Pearson
[1], Variable metric methods of minimisation, Brit. Computer Journal 12, 1969, pp.
171–178.
J.-P. Penot
[1], Calcul sous-différentiel et optimisation, Journal of Functional Analysis 27
(1978), 248–276.
J. Pierpont
[1], The theory of functions of real variables, Vol. I, Ginn and Company, Boston,
New York, Chicago, London, Atlanta, Dallas, Columbus, San Francisco, 1905.
[2], The theory of functions of real variables, Vol. II, Ginn and Company, Boston,
New York, Chicago, London, 1912.
J. A. Plateau
[1], Statique expérimentale et théorique des liquides soumis aux seules forces
moléculaires, Gauthier-Villars, Paris, 1873.
E. Polak
[1], Computational methods in optimization, Academic Press, New York, 1972.
375
[2], Optimization : Algorithms and consistent approximations, Applied Mathematical Sciences, Springer, New York,1997.
B T. Polyak
[1], Introduction to optimization, Optimization Software, Inc., Publications Division, New York, 1987.
R. T. Rockafellar
[1], Convex analysis, Princeton University Press, Princeton, NJ, 1972.
R. T. Rockafellar et R. J.-B. Wets
[1], Variational analysis, Fundamental Principles of Mathematical Sciences, Volume
317, Springer, Berlin, 1998.
H. H. Rosenbrock
[1], An automatic method for finding the greatest or least value of a function, Brit.
Computer Journal 3 (1960), 175–184.
W. Rudin
[1], Principes d’analyse mathématique, Édiscience, Paris 1995 [traduction de l’anglais, Principles of mathematical analysis, McGraw–Hill, New York, 1964.
D. L. Russell
[1], Optimization theory, W.A. Benjamin, New York, 1970.
L. Schwartz
[1], Cours d’analyse, Hermann, Paris, 1967.
F. Severi
[1], Su alcune questioni di topologia infinitesimale, Ann. Polon. Soc. Math. 9 (1930),
97–108.
J. Stoer et C. Witzgall
[1], Convexity and optimization in finite dimensions, Volume 1, Springer-Verlag,
New York, 1970.
O. Stolz
[1], Grundzüge der Differential und Integralrechnung, I, B. G. Teubner, Leipzig,
1893 (The Cornell University Library Collections).
W. Takahashi
[1], Existence theorems generalizing fixed point theorems for multivalued mappings,
dans ≪Fixed Point Theory and Applications ≫ (Marseille, 1989), M. Thra and J.
Baillon, eds., pp. 397–406, Pitman Res. Notes Math. Ser., Volume 252, Longman
Sci. Tech., Harlow, 1991.
V. M. Tihomirov
[1], Elements of the theory of extrema, Econometric Institute, Erasmus University
Rotterdam, 1997.
H. Tuy
[1], Convex analysis and global optimization, Kluwer Academic Publishers, Dordrecht, 1998.
F. A. Valentine
[1], Convex sets, McGraw–Hill, New York, 1964.
B. van Brunt
376
[1], The Calculus of Variations, Springer-Verlag, New York, 2004.
J. von Neumann
[1], Zur Theorie der Gesellschaftsspiele. Mathematische Annalen 100 (1) (1928),
295–320. Trad. : ≪On the Theory of Games of Strategy,≫ dans ≪Contributions to
the Theory of Games,≫ v. 4, A. W. Tucker and R. D. Luce, eds. (1959), pp. 13–42.
J. von Neumann et O. Morgenstern
[1], Theory of Games and Economic Behavior, Princeton University Press, Princeton, 1944.
K. Weierstrass
[1], Mathematische Werke. Rester Band. Abhandlungen I. Mayer & Müller, Berlin
1894 ; Zweiter Band. Abhandlungen II. Mayer & Müller, Berlin 1895 ; Dritter Band.
Abhandlungen III. Mayer & Müller, Berlin 1903.
[2], Mathematische Werke. Vierter Band. Vorlesungen über die Theorie der Abelschen Transcendenten. Mayer & Müller, Berlin 1902.
[3], Mathematische Werke. Siebenter Band. Vorlesungen über Variationsrechnung.
Akademische Verlagsgesellschaft M. B. H., Leipzig, 1927.
J. D. Weston
[1], A characterization of metric completeness, Proc. Amer. Math. Soc. 64 (1977),
no. 1, 186–188.
H. Whitney
[1], A function that is not constant on a connected set of critical points, Duke Math.
J. 1, no. 4 (1935), 514–517.
W. H. Young
[1], On differentials, Proc. London Mathematical Society, series 2, 7 (1909), 157.
[2], The fundamental theorems of Differential Calculus, University Press, Cambridge, 1910.
W. Zangwill
[1], Nonlinear Programming–A Unified Approach, Prentice–Hall, Englewood Cliffs,
NJ, 1969.
J.-P. Zolésio
[1], Identification de domaines par déformation, Thèse de doctorat d’état, Université de Nice, France, 1979.
[2], Semiderivatives of repeated eigenvalues, dans ≪Optimization of Distributed Parameter Structures,≫ Vol. II (Iowa City, IA, 1980), E. J. Haug and J. Céa, eds.,
1457–1473, NATO Adv. Sci. Inst. Ser. E : Appl. Sci., 50, Sijhofff and Nordhoff,
Alphen aan den Rijn, 1981 (Nijhoff, The Hague).

Numérique pour l`optimisation différentiable sans contraintes

Transcription

Documents pareils

Méthodes d`Euler, de Runge-Kutta et de Heun.

DM2

RÉSOLUTION NUMÉRIQUE DE L`ÉQUATION DE LA CHALEUR Le

Méthodes de Monte-Carlo Calcul d`intégrales et réduction de variance

Méthode de Monte Carlo pour l`approximation d`une intégrale

tableau de signes

Visiteur - fil - Université Lille 1

La P.I.E., une méthode nouvelle de recherche d`emploi

TD 1

IN328 : RMI