18 Optimisation linéaire : algorithmes de points intérieurs

Transcription

18 Optimisation linéaire : algorithmes de points
intérieurs
Ce chapitre se limite à l’étude de quelques aspects des algorithmes de suivi de chemin
primaux-duaux en optimisation linéaire. Ce sont souvent les algorithmes de points
intérieurs les plus efficaces en pratique. D’autres approches de points intérieurs ont
été proposées et peuvent être utiles dans des contextes particuliers : algorithme de
l’ellipsoı̈de de Dikin, algorithmes à réduction de potentiel, etc. Nous renvoyons le
lecteur aux notes de fin de chapitre pour des références sur ceux-ci.
Comme leur nom l’indique les algorithmes de suivi de chemin génèrent des itérés
qui suivent ce que l’on appelle aujourd’hui le chemin central . Celui-ci sert de guide,
conduisant les itérés vers une solution particulière du problème (ou vers la solution
s’il n’y en a qu’une). Nous l’étudions en détail à la section 18.1.
La partie algorithmique de ce chapitre est importante et débute par des remarques
générales sur les approches primales-duales (section 18.2). Vient ensuite l’étude de
trois algorithmes supposant que l’on dispose d’un premier itéré admissible (section
18.3) : les algorithmes des petits déplacements, des grands déplacements et prédicteurcorrecteur. Les algorithmes sont motivés et décrits; leur convergence et leur complexité
itérative sont étudiées. Le premier algorithme a la complexité itérative théorique la
meilleure, mais ce sont les deux derniers qui sont les plus efficaces en pratique, le
dernier étant le plus souvent implémenté (dans une version plus élaborée, il est vrai).
Enfin, la section 18.4 décrit et analyse un algorithme n’imposant pas aux itérés d’être
admissibles.
Connaissances requises. Les bases de l’optimisation linéaire (chapitre 17); la notion
de fonction asymptotique (section 3.3.4), qui est utilisée pour montrer l’existence du
chemin central; l’algorithme de Newton (section 9.1.1).
Rappel et notations
On considère le problème d’optimisation linéaire dans Rn suivant, dit sous forme
standard

 inf x c⊤x
(P )
Ax = b

x > 0,
où, rappelons-le, c ∈ Rn , A est une matrice m × n et b ∈ Rm . Son ensemble admissible
est noté
FP := {x ∈ Rn : Ax = b, x > 0}.
L’ensemble des itérés strictement admissibles est noté
FPo := {x ∈ Rn : Ax = b, x > 0}.
533
534
18. Optimisation linéaire : algorithmes de points intérieurs
Lorsqu’il est non vide, c’est l’intérieur relatif de FP (exercice 2.15). L’ensemble des
solutions de (P ) est noté SP .
La dualisation lagrangienne de (P ) conduit au problème dual suivant (voir la
section 17.3.1) :

 sup b⊤y
(D)
A⊤y + s = c

s > 0.
Son ensemble admissible est noté
FD := {(y, s) ∈ Rm × Rn : A⊤y + s = c, s > 0}.
On note aussi
FDo := {(y, s) ∈ Rm × Rn : A⊤y + s = c, s > 0},
qui, lorsqu’il est non vide, est l’intérieur relatif de FD . L’ensemble des solutions de
(D) est noté SD .
Les conditions d’optimalité de (P ) affirment que x est solution de ce problème si
et seulement si il existe un couple (y, s) ∈ Rm × Rn tel que l’on ait
 ⊤
 A y + s = c, s > 0
Ax = b, x > 0
(18.1)
 ⊤
x s = 0.
Ce sont aussi les conditions d’optimalité du problème dual : (y, s) est solution de (D)
si et seulement si il existe x ∈ Rn tel que l’on ait (18.1).
Nous désignerons par X = Diag(x1 , . . . , xn ) la matrice diagonale portant les composantes du vecteur x sur sa diagonale; de même S = Diag(s1 , . . . , sn ), etc. On utilisera constamment le vecteur
 
1
 .. 
e = .
1
dont la dimension se déduira clairement du contexte. Observons que Xe = x.
18.1 Le chemin central primal-dual
Le chemin central est une courbe située dans
F o := FPo × FDo = {z = (x, y, s) : Ax = b, A⊤y + s = c, x > 0, s > 0}
paramétrée par un scalaire µ > 0. C’est donc l’image d’une application
µ ∈ ]0, +∞[ 7→ z(µ) := (x(µ), y(µ), s(µ)) ∈ F o .
Celui-ci sert de guide aux itérés, les conduisant vers une solution primale-duale particulière du problème (P ). Pour qu’il soit défini, il faut évidemment que FPo et FDo
soient non vides, ce qui, d’après les propositions 17.11 et 17.13, peut s’exprimer en
termes primaux seulement :
18.1. Le chemin central primal-dual
FPo 6= ∅ et SP est non vide et borné.
535
(18.2)
On fera cette hypothèse dans toute cette section. La variable duale y(µ) ne sera définie
de façon univoque que si A est surjective.
Comme son nom l’indique, les points z(µ) sont “bien centrés” dans l’ensemble
admissible. On montrera que, sous certaines conditions, z(µ) émane (pour µ → +∞)
du centre analytique de l’ensemble admissible F := FP × FD pour aboutir (lorsque
µ ↓ 0) au centre analytique de la face optimale primale-duale S := SP × SD .
Définition et existence
Il y a plusieurs manières d’introduire le chemin central primal-dual (voir aussi l’exercice 18.5). Nous commencerons par utiliser la technique de perturbation des conditions
d’optimalité, qui est celle qui se généralise le plus facilement à des problèmes ne faisant
pas partie de l’optimisation (comme les problèmes de complémentarité). L’existence
du chemin central est cependant plus aisément démontrable si l’on revient dans le
domaine de l’optimisation en interprétant le système perturbé comme les conditions
d’optimalité d’un problème pénalisé. Nous considérerons les cas de la pénalisation des
problèmes dual et primal.
Les équations d’optimalité (18.1) sont formées de deux équations linéaires A⊤y +
s = c et Ax = b, qui à elles seules ne présentent pas trop de difficulté, ainsi que des
conditions
x⊤s = 0, x > 0, s > 0.
Ces dernières renferment toute la combinatoire du problème. Il y a en effet 2n façons
de les réaliser en choisissant, pour tout i, si c’est xi ou si qui est nul. On peut faire
disparaı̂tre cette combinatoire en perturbant chaque condition xi si = 0 en xi si = µ
(µ > 0 est un paramètre) et en imposant la stricte positivité de x et s :
On a noté
si
 ⊤
 A y + s = c, s > 0
Ax = b, x > 0

Xs = µe.
X = Diag(x1 , . . . , xn )
(18.3)
xi
et
e = (1 · · · 1)⊤.
Le graphique à droite dans (18.3) montre comment, dans l’espace (xi , si ), la courbe
non différentiable définie par xi si = 0 est transformée en la courbe différentiable
définie par xi si = µ. Au passage, cette observation montre le lien qu’il peut y avoir
entre combinatoire et non différentiabilité. Lorsqu’elle existe, la solution de ce système
perturbé (18.3) est un point central z(µ) = (x(µ), y(µ), s(µ)).
Nous venons d’exposer l’approche par perturbation. On peut aussi obtenir le système (18.3) par une technique de pénalisation. En effet, (18.3) sont les conditions d’optimalité du problème obtenu à partir du problème (P ) par pénalisation logarithmique
de sa contrainte de positivité :
inf c⊤x + µ lb(x)
(Pµ )
(18.4)
Ax = b,
536
où lb : Rn → R ∪ {+∞} est la fonction log-barrière définie en x ∈ Rn par (c’est une
fonction auto-concordante, voir l’exemple 15.2)
Pn
− i=1 log xi
si x > 0
lb(x) =
+∞
sinon.
En effet, comme les contraintes de (Pµ ) sont qualifiées (elles sont affines), il existe
un multiplicateur de Lagrange y ∈ Rm tel que l’on ait les conditions d’optimalité
suivantes :
⊤
A y + µX −1 e = c
Ax = b.
En posant s = µX −1 e, on retrouve (18.3). On appelle (Pµ ) le problème barrière
primal (les logarithmes dans lb forment une barrière empêchant x de quitter l’orthant
positif).
Une troisième manière d’introduire le chemin central est de pénaliser la contrainte de positivité s > 0 du problème dual. Lorsque FDo 6= ∅, on peut considérer le
problème :
sup b⊤y − µ lb(s)
(Dµ )
(18.5)
A⊤y + s = c.
Comme il s’agit d’un problème de maximisation, la pénalisation est obtenue en retranchant la barrière logarithmique (comparez avec le problème (Pµ )).
Intéressons-nous à présent à des conditions assurant l’existence du chemin central.
Le fait que le système d’optimalité (18.1), qui est non linéaire, ait une solution n’assure
en rien qu’il en est de même pour le système perturbé (18.3). Il faut certainement que
F o 6= ∅ (équivalente à (18.2)) et il se fait que cette condition est aussi suffisante. Elle
joue ici le rôle de la condition de qualification de Slater du système (18.1).
Proposition 18.1 (existence du chemin central) Si (18.2) a lieu et µ > 0,
alors le système (18.3) a une solution. Celle-ci est unique en x et s. Elle est
également unique en y si A est surjective.
Démonstration. D’après ce qui précède (x, y, s) est solution de (18.3) si et seulement si x est solution de (Pµ ) de multiplicateur y et si s = µX −1 e (la condition est
suffisante du fait de la convexité du problème (Pµ )). Il reste à montrer
que (Pµ ) a
Pn
une solution, car du fait de la stricte convexité de x 7→ c⊤x − µ i=1 log xi , celle-ci
est nécessairement unique en x et en s = µX −1 e.
On considère la fonction ψµ ∈ Conv(Rn ) définie par
ψµ (x) = c⊤x + µ lb(x) + I{x∈Rn :Ax=b} (x),
où IP désigne la fonction indicatrice de l’ensemble P . Ses minimiseurs sont ceux de
(Pµ ). Il suffit donc que sa fonction asymptotique ψµ∞ vérifie ψµ∞ (d) > 0 pour tout
d 6= 0, pour que (Pµ ) ait un ensemble non vide (et borné) de solutions (proposition 3.21). On observe que
0
si d > 0
lb∞ (d) =
+∞ sinon.
Dès lors
ψµ∞ (d) =
Si ψµ∞ (d) 6 0, on a
d 6= 0,
537
c⊤d si Ad = 0 et d > 0
+∞ sinon.
c⊤d 6 0,
Ad = 0 et
d > 0.
La bornitude de SP entraı̂ne alors que d = 0, ce qui démontre l’existence d’un minimiseur de ψµ , c’est-à-dire d’une solution de (Pµ ).
2
On notera
z(µ) := (x(µ), y(µ), s(µ))
un triplet solution de (18.3) (unique en x et s). Le chemin central est donc l’image de
l’application
µ ∈ ]0, +∞[ 7→ z(µ).
Propriétés
Nous allons montrer que, sous certaines conditions, le chemin central émane du centre
analytique de l’ensemble admissible FP (lorsque µ → +∞ et si FPo est non vide et
borné) pour aboutir au centre analytique de la face optimale (lorsque µ ↓ 0 et si SPo
est non vide et borné). Il nous faut d’abord définir ce que sont ces centres analytiques.
Proposition 18.2 (centre analytique de l’ensemble admissible) Si FPo est
non vide et borné, le problème
inf lb(x)
(18.6)
Ax = b
a une solution unique x̌ ∈ Rn caractérisée par les conditions suivantes :
Ax̌ = b,
x̌ > 0,
X̌ −1 e ∈ R(A⊤).
(18.7)
De même, si FDo est non vide et borné et si A est surjective, le problème
inf lb(s)
(18.8)
A⊤y + s = c (s > 0)
a une solution unique (y̌, š) ∈ Rm × Rn caractérisée par les conditions suivantes :
A⊤y̌ + š = c,
š > 0,
Š −1 e ∈ N (A).
(18.9)
Démonstration. Le problème (18.6) est celui obtenu par pénalisation logarithmique
du problème

 inf 0
Ax = b

x > 0.
538
Son ensemble de solution étant FP , qui par hypothèse est non vide et borné, la proposition 18.1 implique que (18.6) a une solution unique, soit x̌ ∈ Rn . Celle-ci est caractérisée par les conditions d’optimalité de (18.6) qui peuvent s’exprimer par (18.7).
La seconde partie se démontre de la même manière.
2
Lorsqu’elles existent, les solutions uniques de (18.6) et (18.8) sont appelées les
centres analytiques des ensembles admissibles FP et FD , respectivement. On utilise
le qualificatif “analytique”, car ce n’est pas une notion géométrique dans le sens
où elle ne dépend pas que de la forme de FP et FD , mais également des équations
que définissent ces ensembles. Ainsi, si l’on ajoute une contrainte superflue, c’est-àdire une contrainte ne modifiant pas l’ensemble admissible, son centre analytique est
déplacé (voir l’exercice 18.4). On pourrait penser que la notion géométrique de centre
de gravité serait un concept plus attrayant, mais son calcul n’est pas aisé, même si
l’ensemble est comme ici un polyèdre convexe [496 ; section 2.1.1].
Venons-en maintenant à la notion de centre analytique de la face optimale. On
rappelle les notations de la section 17.2.2 :
B
N
:= {i ∈ {1, . . . , n} : ∃ x ∈ SP vérifiant xi > 0}
:= {i ∈ {1, . . . , n} : ∃ (y, s) ∈ SD vérifiant si > 0}.
On sait que B et N forment une partition de {1, . . . , n} (propositions 17.7 et 17.8) et
que l’ensemble des solutions de (P ) est la face de FP , appelée aussi face optimale de
FP , définie par
SP = {x ∈ FP : xN = 0}.
On note son intérieur relatif
SPo = {x ∈ FP : xB > 0, xN = 0}.
(18.10)
Proposition 18.3 (centre analytique de la face optimale) 1) Si SP est non
vide et borné et si B 6= ∅, le problème
inf lb(xB )
(18.11)
Ax = b, xN = 0 (xB > 0)
a une solution unique x̂ ∈ Rn , caractérisée par les conditions
Ax̂ = b,
x̂B > 0,
x̂N = 0,
−1
X̂B
e ∈ R(A⊤
B ).
(18.12)
2) De même si SD est non vide et borné (donc A est surjective) et si N 6= ∅, le
problème
inf lb(sN )
(18.13)
A⊤y + s = c, sB = 0 (sN > 0)
a une solution unique (ŷ, ŝ) ∈ Rm × Rn , caractérisée par les conditions
A⊤ŷ + ŝ = c,
ŝB = 0,
ŝN > 0,
−1
e ∈ R(AB ).
AN ŜN
(18.14)
539
Démonstration. En ne considérant que les variables d’indices dans B (xN étant fixé
à 0), le problème (18.11) est obtenu par pénalisation logarithmique du problème

 inf 0⊤xB
AB xB = b

xB > 0.
Par l’hypothèse B 6= ∅, {xB : AxB = b, xB > 0} est non vide et l’ensemble des
solutions de ce problème (qui se confond avec son ensemble admissible, c’est-à-dire
SP ) est non vide et borné. Par la proposition 18.1, (18.11) a une solution unique. Celleci est caractérisée par les conditions d’optimalité de (18.11) qui peuvent s’exprimer
par (18.12).
La seconde partie se démontre de la même manière.
2
Lorsqu’ils existent, les points x̂ et (ŷ, ŝ) définis par (18.12) et (18.14) sont appelés
les centres analytiques des faces optimales.
On peut à présent décrire le chemin central. On sera amené à comparer le comportement de quantités (éventuellement vectorielles) qui dépendent du paramètre µ.
Ainsi si µ 7→ v(µ) et µ 7→ w(µ) sont deux fonctions de µ, on notera :
• v = O(w) s’il existe une constante positive C (indépendante de µ) telle que
lorsque µ ↓ 0 on a v(µ) 6 Cw(µ) (inégalité vectorielle),
• v ∼ w si v = O(w) et w = O(v).
Avec ces notations, v = O(1) signifie que {v(µ)}µ↓0 est bornée et v ∼ 1 signifie que
{v(µ)}µ↓0 et {v(µ)−1 }µ→0+ sont bornées.
On trouvera à l’exercice 18.6 un résultat précisant le point (ii).
Proposition 18.4 (description du chemin central) Supposons que (18.2)
ait lieu. Alors
(i) si A est surjective, x > 0 et s > 0, alors la matrice


0 A⊤ I
A 0
0
S 0 X
(ii)
(iii)
(iv)
(v)
est inversible et l’application µ 7→ z(µ) définissant le chemin central est de
classe C ∞ ;
si µ croı̂t, c⊤x(µ) et x(µ)⊤s(µ) croissent et b⊤y(µ) décroı̂t;
pour µ̄ > 0 fixé, les ensembles {x(µ) : 0 < µ 6 µ̄} et {s(µ) : 0 < µ 6 µ̄} sont
bornés; si A est surjective, l’ensemble {y(µ) : 0 < µ 6 µ̄} est aussi borné;
si FP est borné, x(µ) converge vers le centre analytique de FP , lorsque µ →
+∞; de même si FD est borné (donc A surjective), (y(µ), s(µ)) converge
vers le centre analytique de FD , lorsque µ → +∞;
si µ ↓ 0, on a xB (µ) ∼ 1, xN (µ) ∼ µ, sB (µ) ∼ µ, sN (µ) ∼ 1 et (x(µ), s(µ))
→ (x̂, ŝ) le centre analytique des faces optimales.
540
Démonstration. (i) L’application µ 7→ z(µ) est fonction implicite de F (z, µ) = 0,
où
 ⊤

A y+s−c
F (z, µ) =  Ax − b  .
Xs − µe
Comme F est C ∞ , la fonction implicite sera C ∞ si la matrice Fz′ (z, µ) (celle donnée
au point (ii)) est inversible pour z = z(µ). C’est bien le cas, car si (dx, dy, ds) est
dans son noyau, on trouve successivement
ds = −X −1 Sdx,
dx = S −1 XA⊤dy
et AS −1 XA⊤dy = 0.
Comme A est surjective et (x, s) > 0, la matrice AS −1 XA⊤ est inversible, ce qui
implique que (dx, dy, ds) = 0.
(ii) Ce résultat se démontre comme dans la théorie de la pénalisation (proposition
12.2), en considérant les problèmes pénalisés (Pµ ) et (Dµ ). Pour le saut de dualité,
on utilise x(µ)⊤s(µ) = c⊤x(µ) − b⊤y(µ). (Voir aussi l’exercice 18.6 pour un résultat
plus précis et une démonstration directe lorsque A est surjective.)
(iii) Comme SP est borné, l’ensemble {x ∈ Rn : Ax = b, x > 0, c⊤x 6 c⊤x(µ̄)} est
aussi borné (ils ont le même cône asymptotique). Or x(µ) est dans ce dernier ensemble
lorsque µ ∈ ]0, µ̄] (par le point (ii)), donc {x(µ)}0<µ6µ̄ est borné.
De même, comme FPo 6= ∅, l’ensemble {s ∈ R+ : il existe y ∈ Rm tel que A⊤y +s =
c et b⊤y > b⊤y(µ̄)} est borné (les deux ensembles ont le même cône asymptotique
{r ∈ R+ : il existe z ∈ Rm tel que A⊤z + r = 0, et b⊤z > 0}). Comme s(µ) appartient
à cet ensemble lorsque µ ∈ ]0, µ̄] (par le point (ii)), {s(µ)}0<µ6µ̄ est bornée.
Si A est surjective, l’équation A⊤y(µ) + s(µ) = c montre que {y(µ) : 0 < µ 6 µ̄}
est aussi borné.
(iv) Si FP est borné, {x(µ)} ⊂ FP est bornée. Il suffit donc de montrer que cette
suite a un unique point d’adhérence quand µ → ∞, qui est le centre analytique x̌.
Soit x̄ un point adhérent à {x(µ)} : pour une sous-suite x(µ) → x̄. Comme x(µ) est
la solution de (Pµ ), on a quel que soit x ∈ FPo :
c⊤x(µ) + µ lb(x(µ)) 6 c⊤x + µ lb(x).
En divisant par µ > 0 et en passant à la limite quand µ → ∞, on trouve pour tout
x ∈ FPo :
lb(x̄) 6 lb(x).
Ceci montre que x̄ = x̌.
On s’y prend de la même manière pour (y(µ), s(µ)). Par optimalité, pour tout
couple (y, s) ∈ FDo , on a
b⊤y(µ) − µ lb(s(µ)) > b⊤y − µ lb(s).
(v) Soit (x̄, ȳ, s̄) une solution strictement complémentaire (proposition 17.8). On
réduit le saut de dualité x⊤s en remplaçant x par x̄ :
x̄⊤s(µ) 6 x(µ)⊤s(µ) = nµ.
Comme x̄N = 0, x̄⊤
B sB (µ) 6 nµ. Mais x̄B > 0, donc sB (µ) = O(µ). Alors, de
xi (µ)si (µ) = µ, pour tout i, on déduit que 1 = O(xB (µ)). Mais {xB (µ)} est bornée,
18.2. Remarques générales sur les algorithmes
541
donc xB (µ) ∼ 1. En utilisant à nouveau xi (µ)si (µ) = µ, pour tout i, on déduit que
sB (µ) ∼ µ.
De la même manière,
x(µ)⊤s̄ 6 x(µ)⊤s(µ) = nµ.
Comme s̄B = 0 et s̄N > 0, on a xN (µ) = O(µ). En utilisant alors xi (µ)si (µ) = µ, on
a sN (µ) ∼ 1 ({s(µ)} bornée) et donc xN (µ) ∼ µ.
Il reste à montrer que (x(µ), y(µ), s(µ)) converge vers le centre analytique de la
face optimale lorsque µ ↓ 0. Comme {(x(µ), s(µ))} est bornée, il existe des sous-suites
telles que
x(µ) → x̃ et s(µ) → s̃.
Passons à la limite dans (18.3). Comme A⊤y(µ) = c − s(µ) converge et que R(A⊤)
est fermé, il existe ỹ ∈ Rm tel que l’on ait
 ⊤
 A ỹ + s̃ = c
Ax̃ = b

X̃ s̃ = 0.
Donc z̃ = (x̃, ỹ, s̃) est solution primale-duale. Dès lors x̃N = 0 et s̃B = 0. D’autre part,
−1
(xB (µ), sN (µ)) ∼ 1 implique que (x̃B , s̃N ) > 0. Il reste à montrer que X̃B
e ∈ R(A⊤
B)
−1
et AN S̃N e ∈ R(AB ) pour conclure.
Comme (xN (µ), sB (µ)) ∼ µ, il existe une sous-suite telle que (xN (µ), sB (µ))/µ →
(x′N , s′B ). À la limite dans X(µ)s(µ)/µ = e, on trouve
−1
X̃B
e = s′B
−1
e = x′N .
et S̃N
D’autre part Ax(µ) = b = AB x̄B (car x̄N = 0), donc
−AB
xN (µ)
xB (µ) − x̄B
= AN
→ AN x′N .
µ
µ
⊤
Comme R(AB ) est fermé, AN x′N ∈ R(AB ). De même A⊤
B y(µ) + sB (µ) = cB = AB ȳ
(car s̄B = 0), donc
ȳ − y(µ)
sB (µ)
A⊤
=
→ s′B .
B
µ
µ
′
⊤
Comme R(A⊤
B ) est fermé, sB ∈ R(AB ).
2
18.2 Remarques générales sur les algorithmes
Cheminement
Résoudre le problème d’optimisation (P ) revient à résoudre ses conditions d’optimalité
(18.1), lesquelles sont nécessaires et suffisantes. En apparence simple, ce système
d’équations et d’inéquations présente plusieurs difficultés, toutes liées aux conditions
de complémentarité x⊤s = 0 et de positivité (x, s) > 0. D’une part la première
équation est non linéaire. D’autre part elle présente une “combinatoire” importante.
542
Elle s’écrit en effet xi si = 0, pour tout i = 1, . . . , n : il faut donc décider pour tout
indice i si xi = 0 ou si = 0, et il y a 2n possibilités.
Si on a un premier itéré primal-dual z := (x, y, s) avec x > 0 et s > 0, on pourrait
songer à résoudre le système d’optimalité (18.1) directement par des itérations de
Newton amorties : à chaque itération, on détermine un pas α > 0 le long de la direction
de Newton d := (dx, dy, ds) de telle sorte que l’itéré suivant z+ := (x+ , y+ , s+ ) =
z + αd vérifie encore x+ > 0 et s+ > 0. On sait en effet que la stricte positivité des
variables x et s assure que l’équation de Newton

 
 ⊤

dx
0 A⊤ I
A y+s−c
A 0
0  dy  = −  Ax − b  ,
S 0 X
ds
Xs
associée au système d’optimalité est bien définie (la matrice est inversible par la proposition 18.4). L’expérience à montré que cette stratégie, qui est suivie par l’algorithme
affine (“affine scaling algorithm”), ne conduit pas à des algorithmes polynomiaux. La
raison vient de ce que le pas α > 0 le long de d, assurant l’admissibilité des itérés, peut
devenir très petit, empêchant tout progrès significatif vers la solution. Pour obtenir
la polynomialité, il faut être moins gourmand, ne pas chercher à résoudre le système
non linéaire (18.1) directement.
Il est difficile de renoncer à la direction de Newton, dont on connaı̂t les qualités, si
bien que le fait de faire des déplacements le long de telles directions est conservé dans
les algorithmes de points intérieurs considérés dans ce chapitre. De manière à prévenir
le phénomène des petits pas décrit ci-dessus, les algorithmes vont maintenir les itérés
suffisamment proches du chemin central étudié à la section 18.1. Nous montrerons en
effet dans chaque cas que, dans ces conditions, le pas α pris le long de la direction de
Newton est borné inférieurement par une constante strictement positive en O(n−ω ),
où ω > 0 dépend de l’approche algorithmique, en particulier du type de voisinage du
chemin central où sont maintenus les itérés. Même si l’on peut regretter que la borne
inférieure sur le pas dépende de n (il ne semble pas possible d’éviter cela), on est au
moins assuré que les pas ne deviendront pas arbitrairement petits. Cette dépendance
en n aura une incidence directe sur la complexité itérative des algorithmes, c’est-à-dire
sur le nombre d’itérations qu’ils requièrent pour s’approcher d’une solution à ε > 0
près.
Pour des raisons évidentes, on dit que les algorithmes qui viennent d’être brièvement décrits sont des méthodes de suivi de chemin. La solution que l’on recherche
par ces algorithmes, le centre analytique de la face optimale situé au bout de chemin
central, est un point singulier parce que la jacobienne du système de Newton n’y est
en général pas inversible. On ne peut donc pas appliquer directement les techniques
de suivi de chemin que l’on utilise dans les méthodes d’homotopie par exemple. Celles
mises en œuvre pour suivre le chemin central dans les méthodes de points intérieurs
sont originales. Elles dépendent des algorithmes, mais elles relèvent presque toujours
d’un principe que l’on peut voir comme la poursuite d’un objectif fuyant, ce que l’on a
schématisé à la figure 18.1 : en l’itéré zk ∈ F o de l’itération k, on se fixe pour objectif
un point z(µk ) sur le chemin central C , mais après avoir fait un pas de Newton dans
sa direction (parfois plusieurs pas) conduisant à zk+1 , on change d’objectif en visant
un autre point z(µk+1 ) sur le chemin central, plus près de la solution (µk+1 < µk ).
18.2. Remarques générales sur les algorithmes
z2
z4
543
C
z(µ1 )
z(µ2 )
z1
z(µ3 )
z3
S
Fig. 18.1. Poursuite d’un objectif fuyant
On se rapproche ainsi petit à petit de la solution cherchée, laquelle est en quelque
sorte inaccessible directement. Ce principe s’est avéré fécond.
Certains algorithmes imposent aux itérés d’être strictement admissibles (section 18.3). Leur complexité itérative est en O(nω log ε−1 ), avec ω = 12 ou 1, ce qui
veut dire que le nombre d’itérations pour atteindre une solution à ε > 0 près est
majoré par une constante (indépendante de n et de ε) fois nω log ε−1 (une définition
précise de cette complexité itérative sera donnée plus loin). La complexité itérative
en O(n1/2 log ε−1 ) est la meilleure que l’on ait obtenue; mais les algorithmes qui
la réalisent demandent que l’on dispose d’un premier itéré strictement admissible.
D’autres algorithmes autorisent les itérés à ne pas satisfaire les équations linéaires de
(18.1), ce qui peut être utile s’il n’y a pas de point primal-dual strictement admissible (c’est-à-dire si F o = ∅) ou si l’on ne dispose pas initialement d’un tel point.
Leur complexité itérative est moins bonne; elle est en O(n2 log ε−1 ) pour l’algorithme
étudié à la section 18.4.
Voici à présent quelques concepts qui jouent un rôle-clé dans l’étude des algorithmes de points intérieurs.
Mesures du saut de dualité et du centrage
Le contrôle des itérés dans les algorithmes de points intérieurs se fait par plusieurs
“mesures” : mesure du saut de dualité, mesure du centrage et mesure de l’admissibilité.
Si on veut se donner une cible sur le chemin central primal-dual C , il est nécessaire
de savoir près de quel point central l’itéré courant z se trouve. Il n’y aurait en effet
pas de sens à se donner une cible qui soit plus éloignée de la solution que ne l’est
l’itéré courant. Trouver le point central le plus proche de z n’est cependant pas un
problème simple, ni d’ailleurs bien posé car, le chemin central n’étant pas un convexe
fermé, la projection de z sur C n’est en général pas bien définie (proposition 2.18).
Par contre, l’image de C par l’application surjective (et bijective si A est surjective,
voir l’exercice 18.2)
p : z = (x, y, s) ∈ F o 7→ (x1 s1 , . . . , xn sn ) ∈ Rn++
(18.15)
est la demi-droite {µe : µ > 0}, si bien que la projection dans l’espace d’arrivée de
cette application se fait trivialement en résolvant le problème
544
x 2 s2
p(C)
µ̄(z)e
min kXs − µek2 .
Xs
µ∈R
x 1 s1
Sa solution est la moyenne arithmétique des produits xi si :
µ̄ ≡ µ̄(z) :=
x⊤s
.
n
On l’appelle la mesure du saut de dualité (ou plus simplement le saut de dualité; il
s’agit alors d’un abus de langage car, d’après le théorème 17.11, il n’y a pas de saut de
dualité en la solution d’un problème d’optimisation linéaire). Les algorithmes devront
faire tendre µ̄(z) vers 0.
Pour z = (x, y, s) ∈ F o :
z∈C
⇐⇒
Xs = µ̄(z)e.
Un point z ∈ F o est donc proche du chemin central si k(Xs)/µ̄(z) − ek est petit
devant 1 ou encore si kXs − µ̄(z)ek est petit devant µ̄(z). On appelle mesure du
centrage pour la norme ℓp , p ∈ [1, ∞], la quantité
γp (z) := kXs − µ̄(z)ekp .
Divers voisinages du chemin central sont associés à ce concept de centrage.
On définit une première famille de voisinages, paramétrés par p ∈ [1, ∞] et θ ∈
[0, 1[, par
Vp (θ) := {z ∈ F o : kXs − µ̄(z)ekp 6 θµ̄(z)}.
(18.16)
Dans cette famille de voisinages, on utilisera essentiellement V2 (θ), qui donne les
meilleurs résultats de complexité. Cependant, il est parfois trop petit,
ne laissant pas
S
assez de liberté aux itérés. On montre en effet que pour n > 2, 06θ<1 V2 (θ) 6= F o .
Cette affirmation est examinée à l’exercice 18.7.
On fera aussi usage de
−
V∞
(θ) := {z ∈ F o : Xs > (1−θ)µ̄(z)e},
(18.17)
où θ S
∈ [0, 1[. Ce voisinage contient V∞ (θ) et est assez grand puisque l’on peut montrer
−
(θ) = F o . On se référera à nouveau à l’exercice 18.7 pour un examen
que 06θ<1 V∞
de ces affirmations.
Sur la complexité itérative des algorithmes
Contrairement à l’algorithme du simplexe, les méthodes de points intérieurs ne sont
pas des algorithmes à terminaison finie : ils ne trouvent pas la solution en un nombre
fini d’étapes. En effet, à chaque itération, on a x > 0 et s > 0, ce qui n’est jamais
le cas en une solution de (P ) (voir la troisième condition dans (18.1)). On ne peut
donc estimer que le nombre d’opérations pour trouver une solution à ε > 0 près. La
18.3. Algorithmes avec itérés admissibles
545
proximité de la solution se mesurera ici par la petitesse du saut de dualité µ̄(z). En
réalité, lorsque µ̄(z) est assez petit, il existe des procédures permettant de déterminer
une solution exacte en un nombre polynomial d’opérations (voir par exemple [495]).
On ne s’intéressera ici qu’à la complexité itérative des algorithmes. On veut dire
par là que l’on cherche à estimer le nombre d’itérations nécessaires pour obtenir une
solution à ε > 0 près, dans le pire des cas. Les résultats que nous donnerons sur cette
question feront usage du lemme suivant. On note {zk } la suite des itérés générés par
l’algorithme considéré et µ̄k = µ̄(zk ).
Lemme 18.5 (de complexité) Supposons qu’il existe des constantes δ > 0 et
ω > 0, telles que pour tout k > 0, les itérés {zk } vérifient
δ
µ̄k+1 6 1 − ω µ̄k .
n
Alors, pour tout ε ∈ ]0, 1] et tout k > (nω log ε−1 )/δ, on a
µ̄k
6 ε.
µ̄0
Démonstration. En prenant le logarithme de l’inégalité donnée dans l’énoncé et en
utilisant le fait que log(1 + t) 6 t, on a
δ
δ
log µ̄k+1 6 log 1 − ω + log µ̄k 6 − ω + log µ̄k .
n
n
Par récurrence
log
kδ
µ̄k
6 − ω.
µ̄0
n
Dès lors µ̄k /µ̄0 6 ε si −kδ/nω 6 log ε, ce qui s’écrit aussi k > (nω log ε−1 )/δ.
2
En pratique, on cherche à avoir un saut de dualité inférieur à un seuil donné ε > 0 :
µ̄k 6 ε,
plutôt que l’inégalité relative µ̄k 6 ε µ̄0 fournie par le lemme. Le résultat reste le
même, mais avec K qui dépend de µ̄0 > 0. En effet, on peut écrire µ̄0 = ε1−κ pour un
certain κ > 0 (éventuellement grand) dépendant donc de l’itéré initial. On utilise alors
le lemme avec ε/µ̄0 = εκ au lieu de ε : pour tout ε > 0 et tout k > K := O(nω log ε−1 ),
on a µ̄k 6 ε.
18.3 Algorithmes avec itérés admissibles
18.3.1 Préliminaires
Les algorithmes étudiés dans cette section génèrent des itérés strictement admissibles,
c’est-à-dire dans F o . Dès lors, les résidus sont toujours nuls : rc = 0 et rb = 0. Chaque
546
nouvel itéré z+ est obtenu à partir du précédent z en se déplaçant le long de la
direction de Newton d, solution de (18.34), qui s’écrit ici

  

0 A⊤ I
dx
0
A 0
.
0  dy  = 
0
(18.18)
ds
µe − Xs
S 0 X
Du fait de la linéarité des résidus et de l’utilisation de la direction de Newton pour
mettre à jour les itérés, on voit qu’il suffit que les premiers résidus rc et rb soient nuls
pour que les suivants le soient aussi. Par exemple, si rb (z) = 0, on a en z+ = z + αd :
rb (z+ ) = rb (z) + αAdx = 0. De même pour rc .
Pour que les algorithmes soient bien posés et convergent, il faudra que les itérés
conservent la stricte positivité de x et s et fassent décroı̂tre le saut de dualité µ̄(z)
vers 0. On comprend que l’analyse des algorithmes passe par l’examen de l’évolution
du saut de dualité µ̄(z) et de la mesure du centrage γ2 (z) := kXs − µ̄(z)ek2 le long
de la direction de Newton. C’est ce qu’étudie le lemme suivant. On suppose que le
paramètre µ est de la forme σ µ̄, avec σ > 0.
Lemme 18.6 (évolution du saut de dualité et du centrage) Soit d = (dx,
dy, ds) la direction de Newton en z = (x, y, s) ∈ F o , avec µ := σ µ̄, σ > 0. On
note z(α) := z + αd. Alors les relations suivantes sont vérifiées :
(i) µ̄(z(α)) = [1 − α(1 − σ)]µ̄,
(ii) γ2 (z(α)) 6 (1 − α)γ2 (z) + α2 kdXdsk2 .
Démonstration. On a
xi (α)si (α) = (xi + αdxi )(si + αdsi ) = xi si + α(si dxi + xi dsi ) + α2 dxi dsi . (18.19)
En sommant et en utilisant le fait que dx⊤ds = 0 (car Adx = 0 et A⊤dy + ds = 0) :
µ̄(z(α)) = µ̄ +
α ⊤
(s dx + x⊤ds).
n
On utilise ensuite le fait que s⊤dx+x⊤ds = e⊤(Sdx+Xds) = e⊤(σ µ̄e−Xs) = n(σ−1)µ̄
pour trouver (i).
En reprenant (18.19) et en utilisant si dxi + xi dsi = σ µ̄ − xi si ainsi que la valeur
trouvée pour µ̄(z(α)), on a
xi (α)si (α) − µ̄(z(α))
On en déduit (ii).
= (1 − α)xi si + (α − 1)µ̄ + α2 dxi dsi
= (1 − α)(xi si − µ̄) + α2 dxi dsi .
2
Le point (i) du lemme précédent montre qu’en prenant σ = 0 et en faisant un pas
unité (α = 1), on annule le saut de dualité. Il est peu probable cependant que cela
conduise en une solution car il y a de fortes chances pour qu’en chemin on ait perdu
la positivité des variables x et s (même si l’on a conservé la somme des xi si positive).
Le point (ii) montre que le contrôle du centrage γ2 (z(α)) passe par celui de
kdXdsk2 . L’estimation de dXds sera toujours un passage-clé des démonstrations
547
de convergence des algorithmes. On utilisera à plusieurs reprises la technique suivante. On observe que la dernière équation du système de Newton (18.18) s’écrit
1
Sdx + Xds = µ − Xs. En la multipliant par (XS)− 2 , elle devient
1
D−1 dx + Dds = (XS)− 2 (µe − Xs),
où
(18.20)
1
1
D = X 2 S− 2 .
Le lemme de Mizuno ci-dessous donne alors un moyen de relier la quantité dXds =
(D−1 dX)(Dds) qui nous intéresse à la somme des deux vecteurs D−1 dx + Dds, dont
on a une autre expression en (18.20).
Lemme 18.7 (Mizuno [350]) Si u, v ∈ Rn vérifient u⊤v > 0 et si U :=
Diag(u1 , . . . , un ), alors
1
kU vk2 6 √ ku + vk22 .
8
Démonstration. On a
kU vk22 =
n
X
(ui vi )2 6
X
ui vi
ui vi <0
i=1
!2
X
+
ui vi
ui vi >0
!2
,
parce P
que les doubles produits
à droite sont tous positifs. La relation u⊤v > 0 s’écrit
P
aussi ui vi <0 |ui vi | 6 ui vi >0 ui vi et comme αβ 6 (α + β)2 /4, on obtient
kU vk22
62
X
ui vi >0
ui vi
!2
1
6
8
X
2
(ui + vi )
ui vi >0
!2
=
1
ku + vk42 .
8
2
18.3.2 Algorithme des petits déplacements
L’algorithme des petits pas est conceptuellement l’un des plus simples. Sa très
faible complexité itérative est obtenue de la manière suivante (voir la figure 18.2).
L’algorithme fait des déplacements de Newton complets, avec pas α = 1, si bien
que µ̄(z+ ) = σ µ̄(z) (lemme 18.6). On ne peut pas alors prendre σ trop petit, sous
peine de sortir de F o , comme lorsque σ = 0. En prenant σ = 1 − δ/n1/2 comme
facteur de réduction de µ̄ (δ > 0 étant une constante), on s’assure d’une part de
rester dans un voisinage V2 (θ) (avec θ ∈ ]0, 1[ fixé) et d’autre part d’une complexité
en O(n1/2 log ε−1 ) (voir le lemme de complexité 18.5). Pour que les itérés restent dans
le voisinage V2 (θ), une relation doit relier θ et δ, à savoir :
θ
√
δ 2 + θ2
6 8.
(1 − δ)(1 − θ)θ
2/5
(18.21)
2/5
δ
548
d (avec σ = 1)
z+
d
z
C
V2 (θ)
d (avec σ = 0)
S
Fig. 18.2. Algorithme des petits déplacements
Elle est vérifiée pour (δ, θ) dans la zone représentée dans la figure ci-dessus, par
exemple pour δ = θ = 2/5.
Algorithme 18.8 (PIL petits pas)
On se donne θ et δ vérifiant (18.21) et :
– un voisinage du chemin central V2 (θ),
– un facteur de réduction de µ̄ : σ = 1 − δ/n1/2 .
L’itéré courant z est supposé dans V2 (θ).
L’itéré suivant z+ ∈ V2 (θ) s’obtient par les étapes suivantes.
1. Calcul de la direction de Newton d, solution de (18.18) avec µ = σ µ̄(z).
2. Nouvel itéré : z+ = z + d.
L’analyse de cet algorithme commence par l’estimation de kdXdsk2 (lemme 18.9),
suivie d’une estimation de µ̄(z+ ) (lemme 18.10). On peut alors conclure grâce au
lemme de complexité.
Lemme 18.9 Dans l’algorithme 18.8, on a
kdXdsk2 6
θ2 + n(1−σ)2
√
µ̄.
8(1−θ)
Démonstration. L’identité (18.20) et le lemme de Mizuno (qui s’applique car
(D−1 dx)⊤(Dds) = 0) permettent d’écrire
1
1
kdXdsk2 = k(D−1 dX)(Dds)k2 6 √ k(XS)− 2 (σ µ̄e − Xs)k22 .
8
D’une part, lorsque z ∈ V2 (θ), on a xi si > (1 − θ)µ̄. Dès lors
1
k(XS)− 2 k22 =
1
1
6
.
mini xi si
(1−θ)µ̄
549
D’autre part, on écrit σ µ̄e−Xs = (µ̄e−Xs)−(1−σ)µ̄e et on observe que e⊤(µ̄e−Xs) =
0. Dès lors, pour des z ∈ V2 (θ), on a
kσ µ̄e − Xsk22 = kµ̄e − Xsk22 + n(1−σ)2 µ̄2 6 θ2 µ̄2 + n(1−σ)2 µ̄2 .
En utilisant ces deux dernières majorations dans la première, on obtient le résultat.
2
Lemme 18.10 Si θ ∈ ]0, 1[ et δ ∈ ]0, 1[ vérifient (18.21), alors z+ ∈ V2 (θ) et
δ
µ̄(z+ ) = 1 − 1/2 µ̄(z).
n
Démonstration. D’après le point (i) du lemme 18.6 et α = 1, on a
µ̄(z+ ) = σ µ̄.
En utilisant l’expression choisie pour σ, on en déduit la formule de µ̄(z+ ) de l’énoncé.
Il reste à montrer que z+ ∈ V2 (θ). D’après le point (ii) du même lemme, le lemme
précédent, on a pour tout α ∈ [0, 1] :
γ2 (z(α))
6
6
θ2 + n(1−σ)2
√
µ̄
8(1−θ)
θ2 + n(1−σ)2
√
µ̄,
θ 1−α+α
8(1−θ)θ
(1 − α)γ2 (z) + α2
(18.22)
où on a utilisé le fait que z ∈ V2 (θ) et α 6 1. Dès lors, compte tenu du fait que
µ̄(z(α)) = (1 − α + ασ)µ̄ (voir le point (i) du lemme 18.6), on a
γ2 (z(α)) 6 θµ̄(z(α)),
∀α ∈ [0, 1],
(18.23)
si la fraction dans (18.22) est inférieure à σ. C’est ce qui impose à σ d’être une fonction
de n. En prenant σ = 1 − δ/n1/2 comme dans l’algorithme, on voit qu’il faut que l’on
ait
θ2 + δ 2
δ
√
6 1 − 1/2 .
n
8(1−θ)θ
Cette inégalité est la plus restrictive lorsque n = 1 : c’est l’inégalité (18.21) qui est
vérifiée. L’estimation (18.23) que nous venons de démontrer implique que γ2 (z+ ) 6
θµ̄(z+ ) et que xi (α)si (α) > 0 pour tout α ∈ [0, 1]. Donc les composantes de x(α) et
s(α) ne peuvent s’annuler. Comme elles sont strictement positives en α = 0, elles le
reste en α = 1. Dès lors z+ ∈ V2 (θ).
2
L’estimation obtenue dans le lemme précédent et le lemme de complexité 18.5
permettent d’obtenir facilement le résultat de convergence et de complexité itérative
suivant.
Théorème 18.11 (convergence et complexité de l’algorithme des petits
déplacements) L’algorithme 18.8 converge (µ̄k → 0 q-linéairement) et pour tout
ε > 0, il existe un indice K = O(n1/2 log ε−1 ) tel que µ̄k 6 εµ̄0 , dès que k > K.
550
Même si la réduction du saut de dualité µ̄k par le facteur 1 − δ/n1/2 assure à
l’algorithme des petits déplacements la meilleure complexité itérative obtenue à ce
jour, µ̄k tend vers zéro assez lentement lorsque n est grand. Par exemple, si on prend
δ = 2/5 et si n = 104 , il faudra 575 itérations pour réduire le saut de dualité d’un
facteur 10. C’est beaucoup. Cet algorithme n’est donc guère utilisé en pratique. Il
nous a toutefois permis de présenter de manière concise un des meilleurs résultats de
complexité que peuvent apporter les méthodes de points intérieurs en optimisation
linéaire.
18.3.3 Algorithme des grands déplacements
On obtient de plus grands déplacements, et donc une efficacité numérique meilleure
−
en pratique, en utilisant V∞
(θ) comme voisinage du chemin central devant contrôler
les itérés. La complexité itérative théorique est cependant moins bonne; elle est
en O(n log ε−1 ). Dans l’algorithme proposé ci-dessous, on prend un pas α le long
de la direction de Newton le plus grand possible.
Algorithme 18.12 (PIL grands pas)
On se donne :
−
– un voisinage du chemin central V∞
(θ), avec θ ∈ ]0, 1[,
– des bornes 0 < σmin < σmax < 1 pour le facteur de réduction de µ̄.
−
L’itéré courant z est supposé dans V∞
(θ).
−
L’itéré suivant z+ ∈ V∞ (θ) s’obtient par les étapes suivantes.
1. Choix de σ ∈ [σmin , σmax ].
2. Calcul de la direction de Newton d, solution de (18.18) avec µ = σ µ̄(z).
−
3. Calcul du pas α le plus grand possible dans ]0, 1] tel que z + αd ∈ V∞
(θ).
4. Nouvel itéré : z+ = z + αd.
−
Typiquement, on prend θ = 0.99, ce qui permet à V∞
(θ) d’occuper une grande partie
o
de F . L’étape 3 demande de calculer le plus grand pas α permettant à z(α) = z + αd
−
de rester dans V∞
(θ). Il faut donc vérifier que xi (α)si (α) > (1−θ)µ̄(z(α)) pour tout i.
Comme xi (α), si (α) et µ̄(z(α)) dépendent linéairement de α (lemme 18.6), on voit
que cela revient à trouver les racines de n fonctions quadratiques.
L’analyse de l’algorithme 18.12 commence par l’estimation de kdXdsk2 .
Lemme 18.13 Dans l’algorithme 18.12, on a
n(2−θ)
kdXdsk2 6 √
µ̄.
8(1−θ)
Démonstration. Comme (D−1 dx)⊤(Dds) = 0, on peut appliquer le lemme de
Mizuno sur l’identité (18.20). Cela donne
1
1
kdXdsk2 6 √ k(XS)− 2 (σ µ̄e − Xs)k22 .
8
551
−
Lorsque z ∈ V∞
(θ), on a xi si > (1 − θ)µ̄. Dès lors, en développant le carré
kdXdsk2
6
6
6
1
1
1
√ kσ µ̄(XS)− 2 e − (XS) 2 ek22
8
n
1
2 2
√
σ µ̄
− 2nσ µ̄ + nµ̄
(1 − θ)µ̄
8
1
1
√
+ 1 nµ̄,
(1
−
θ)
8
où on a majoré σ 2 6 1 et négligé −2nσ µ̄ 6 0.
2
Lemme 18.14 Dans l’algorithme 18.12, il existe une constante δ indépendante de n
telle que
δ
µ̄(z).
µ̄(z+ ) 6 1 −
n
Démonstration. Il s’agit d’obtenir une borne inférieure sur le pas maximal α per−
mettant de rester dans V∞
(θ), qui soit en O(n−1 ). Le résultat se trouve alors en
appliquant le point (i) du lemme 18.6.
D’après le lemme précédent, il existe une constante C1 > 0 indépendante de n
telle dxi dsi > −C1 nµ̄. En utilisant (18.19) comme dans le lemme 18.6, l’équation de
−
Newton et xi si > (1 − θ)µ̄ (car z ∈ V∞
(θ)), on trouve pour t > 0 :
xi (t)si (t)
= (1 − t)xi si + tσ µ̄ + t2 dxi dsi
> (1 − t)(1 − θ)µ̄ + tσ µ̄ − C1 t2 nµ̄.
D’après le point (i) du lemme 18.6, µ̄(z(t)) = (1 − t + tσ)µ̄. Alors l’inégalité ci-dessus
montre que l’on aura xi (t)si (t) > (1−θ)µ̄(z(t)) ≡ (1−θ)(1−t+tσ)µ̄ et xi (t)si (t) > 0 si
t6
θσ
C1 n
et t <
1
.
1−σ
Comme α est le plus grand t > 0 tel que xi (t)si (t) > (1 − θ)µ̄(z(t)), xi (t) > 0 et
si (t) > 0, pour tout i, on a
1
θσ
.
,
α > min
C1 n 2(1 − σ)
On note à présent qu’avec les bornes encadrant σ ∈ [σmin , σmax ], on a σ(1 − σ) >
C2 , une constante strictement positive indépendante de n. Dès lors, la formule de
µ̄(z(α)) du lemme 18.6, conduit à l’estimation cherchée :
δ
µ̄,
µ̄(z(α)) = [1 − α(1 − σ)]µ̄ 6 1 −
n
où δ = min(θC2 /C1 , 1/2).
2
On peut maintenant conclure aisément en appliquant le lemme de complexité 18.5.
552
Théorème 18.15 (convergence et complexité de l’algorithme des
grands déplacements) L’algorithme 18.12 converge (µ̄k → 0 q-linéairement)
et pour tout ε > 0, il existe un indice K = O(n log ε−1 ) tel que µ̄k 6 εµ̄0 , dès que
k > K.
18.3.4 Un algorithme prédicteur-correcteur
Les algorithmes précédents souffrent du fait que le facteur de réduction σ du saut
de dualité est imposé (il vaut 1 − δ/n1/2 dans l’algorithme des petits déplacements)
ou minoré (par σmin dans l’algorithme des grands déplacements) a priori. Il semble
en effet préférable de laisser l’algorithme choisir lui-même une réduction maximale
de µ̄(z). C’est ce qui motive l’algorithme prédicteur-correcteur, que nous présentons
dans cette section.
Cet algorithme doit son nom au fait qu’il alterne des phases de prédiction et des
phases de correction (voir la figure 18.3). La phase de prédiction en z ∈ F o a pour
V2 (θ′ )
C
V2 (θ)
z
z+
d′
d
S
z
′
Fig. 18.3. Un algorithme prédicteur-correcteur
but de faire décroı̂tre le saut de dualité µ̄ le plus possible, ce qui s’obtient en suivant
la direction de Newton d avec σ = 0 (voir la proposition 18.6 (i)) et en prenant le plus
grand pas α > 0 le long de cette direction, de manière toutefois à ce que z ′ = z + αd
reste dans un voisinage V2 (θ′ ) (avec un pas unité, z ′ serait vraisemblablement endehors de l’ensemble admissible). Le point z ′ ne peut être le nouvel itéré car une
direction de prédiction en ce point aurait de grande chance de sortir immédiatement
de V2 (θ′ ). L’étape de correction a donc pour but de revenir dans un voisinage du
chemin central V2 (θ) plus petit (avec 0 < θ < θ′ < 1). Ce recentrage se fait par un
pas unité le long de la direction de Newton d′ avec σ = 1, donc sans modification du
saut de dualité. Il faut que θ et θ′ vérifient les inégalités
0 < θ < θ′ < 1 et
√
(θ′ )2
6 8θ,
1 − θ′
(18.24)
553
pour que le pas unité le long de d′ conduise en un point z+ dans V2 (θ). Les valeurs
θ = 14 et θ′ = 21 conviennent. On considère qu’une itération est formée d’une phase
de prédiction suivie d’une phase de correction.
Algorithme 18.16 (PIL prédicteur-correcteur)
On considère deux voisinages V2 (θ) et V2 (θ′ ), avec θ et θ′ vérifiant (18.24).
On suppose que l’itéré courant z := (x, y, s) ∈ V2 (θ).
L’itéré suivant z+ ∈ V2 (θ) s’obtient par les étapes suivantes.
1. Phase de prédiction :
1.1. Calcul du déplacement de Newton d, solution de (18.18) avec µ = 0.
1.2. Calcul d’un pas α le plus grand possible dans ]0, 1] tel que z + αd ∈
V2 (θ′ ).
1.3. Itéré intermédiaire : z ′ = z + αd.
2. Phase de correction :
2.1. Calcul du déplacement de Newton d′ , solution de (18.18) en z = z ′ ,
avec µ = µ̄′ := µ̄(z ′ ).
2.2. Nouvel itéré : z+ = z ′ + d′ (pas unité).
L’étape 1.2 demande de calculer le plus grand pas α permettant à z(α) = z + αd de
rester dans V2 (θ′ ). Il faut donc vérifier que kX(α)s(α) − µ̄(z(α))ek22 = (θ′ )2 µ̄(z(α))2 .
Comme x(α), s(α) et µ̄(z(α)) dépendent linéairement de α (lemme 18.6), on voit que
cela revient à trouver la racine maximale d’un polynôme quartique (d’ordre 4).
Nous analysons dans les deux lemmes suivants les phases de prédiction et de correction, avant de conclure par un résultat de convergence et de complexité. Dans la
phase de prédiction la décroissance du saut de dualité se fait par un facteur semblable à celui de l’algorithme des petits déplacements, mais cette fois l’algorithme a
la possibilité de faire décroı̂tre µ̄ plus rapidement.
Lemme 18.17 (phase de prédiction) Si 0 < θ < θ′ < 1, il existe une constante
δ > 0 indépendante de n telle que, lorsque z ∈ V2 (θ), la phase de prédiction conduit
à un point z ′ ∈ V2 (θ′ ) avec
δ
′
µ̄ 6 1 − 1/2 µ̄.
n
Démonstration. On cherche à estimer le pas maximal α tel que z + αd reste dans
V2 (θ′ ). Ceci se fait en contrôlant l’évolution du centrage le long de d.
On applique le lemme de Mizuno en considérant (18.20) avec σ = 0, ce qui est
licite car (D−1 dx)⊤(Dds) = 0. On a
1
n
1
kdXdsk2 = k(D−1 dX)(Dds)k2 6 √ k(XS)− 2 Xsk22 = √ µ̄.
8
8
Alors le point (ii) du lemme 18.6 donne pour z ∈ V2 (θ) et z(t) := z + td :
n
γ2 (z(t)) 6 (1 − t)θ + t2 √ µ̄.
8
554
D’après le point (i) du lemme 18.6, µ̄(z(t)) = (1 − t)µ̄ > 0, si t < 1. Dès lors z(t) sera
certainement dans V2 (θ′ ) si t < 1 et si le membre de droite ci-dessus est inférieur à
θ′ µ̄(z(t)) = θ′ (1 − t)µ̄, ce qui s’écrit encore
n
√ t2 6 (θ′ − θ)(1 − t).
8
√
Cette inégalité est vérifiée pour tout t ∈ [0, δ/ n], où δ > 0 est fixé indépendamment
de n par :
δ2
√ 6 (θ′ − θ)(1 − δ).
8
√
Il √
suffit en effet d’observer que pour t ∈ [0, δ/ n], on a nt2 6 δ 2 et 1 − δ 6 1 −
δ/ n 6 1 − t. Comme la phase de √
prédiction détermine le plus grand pas α tel que
z(α) ∈ V2 (θ′ ), ce pas vérifie α > δ/ n. Dès lors
δ
µ̄(z(α)) = (1 − α)µ̄ 6 1 − 1/2 µ̄.
n
2
Lemme 18.18 (phase de correction) Si θ et θ′ vérifient (18.24) et si z ′ ∈ V2 (θ′ ),
alors la phase de correction donne un point z+ ∈ V2 (θ) tel que µ̄+ = µ̄′ .
Démonstration. Le point (i) du lemme 18.6 et σ = 1 montrent immédiatement que
µ̄+ = µ̄′ . Il reste à montrer que z+ ∈ V2 (θ).
D’après le lemme de Mizuno et (18.20) avec µ = µ̄, la direction de Newton d′ =
′
(dx , dy ′ , ds′ ) calculée en z ′ vérifie
n
1
1 X (x′i s′i − µ̄′ )2
1
.
kdX ′ ds′ k2 6 √ k(X ′ S ′ )− 2 (µ̄′ e − X ′ s′ )k22 = √
x′i s′i
8
8 i=1
Puisque z ′ ∈ V2 (θ′ ), on a pour tout i : kX ′ s′ − µ̄′ ek2 6 θ′ µ̄′ , donc x′i s′i > (1 − θ′ )µ̄′ , si
bien que
1
(θ′ )2
kdX ′ ds′ k2 6 √
kX ′ s′ − µ̄′ ek22 6 √
µ̄′ .
8(1 − θ′ )µ̄′
8(1 − θ′ )
Le point (ii) du lemme 18.6 avec α = 1 et (18.24) donnent
(θ′ )2
µ̄+ 6 θµ̄+ .
kX+ s+ − µ̄+ ek2 6 √
8(1 − θ′ )
Pour conclure que z+ ∈ V2 (θ), il reste à montrer que x+ > 0, s+ > 0, mais ceci se
déduit du fait aisément démontrable que z ′ + td′ ∈ V2 (θ′ ) pour tout t ∈ [0, 1].
2
18.4. Un algorithme sans admissibilité forcée
555
Théorème 18.19 (convergence et complexité de l’algorithme prédicteur-correcteur) L’algorithme prédicteur-correcteur 18.16 converge (µ̄k → 0
q-linéairement) et pour tout ε > 0, il existe un indice K = O(n1/2 log ε−1 ) tel que
µ̄k 6 εµ̄0 , dès que k > K.
Démonstration. D’après les lemmes 18.17 et 18.18, on a
δ
µ̄k+1 6 1 − 1/2 µ̄k .
n
On utilise alors le lemme de complexité 18.5.
2
En pratique, le pas α > 0 le long de la direction de prédiction est souvent proche
de 1, si bien que l’algorithme converge souvent très rapidement. On peut d’ailleurs
montrer que la convergence de µ̄k → 0 est superlinéaire. Malgré cela, l’algorithme peut
être gêné par le petitesse du voisinage V2 (θ), surtout dans les premières itérations.
18.4 Un algorithme sans admissibilité forcée
On ne dispose pas toujours d’un itéré primal-dual strictement admissible. Parfois
même il n’y en a pas, alors que le problème est parfaitement bien posé. Cette situation
se rencontre, par exemple, si l’on transforme un problème d’optimisation linéaire de
la forme inf{c⊤x : Ax 6 b} sous la forme standard : inf{c⊤u − c⊤v : Au − Av + z = b,
(u, v, z) > 0}, où z est un vecteur de variables d’écart et u − v joue le rôle de x. Dans
ce cas, les contraintes du problème dual s’écrivent : A⊤y + s1 = c, −A⊤y + s2 = −c,
y + s3 = 0 et (s1 , s2 , s3 ) > 0. En sommant les deux premières contraintes, on voit
que s1 et s2 sont nuls : il n’y a pas de point strictement admissible pour le dual. Il
est donc intéressant de développer des algorithmes dans lesquels les itérés ne vérifient
pas les contraintes linéaires de (18.1).
Dans les algorithmes n’obligeant pas les itérés à rester dans F o , quoique maintenant x > 0 et s > 0 (c’est leur aspect “points intérieurs”), il y a deux objectifs à réaliser : annuler les résidus (rb , rc ) = (Ax − b, A⊤y + s − c) et le saut de
dualité µ̄ = x⊤s/n. Ces algorithmes opèrent comme précédemment, en faisant des
déplacements le long de la direction de Newton d, solution de (18.34).
On s’est longtemps demandé si l’on pourrait un jour trouver des algorithmes polynomiaux dans lesquels les itérés ne sont pas admissibles. Une façon d’y arriver est de
ne pas faire décroı̂tre le saut de dualité plus vite que l’admissibilité. La possibilité de
réaliser ce principe est fondé sur les observations de l’évolution des résidus et du saut
de dualité le long de la direction de Newton, disons en z + αd, α > 0, alors que le
point courant z n’annule pas les résidus. On note
r(z) := (rb (z), rc (z)) = (Ax − b, A⊤y + s − c).
On vérifie facilement que les résidus varient de façon affine :
r(z + αd) = (1 − α)r(z).
556
De même pour les normes, pour autant que α 6 1 :
kr(z + αd)k2 = (1 − α)kr(z)k2 .
(18.25)
Le saut de dualité évolue quant à lui de façon non linéaire. En utilisant la troisième
équation de (18.34), on a s⊤dx + x⊤ds = nµ − x⊤s = n(µ − µ̄) et donc
µ̄(z + αd) =
1
α2 ⊤
(x + αdx)⊤(s + αds) = µ̄ + α(µ − µ̄) +
dx ds.
n
n
Sans admissibilité, on n’a plus dx⊤ds = 0, si bien que la décroissance de µ̄(z(α)) pour
de petit pas α > 0 n’est assurée que si on prend µ < µ̄ (on n’est pas maı̂tre du signe
de dx⊤ds) et on se fera à l’idée de prendre comme précédemment
µ = σ µ̄,
avec un σ ∈ ]0, 1[.
On verra par la suite qu’il faut être plus contraignant sur la valeur de σ. On a alors
α2 ⊤
dx ds.
n
(18.26)
pour α > 0 petit.
(18.27)
µ̄(z + αd) = (1 − α)µ̄ + ασ µ̄ +
On en déduit que
µ̄(z + αd) > (1 − α)µ̄,
En comparant (18.25) et (18.27), on voit que si krk2 6 ρµ̄ à l’itéré courant (pour
une constante ρ > 0), on a pour α > 0 petit :
kr(z + αd)k2 6 (1 − α)ρµ̄ 6 ρµ̄(z + αd).
L’inégalité krk2 6 ρµ̄ est donc conservée à l’itération suivante. Autrement dit, de
petits pas le long de la direction de Newton maintiennent les itérés dans le voisinage
du chemin central suivant :
−
−
V∞
≡ V∞
(θ, ρ) := {z := (x, y, s) : (x, s) > 0, kr(z)k2 6 ρµ̄(z), Xs > (1−θ)µ̄(z)e} .
On prend θ ∈ ]0, 1[ et de manière à ce que le premier itéré soit dans ce voisinage, on
prend
kr0 k2
, avec ρ′ > 1.
(18.28)
ρ = ρ′
µ̄0
−
Ce voisinage diffère de V∞
(θ) par le fait que le résidu r = (rb , rc ) ne doit pas
nécessairement être nul.
Nous donnons ci-dessous une itération d’un algorithme de suivi de chemin fondé
sur les observations précédentes. Il ne demande donc pas d’avoir un premier itéré
admissible et permet de faire de grands déplacements via l’utilisation du voisinage
−
V∞
. L’algorithme est très simple. À chaque itération, on fait un pas α > 0 le long de
−
la direction de Newton d, de manière à rester dans V∞
, tout en faisant décroı̂tre le
saut de dualité µ̄. Une recherche linéaire sur α 7→ µ̄(z + αd) assure la décroissance du
−
saut de dualité et du même coup celle des résidus (puisque les itérés restent dans V∞
).
Cette stratégie est possible car, comme nous l’avons montré ci-dessus, la direction de
−
Newton rentre dans V∞
et est une direction de descente de µ̄.
557
Algorithme 18.20 (PIL sans admissibilité)
On se donne des constantes :
– ω ∈ ]0, 1[ est utilisé dans la recherche linéaire sur µ̄(·),
– σ ∈ ]0, 1−ω[ est le facteur de réduction de µ̄ dans le système de newton,
−
(θ, ρ).
– θ ∈ ]0, 1[ et ρ vérifiant (18.28) définissent le voisinage V∞
−
On suppose que l’itéré courant z ∈ V∞ (θ, ρ).
−
L’itéré suivant z+ ∈ V∞
(θ, ρ) s’obtient par les étapes suivantes.
1. Direction de Newton. Calcul de la direction de Newton d = (dx, dy, ds),
solution de (18.34), avec µ = σ µ̄(z).
2. Recherche linéaire. Prendre un pas α le plus grand possible dans ]0, 1] tel
−
que z + αd ∈ V∞
(θ, ρ) et
µ̄(z + αd) 6 (1 − ωα)µ̄(z).
(18.29)
3. Nouvel itéré. z + := z + αd.
Les valeurs typiques des constantes sont
ω = 10−2 ,
σ = 0.25 et θ = 0.99.
On note z k les itérés, αk le pas pris à l’étape 2, rbk := Axk − b, rck := A⊤y k + sk − c,
r := (rbk , rck ), µ̄k := µ̄(z k ) et
k
1/2
−1/2
Dk := Xk Sk
.
On simplifiera µ̄(z k + αdk ) en µ̄k (α) sans que cela ne porte à confusion (la dimension
de l’argument change).
La preuve de convergence vise essentiellement à montrer que le pas αk pris à
l’étape 2 de l’algorithme est borné inférieurement par une constante ᾱ > 0. Dans ce
cas, grâce à (18.29), µ̄k+1 6 (1 − ω ᾱ)µ̄k , ce qui montre la convergence q-linéaire de µ̄k .
De même, en utilisant (18.25), on a krk+1 k2 6 (1− ᾱ)krk k2 , si bien que la convergence
q-linéaire des résidus sera aussi une conséquence immédiate de l’estimation αk > ᾱ.
La convergence de cet algorithme s’obtient sans hypothèse supplémentaire, mais
on n’a pu démontrer sa polynomialité qu’en supposant z 0 de la forme
z 0 = (ζ0 e, 0, ζ0 e),
avec un scalaire ζ0 > k(x∗ , s∗ )k∞ ,
(18.30)
où z ∗ est une solution primale-duale arbitraire [492]. Évidemment, en pratique, on ne
peut pas réaliser (18.30) car on ne connaı̂t pas de solution primale-duale, mais on a
observé que l’algorithme est plus rapide si l’itéré initial est bien centré (X 0 s0 = ζ02 e
sous l’hypothèse (18.30)) avec un rapport kr0 k2 /µ̄0 petit (il est de l’ordre 1/ζ0 sous
l’hypothèse (18.30)). En pratique, on prend donc z 0 = (ζ0 e, 0, ζ0 e), avec ζ0 “grand”.
La formule (18.26) montre que nous avons besoin d’une estimation de |(dxk )⊤(dsk )|.
Celle-ci découlera des estimations de Dk−1 dxk et Dk dsk données dans le lemme très
technique suivant.
558
Lemme 18.21 Il existe une constante C1 > 0 telle que pour tout k > 0 :
1/2
kDk−1 dxk k2 6 C1 µ̄k
Si z 0 vérifie (18.30), alors C1 =
et
9ρ′
n
(1−θ)1/2
1/2
kDk dsk k2 6 C1 µ̄k .
est indépendante de ζ0 .
Démonstration. D’après (18.25) et par récurrence, on a
r k = βk r 0 ,
où βk :=
k−1
Y
i=0
(1 − αk ).
(18.31)
Première étape : il existe une constante C1′ (= 4ρ′ n/ζ0 si (18.30) a lieu) telle que
βk k(xk , sk )k1 6 C1′ µ̄k .
(18.32)
Soit z ∗ une solution du problème (P ). On introduit
z̄ := βk z 0 + (1 − βk )z ∗ − z k .
On voit facilement que Ax̄ = 0 et A⊤ȳ + s̄ = 0, si bien que x̄⊤s̄ = 0, ce que l’on
exploite :
0 =
=
βk x0 + (1 − βk )x∗ − xk
⊤
βk s0 + (1 − βk )s∗ − sk
βk2 (x0 )⊤s0 + (1 − βk )2 (x∗ )⊤s∗ + (xk )⊤sk
+ βk (1 − βk ) (x0 )⊤s∗ + (x∗ )⊤s0 − βk (x0 )⊤sk + (xk )⊤s0
− (1 − βk ) (x∗ )⊤sk + (xk )⊤s∗ .
La majoration que l’on cherche vient de l’avant dernier terme que l’on fait passer dans
le membre de gauche. D’autre part, le dernier terme est négatif ((x∗ , s∗ , xk , sk ) > 0 et
βk 6 1) et on le néglige, (x0 )⊤s0 = nµ̄0 , (x∗ )⊤s∗ = 0 par optimalité, (xk )⊤sk = nµ̄k ,
(x0 )⊤s∗ 6 kx0 k∞ ks∗ k1 et (x∗ )⊤s0 6 ks0 k∞ kx∗ k1 . Cela donne
βk (x0 )⊤sk + (xk )⊤s0 6 nβk2 µ̄0 + nµ̄k + βk (1 − βk ) k(x0 , s0 )k∞ k(x∗ , s∗ )k1 .
Ensuite, le membre de gauche est minoré par βk ξ0 k(xk , sk )k1 , où
ξ0 := min min{x0i , s0i }.
16i6n
On obtient aussi un facteur commun µ̄k à tous les termes à droite, car, d’après (18.31)
−
et l’appartenance de z k ∈ V∞
, on a βk = krk k2 /kr0 k2 6 ρµ̄k /kr0 k2 . En utilisant
également 0 6 βk 6 1, on obtient finalement l’inégalité
βk ξ0 k(xk , sk )k1 6 n
ρ
ρµ̄0
µ̄k + nµ̄k + 0 µ̄k k(x0 , s0 )k∞ k(x∗ , s∗ )k1 ,
kr0 k2
kr k2
qui est bien de la forme (18.32).
Supposons à présent que z 0 vérifie (18.30). On note
ρ′ :=
ρµ̄0
,
kr0 k2
559
qui est > 1 et peut être considéré comme une constante ne dépendant pas de l’itéré
initial. D’autre part, en utilisant (18.30) : ξ0 = ζ0 , µ̄0 = ζ02 , k(x0 , s0 )k∞ = ζ0 et
k(x∗ , s∗ )k1 6 2nk(x∗ , s∗ )k∞ 6 2nζ0 . Dès lors, l’inégalité précédente devient
βk ζ0 k(xk , sk )k1 6 nρ′ µ̄k + nµ̄k + 2nρ′ µ̄k 6 4nρ′ µ̄k .
Ce qui montre que l’on peut prendre C1 = 4ρ′ n/ζ0 .
Deuxième étape : démonstration du lemme. Comme dans la première partie on
construit deux vecteurs orthogonaux, ici formés à partir de dxk et dsk . Dans ce but,
¯ dy,
¯ ds)
¯ défini par
on introduit d¯ = (dx,
d¯ := dk + βk (z 0 − z ∗ ),
¯ +
¯ = 0 et A⊤dy
où z ∗ est une solution du problème (P ). On vérifie facilement que Adx
⊤
¯ = 0, ce que l’on va exploiter.
¯ = 0, si bien que dx
¯ ds
ds
Auparavant, observons que par la troisième équation du système de (18.34)
Sk dxk + βk (x0 − x∗ ) + Xk dsk + βk (s0 − s∗ )
= −(Xk Sk e − σ µ̄k e) + βk Sk (x0 − x∗ ) + βk Xk (s0 − s∗ ).
Après multiplication par (Xk Sk )−1/2 , on a
Dk−1 dxk + βk (x0 − x∗ ) + Dk dsk + βk (s0 − s∗ )
= −(Xk Sk )−1/2 (Xk Sk e − σ µ̄k e) + βk Dk−1 (x0 − x∗ ) + βk Dk (s0 − s∗ ).
On utilise maintenant le fait démontré ci-dessus, que les deux premiers termes sont
orthogonaux. En prenant la norme au carré, on obtient
kDk−1 (dxk + βk (x0 − x∗ ))k22 + kDk (dsk + βk (s0 − s∗ ))k22
2
6
k(Xk Sk )−1/2 (Xk Sk e − σ µ̄k e)k2 + βk kDk−1 (x0 − x∗ )k2 + βk kDk (s0 − s∗ )k2 .
On traite maintenant séparément les deux termes du membre de gauche en utilisant
l’inégalité triangulaire :
kDk−1 dxk k2 et kDk dsk k2
6
k(Xk Sk )−1/2 (Xk Sk e − σ µ̄k e)k2 + 2βk kDk−1 (x0 − x∗ )k2 + 2βk kDk (s0 − s∗ )k2 .
Il reste à montrer que chaque terme du membre de droite de cette inégalité est en
1/2
O(µ̄k ).
−
(θ, ρ) :
Pour le premier terme, on a en utilisant l’appartenance de z k à V∞
k(Xk Sk )−1/2 k2 = max
16i6n
1
(xki ski )1/2
6
1
1/2
(1−θ)1/2 µ̄k
D’autre part, comme σ < 1 et (xk )⊤sk = nµ̄k :
kXk Sk e − σ µ̄k ek22 = kXk Sk ek22 − 2σ µ̄k (xk )⊤sk + nσ 2 µ̄2k 6 kXk Sk ek21 = n2 µ̄2k .
1/2
Le premier terme est donc majoré par (1−θ)−1/2 nµ̄k .
560
Pour le second terme, on observe d’abord que
kDk−1 k2 = max
16i6n
ksk k1
ksk k∞
ski
6
.
6
1/2
1/2
(xki ski )1/2
(1−θ)1/2 µ̄k
(1−θ)1/2 µ̄k
En utilisant alors le résultat (18.32) de la première partie de la démonstration, on a
βk kDk−1 (x0 − x∗ )k2 6
βk ksk k1
1/2
(1−θ)1/2 µ̄k
kx0 − x∗ k2 6
C1′
1/2
µ̄ kx0 − x∗ k2 ,
(1−θ)1/2 k
1/2
qui est bien un majorant en O(µ̄k ). On s’y prend de la même manière pour le
1/2
troisième terme, avec la majoration kDk k2 6 kxk k1 µ̄k /(1−θ)1/2 .
0
Enfin, si z vérifie (18.30), on s’y prend différemment pour majorer les deux
derniers termes. Dans ce cas, on a
0 6 x0 − x∗ 6 ζ0
et 0 6 s0 − s∗ 6 ζ0 .
On en déduit, avec (18.32), que
βk kDk−1 (x0 − x∗ )k2 + βk kDk (s0 − s∗ )k2
6 βk ζ0 kDk−1 ek2 + kDk ek2
= βk ζ0 k(Xk Sk )−1/2 sk k2 + k(Xk Sk )−1/2 xk k2
6
6
ζ0 k(Xk Sk )−1/2 k2 (βk k(xk , sk )k1 )
ζ0
4ρ′ n
µ̄k
1/2 ζ
0
(1−θ)1/2 µ̄
k
=
4ρ′
1/2
nµ̄k .
(1−θ)1/2
Dès lors la constante C1 peut être prise comme suit
1
8ρ′
9ρ′
n
+
n
6
n =: C1 .
(1−θ)1/2
(1−θ)1/2
(1−θ)1/2
2
Lemme 18.22 Il existe une constante ᾱ ∈ ]0, 1], telle que pour tout α ∈ [0, ᾱ], on a
(1 − α)µ̄k 6 µ̄(z k + αdk ) 6 (1 − ωα)µ̄k
(xki + αdxki )(ski + αdski ) > (1−θ)µ̄(z k + αdk ).
Si z 0 vérifie (18.30), alors il existe une constante C2 > 0 indépendante de n telle que
ᾱ > C2 n−2 .
Démonstration. On laisse tomber l’indice k. Avec la constante C1 donnée par le
lemme 18.21 et l’inégalité de Cauchy-Schwarz, on a dx⊤ds > −C12 µ̄. Alors (18.26)
conduit à
αC12
> (1 − α)µ̄,
µ̄(z + αd) > (1 − α)µ̄ + αµ̄ σ −
n
561
dès que
α 6 ᾱa :=
nσ
.
C12
En majorant cette fois dx⊤dx 6 C12 µ̄, on obtient de (18.26)
µ̄(z(α)) 6
6
µ̄ − αµ̄ + ασ µ̄ +
α2 C12
µ̄
n
(18.33)
µ̄ − ωαµ̄,
dès que
α 6 ᾱb :=
n(1 − ω − σ)
.
C12
−
En utilisant le fait que xi si > (1−θ)µ̄ lorsque z ∈ V∞
(θ, ρ), on trouve
(xi + αdxi )(si + αdsi )
= xi si + α(xi dsi + si dxi ) + α2 dxi dsi
|
{z
}
σµ̄−xi si
> (1 − α)(1 − θ)µ̄ + ασ µ̄ + α2 dxi dsi ,
2
[si α 6 1]
C12 )µ̄
> ((1 − α)(1 − θ) + ασ − α
1 2 2
> (1 − θ) 1 − α + ασ + α C1 µ̄
n
> (1 − θ)µ̄(z(α)), [par (18.33)],
où l’avant-dernière inégalité est vraie dès que
θσ
α 6 ᾱc := min 1, 2
C1 (1 + 1−θ
n )
!
.
Il suffit alors de prendre ᾱ := min(ᾱa , ᾱb , ᾱc ) 6 1. On observe aussi que si z 0 vérifie
2
(18.30), C1 = O(n) par le lemme 18.21. On en déduit alors que ᾱ > C2 /n2 .
Théorème 18.23 (convergence de l’algorithme 18.20) L’algorithme 18.20
converge : µ̄ → 0 et (rbk , rck ) → 0 q-linéairement. De plus, si z 0 vérifie (18.30),
alors, pour tout ε > 0, il existe un indice K = O(n2 log ε−1 ) tel que µ̄k 6 εµ̄0 ,
dès que k > K.
Démonstration. Comme l’algorithme choisit le plus grand pas tel que l’on ait
(18.29), αk est certainement supérieur à ᾱ > 0 donné par le lemme 18.22. Alors
l’inégalité (18.29) montre que l’on a
µ̄k+1 6 (1 − ω ᾱ)µ̄k .
Ce qui implique la convergence q-linéaire de µ̄k vers zéro. Le même raisonnement et
k(rbk+1 , rck+1 )k2 = (1 − αk )k(rbk , rck )k2 6 (1 − ᾱ)k(rbk , rck )k2
562
montre que (rbk , rck ) converge vers zéro q-linéairement.
Enfin, si z 0 vérifie (18.30), ᾱ > C2 /n2 pour une constante C2 > 0 indépendante
de n, si bien que
ωC2
µ̄k+1 6 1 − 2 µ̄k .
n
On conclut en utilisant le lemme de complexité 18.5.
2
18.5 Approche auto-duale N
Voir Ye, Todd et Mizuno [497] pour l’article original.
18.6 Mise en œuvre
18.6.1 Calcul du déplacement de Newton
Les algorithmes primaux-duaux calculent l’itéré suivant en se déplaçant le long de
la direction de Newton obtenue par linéarisation du système d’optimalité perturbé
(18.3). Cette direction est solution de l’équation de Newton

  

dx
−rc
0 A⊤ I
A 0
0  dy  =  −rb  .
(18.34)
ds
µe − Xs
S 0 X
On a noté les résidus
rc ≡ rc (z) := A⊤y + s − c
et rb ≡ rb (z) := Ax − b.
Intéressons-nous aux méthodes de calcul d’une solution du système de Newton
(18.34). On peut éliminer ds grâce à la dernière équation, qui donne
ds = −X −1 Sdx + µX −1 e − s.
On obtient alors ce que l’on appelle le système linéaire augmenté
−X −1 S A⊤
dx
−rc − µX −1 e + s
.
=
A
0
dy
−rb
La matrice de ce système est symétrique, mais indéfinie, et garde le caractère creux
éventuel de A. On peut le résoudre par la factorisation de Bunch et Parlett ou de
Bunch et Kaufman.
On peut poursuivre la réduction de la dimension du système linéaire à résoudre
en éliminant dx grâce à la première équation
dx = XS −1 A⊤dy + µS −1 e − x + XS −1 rc .
On obtient ce que l’on appelle le système normal ou l’équation normale
18.6. Mise en œuvre
563
(AXS −1 A⊤)dy = −rb − A(µS −1 e − x + XS −1 rc ).
Si A est surjective, la matrice de ce système est symétrique définie positive. En pratique, c’est souvent ce système qui est résolu, par factorisation de Cholesky creuse.
Le mauvais conditionnement dû au facteur XS −1 requiert toutefois une factorisation adaptée [493]. Par ailleurs, si A a une colonne dense, la matrice AXS −1 A⊤ perd
son caractère creux. Si celles-ci ne sont pas trop nombreuses, on peut faire face à la
difficulté de la manière suivante. Si C (resp. D) désigne l’ensemble des indices des
colonnes creuses (resp. denses) de A, on écrit
AXS −1 A⊤ = AC XC SC−1 A⊤
+ AD XD SD−1 A⊤
.
C
C
On calcule les facteurs de Cholesky creux de AC XC SC−1 A⊤
et on prend en compte le
C
second terme AD XD SD−1 A⊤
C par la technique de Sherman-Morrison-Woodbury.
18.6.2 Logiciels
La difficulté principale des méthodes de points intérieurs est due à la résolution des
systèmes linéaires mal conditionnés que l’on y rencontre (section 18.6.1). Si on dispose
de solveurs linéaires adéquats, les algorithmes peuvent s’écrire facilement et être ainsi
adaptés à des situations particulières.
Logiciels généralistes : Cplex [428], HOPDM [225], LIPSOL (en Matlab avec
solveurs linéaires en Fortran) [504], LOQO, Mozek [11, 429], OSX, PCx (en C)
[125] et SeDuMi [458, 430].
Notes
L’algorithme des petits déplacements de la section 18.3.2 a été mis au point par
Kojima, Mizuno et Yoshise [301 ; 1989] et par Monteiro et Adler [353 ; 1989]; celui des
grands déplacements de la section 18.3.3 est dû à Kojima, Mizuno et Yoshise [300 ;
1989]. L’algorithme prédicteur-correcteur de la section 18.3.4 fut énoncé et analysé par
Mizuno, Todd et Ye [351 ; 1993], mais son principe est fondé sur les travaux antérieurs
de Monteiro et Adler [353 ; 1989] et de Sonnevend, Stoer et Zhao [446, 447 ; 19891991]. L’algorithme prédicteur-correcteur de Mehrotra [344 ; 1992], que nous n’avons
pas présenté, en est une version plus élaborée. Il suit le chemin central avec plus de
précision en en construisant une approximation d’ordre plus élevé; c’est important
pour ne pas perdre du temps dans le suivi des coudes que peut former le chemin
central. Il permet aussi d’adapter à l’itération courante le facteur σ de réduction
de µ̄, alors qu’il est donné a priori dans l’algorithme 18.16. C’est cette méthode qui
est la plus souvent implémentée dans les codes de points intérieurs pour l’optimisation
linéaire.
Le lecteur trouvera des compléments à cette brève introduction dans la monographie de S. Wright [492], qui est une très bonne référence sur les algorithmes de points
intérieurs primaux-duaux en optimisation linéaire; nous nous en sommes souvent inspiré dans la partie algorithmique de ce chapitre. D’autres aspects de l’approche par
points intérieurs en optimisation linéaire sont exposés par den Hertog [138], Saigal
564
[426] (algorithmes affines), Terlaky [461], Jansen [279], Roos, Terlaky et Vial [419],
Vanderbei [474] et Ye [496].
Les méthodes de points intérieurs sont utilisées pour résoudre d’autres classes de
problèmes convexes, ayant un côté combinatoire provenant de relations de complémentarité. On pourra consulter [64] pour les problèmes de complémentarité linéaire
monotone (incluant l’optimisation quadratique convexe), [488] pour l’optimisation
semi-définie (voir aussi le chapitre 20), [406] pour l’optimisation conique (qui permet
une extension à la dimension infinie), [371] pour l’optimisation convexe (voir aussi
la section 15.1). Ces sujets sont aussi abordés par Ben-Tal et Nemirovski [38], qui
présentent de nombreux exemples et applications.
L’utilisation des points intérieurs pour résoudre les problèmes d’optimisation non
linéaire remonte à l’ouvrage pionnier de Fiacco et McCormick [171 ; 1968]. Il faut
également citer l’article parfois oublié de McLinden [342 ; 1980], qui contient des
résultats qualitatifs sur les problèmes convexes. En optimisation non linéaire, les techniques sont moins bien maı̂trisées, les algorithmes ne sont pas encore stabilisés et
l’intérêt de l’approche est débattu [199]. On trouvera dans [87] une étude de convergence d’un algorithme se ramenant à une suite de problèmes-barrières sous contraintes
d’égalité non linéaires globalisés par régions de confiance (voir aussi la section 15.2);
les codes Knitro [373] et Opinl [185] s’en inspirent chacun à leur manière. Un état
de l’art est présenté dans [180].
Exercices
18.1. On suppose que c, A et b sont donnés comme en optimisation linéaire (avec A surjective) et que (18.2) a lieu. Soit µ > 0. Démontrez les affirmations suivantes.
(i) Le problème (Dµ ) ≡ (18.5) a une solution et une seule.
(ii) Si on note (xµ , yµ , sµ ) le point central correspondant à µ, c’est-à-dire la solution unique de (18.3), la solution de (Dµ ) n’est autre que (yµ , sµ ) et xµ est le
multiplicateur optimal associé à la contrainte de (Dµ ).
18.2. On suppose que c, A et b sont donnés comme en optimisation linéaire et que (18.2)
a lieu. Soit w ∈ Rn
++ . Montrez qu’il existe un unique triplet (x, y, s), unique si A est
surjective, vérifiant
 ⊤
 A y + s = c, s > 0
Ax = b, x > 0

Xs = w.
En conséquence, l’application p définie en (18.15) est surjective (et bijective si A est
surjective).
18.3. Problèmes singuliers. Supposons que (P ) ait une solution x̄ telle que x̄ > 0. Alors
(i) c ⊥ N (A),
(ii) tout point admissible de (P ) est solution primale,
(iii) si (18.2) a lieu et µ 7→ (xµ , sµ , sµ ) est le chemin central, alors xµ = x̌ pour tout
µ > 0, où x̌ est le centre analytique de FP .
Supposons maintenant que (D) ait une solution (ȳ, s̄) telle que s̄ > 0. Alors
(iv) b = 0,
(v) tout point admissible de (D) est solution duale,
(vi) si (18.2) a lieu, si A est surjective et si µ 7→ (xµ , yµ , sµ ) est le chemin central,
alors (yµ , sµ ) = (y̌, š) pour tout µ > 0, où (y̌, š) est le centre analytique de FD .
18.6. Mise en œuvre
565
18.4. Le centre analytique n’est pas géométrique. Montrez que le centre analytique de
l’ensemble {x ∈ R2 : x > 0, x1 + x2 6 1} est ( 13 , 31 ), alors que si le même ensemble
est décrit par {x ∈ R2 : x > 0, x1 + x2 6 1, x1 6 1}, on trouve ( 14 , 38 ).
18.5. Autre définition du chemin central. On considère le problème d’optimisation linéaire
(P ) et on suppose que (18.2) a lieu. Montrez que pour α > val(P ), Xα := {x ∈ FP :
c⊤x 6 α} est non vide, qu’il a un centre analytique et que celui-ci est situé sur le
chemin central de (P ).
18.6. Tangente au chemin central. Soit z(µ) = (x(µ), y(µ), s(µ)) = (x, y, s) un point central, vérifiant donc A⊤y + s = c, Ax = b et Xs = µe pour un certain µ > 0. On
suppose que A est surjective. Soit d = (dx, dy, ds) la dérivée de µ 7→ (x(µ), y(µ), s(µ))
en µ. Montrez que l’on a
c⊤dx
=
b⊤dy
=
s⊤dx + x⊤ds
=
1 ⊤ − −⊤ −1
c Z (Z X SZ − )−1 Z−⊤c,
µ
1
− b⊤(AXS −1 A⊤)−1 b,
µ
n,
où Z − est une matrice dont les colonnes forment une base de N (A).
Remarque. On voit que le critère primal µ 7→ c⊤x(µ) croı̂t strictement (si Z−⊤c 6= 0
c’est-à-dire si c ∈
/ R(A⊤)), que le critère dual µ 7→ b⊤y(µ) décroı̂t strictement (si b 6=
0) et que le saut de dualité µ 7→ x(µ)⊤s(µ) croı̂t strictement. On pourra rapprocher
cela du résultat de la proposition 18.4 (ii).
18.7. Voisinages du chemin central. On suppose que c, A et b sont donnés comme en optimisation linéaire (avec A surjective) et que (18.2) a lieu. On considère les voisinages
−
Vp (θ) et V∞
(θ) définis par (18.16) et (18.17), avec p ∈ [1, ∞] et θ ∈ [0, 1[.
1) On dit qu’un espace topologique E est connexe par arcs si deux quelconques de
ses points peuvent être joints par un chemin continu, c’est-à-dire une application
continue γ : [0, 1] 7→ E telle que γ(0) est le premier point et γ(1) le second.
−
Montrez que Vp (θ) et V∞
(θ) sont connexes par arcs si ces ensembles sont munis
de la topologie induite de celle de Rn × Rm × Rn .
−
2) Montrez que tout point (x, y, s) de Vp (θ) et de V∞
(θ) vérifie x > 0 et s > 0, ce
o
−
o
qui peut s’écrire Vp (θ) ⊂ F et V∞ (θ) ⊂ F .
3) Démontrez les affirmations suivantes.S
(a) Si 1 6 p < +∞ S
et n > 2, alors 06θ<1 Vp (θ) 6= F o .
(b) Si n > 3, alors 06θ<1 V∞ (θ) 6= F o .
S
−
(c) Par contre, 06θ<1 V∞
(θ) = F o .
Extrait de “Éléments d’Optimisation Différentiable : Théorie et Algorithmes”,
J. Ch. Gilbert ([email protected]), à paraı̂tre. Version du 3
novembre 2010.
Bibliographie
[1] M. Aganagić (1984). Newton’s method for linear complementarity problems. Mathematical Programming, 28, 349–362. 575
[2] H. Akaike (1959). On a successive transformation of probability distribution and its
application to the analysis of the optimum gradient method. Ann. Inst. Statist. Math.
Tokyo, 11, 1–16. 259
[3] F. Al-Kkayyal, J. Kiparisis (1990). Finite convergence of algorithms for nonlinear programs and variational inequalities. Journal of Optimization Theory and Applications,
70, 319–332. 367
[4] G.E. Alefeld, A. Frommer, G. Heindl, J. Mayer (2004). On the existence theorems of
Kantorovich, Miranda and Borsuk. Electronic Transactions on Numerical Analysis,
17, 102–111. 336
[5] G.E. Alefeld, F.A. Potra, Z. Shen (2001). On the existence theorems of Kantorovich,
Moore and Miranda. Computing, 15, 21–28. 336
[6] V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.
183
[7] F. Alizadeh (1995). Interior point methods in semidefinite programming with applications to combinatorial optimization. SIAM Journal on Optimization, 5, 13–51. 602
[8] F. Alizadeh, J.-P.A. Haeberly, M.L. Overton (1998). Primal-dual interior-point methods for semidefinite programming: convergence rates, stability and numerical results.
SIAM Journal on Optimization, 8, 746–768. 599
[9] E.L. Allgower, K. Georg (1990). Numerical Continuation Methods – An Introduction.
Springer Series in Computational Mathematics 13. Springer-Verlag. 336
[10] E.L. Allgower, K. Georg (1993). Continuation and path following. In Acta Numerica 1993, Tome 2, pages 1–64. Cambridge University Press. 336
[11] E.D. Andersen, K.D. Andersen (1999). The MOSEK interior-point optimizer for linear programming: an implementation of the homogeneous algorithm. In S. Zhang,
H. Frenk, C. Roos, T. Terlaky, éditeurs, High Performance Optimization Techniques,
pages 197–232. Kluwer Academic Publishers, Dordrecht, The Netherlands. 563
[12] R. Andreani, E.G. Birgin, J.M. Martı́nez, M.L. Schuverdt (2007). On augmented Lagrangian methods with general lower-level constraints. SIAM Journal on Optimization,
18, 1286–1302. 405
[13] P.L. De Angelis, G. Toraldo (1993). On the identification property of a projected
gradient method. SIAM Journal on Numerical Analysis, 30, 1483–1497. 367
[14] K.M. Anstreicher, M.H. Wright (2000). A note on the augmented Hessian when the
reduced Hessian is semidefinite. SIAM Journal on Optimization, 11, 243–253. 631
[15] I.K. Argyros (2008).
Convergence and Applications of Newton-type Iterations.
Springer. 337
[16] P. Armand, J.Ch. Gilbert, S. Jan-Jégou (2002). A BFGS-IP algorithm for solving
strongly convex optimization problems with feasibility enforced by an exact penalty
approach. Mathematical Programming, 92, 393–424. 489
[17] L. Armijo (1966). Minimization of functions having Lipschitz continuous first partial
derivatives. Pacific Journal of Mathematics, 16, 1–3. 241, 259
657
658
Bibliographie
[18] K.J. Arnold, J.V. Beck (1977). Parameter Estimation in Engineering and Science.
John Wiley & Sons, New York. 508
[19] K.J. Arrow, F.J. Gould, S.M. Howe (1973). A generalized saddle point result for
constrained optimization. Mathematical Programming, 5, 225–234. 413, 451
[20] K.J. Arrow, R.M. Solow (1958). Gradient methods for constrained maxima with weakened assumptions. In K.J. Arrow, L. Hurwicz, H. Uzawa, éditeurs, Studies in Linear
and Nonlinear Programming, pages 166–176. Stanford University Press, Standford,
Calif. 412
[21] H. Attouch, H. Brézis (1986). Duality for the sum of convex functions in general
Banach spaces. In J.A. Barroso, éditeur, Aspects of Mathematics and its Applications,
North-Holland Math. Library 34, pages 125–133. North-Holland, Amsterdam. 97
[22] J.-P. Aubin, I. Ekeland (1984). Applied Nonlinear Analysis. John Wiley & Sons, New
York. 120, 184
[23] A. Auger, O. Teytaud (2007). Continuous lunches are free plus the design of optimal
optimization algorithms. Algorithmica. 5
[24] A. Auslender, R. Cominetti, M. Haddou (1997). Asymptotic analysis for penalty
and barrier methods in convex and linear programming. Mathematics of Operations
Research, 22, 43–62. 79
[25] A. Auslender, M. Teboulle (2000). Lagrangian duality and related multiplier methods
for variational inequality problems. SIAM Journal on Optimization, 10, 1097–1115.
430, 452
[26] A. Auslender, M. Teboulle (2003). Asymptotic Cones and Functions in Optimization
and Variational Inequalitites. Springer Monographs in Mathematics. Springer, New
York. 8, 13, 38, 50, 51, 53, 105, 106, 107, 120, 429
[27] A. Auslender, M. Teboulle, S. Ben-Tiba (1999). A logarithmic-quadratic proximal
method for variational inequalitites. Computational Optimization and Applications,
12, 31–40. 413, 452
[28] A. Auslender, M. Teboulle, S. Ben-Tiba (1999). Interior proximal and multiplier methods based on second order homogeneous functionals. Mathematics of Operations Research, 24, 645–668. 413
[29] J.B. Baillon (2002). Communication personnelle. 489
[30] V. Barbu, T. Precupanu (1975). Convexity and Optimization in Banach Spaces. Editura Academiei, Bucarest. 120, 184
[31] Y. Bard (1974). Nonlinear Parameter Estimation. Academic. 508
[32] J. Barzilai, J.M. Borwein (1988). Two-point step size gradient methods. IMA Journal
of Numerical Analysis, 8, 141–148. 259
[33] H.H. Bauschke, J.M. Borwein (1996). On projection algorithms for solving convex
feasibility problems. SIAM Review, 38, 367–426. 189, 190
[34] H.H. Bauschke, E. Matoušková, S. Reich (2004). Projection and proximal point methods: convergence results and counterexamples. Nonlinear Analysis, 56, 715–738. 97
[35] J.-L. Beauvois, R.-V. Joule (1987). Petit traité de manipulation à l’usage des honnêtes
gens. Presses Universitaires de Grenoble. 379
[36] R. Bellman, K. Fan (1963). On systems of linear inequalities in Hermitian matrix
variables. In Proceedings of Symposia in Pure Mathematics, Vol. 7. AMS. 602
[37] R.E. Bellman, R.R. Kalaba, J. Lockett (1966). Numerical Inversion of the Laplace
Transform. Elsevier. 260
[38] A. Ben-Tal, A. Nemirovski (2001). Lectures on Modern Convex Optimization – Analysis, Algorithms, and Engineering Applications. MPS-SIAM Series on Optimization 2.
SIAM. 496, 564, 584, 588, 589, 630
[39] J.M. Bennet (1965). Triangular factors of modified matrices. Numerische Mathematik,
7, 217–221. 630
Bibliographie
659
[40] Commandant Benoı̂t (1924). Note sur une méthode de résolution des équations normales provenant de l’application de la méthode des moindres carrés à un système
d’équations linéaires en nombre inférieur à celui des inconnues. Aplication de la
méthode à la résolution d’un système défini d’équations linéaires (Procédé du Commandant Cholesky). Bulletin Géodésique (Toulouse), 2, 67–77. 630
[41] M. Bergounioux, M. Haddou, M. Hintermüller, K. Kunisch (2000). A comparison of
a Moreau-Yosida-based active set strategy and interior point methods for constrained
optimal control problems. SIAM Journal on Optimization, 11, 495–521. 575
[42] M. Bergounioux, K. Ito, K. Kunisch (1999). Primal-dual strategy for constrained
optimal control problems. SIAM Journal on Control and Optimization, 37, 1176–1194.
575
[43] D.P. Bertsekas (1976). On the Goldstein-Levitin-Polyak gradient projection method.
IEEE Transactions on Automatic Control, 21, 174–184. 366, 367, 378
[44] D.P. Bertsekas (1976). Multiplier methods: a survey. Automatica, 12, 133–145. 413
[45] D.P. Bertsekas (1982). Projected Newton methods for optimization problems with
simple constraints. SIAM Journal on Control and Optimization, 20, 221–246. 367
[46] D.P. Bertsekas (1982). Constrained Optimization and Lagrange Multiplier Methods.
Academic Press. 405, 451
[47] D.P. Bertsekas (1995). Nonlinear Programming. Athena Scientific. 13, 117, 260, 452,
502
[48] D.P. Bertsekas (1999). Nonlinear Programming (seconde édition). Athena Scientific.
405
[49] D. Bertsimas, J.N. Tsitsiklis (1997). Introduction to linear optimization. Athena Scientific, Belmont, Massachusetts. 36, 514, 530
[50] M.J. Best (1984). Equivalence of some quadratic programming algorithms. Mathematical Programming, 30, 71–87. 376
[51] L.T. Biegler, O. Ghattas, M. Heinkenschloss, B. van Bloemen Waanders, éditeurs
(2003). Large-Scale PDE-Constrained Optimization. Springer, Berlin. 14
[52] E.G. Birgin, R.A. Castillo, J.M. Martı́nez (2005). Numerical comparison of augmented
Lagrangian algorithms for nonconvex problems. Computational Optimization and Applications, 31, 31–55. 413
[53] G. Birkhoff (1946). Tres observaciones sobre el algebra lineal. Universidad Nacionale
Tucamán Revista, 5, 147–151. 55
[54] Å. Björck (1996). Numerical Methods for Least Squares Problems. SIAM Publication,
Philadelphia. 508
[55] Å. Björck (2004). The calculation of linear least squares problems. In Acta Numerica 2004, pages 1–53. Cambridge University Press. 508
[56] Å. Björck, T. Elfving, Z. Strakos (1998). Stability of conjugate gradient and Lanczos
methods for linear least squares problems. SIAM Journal on Matrix Analysis and
Applications, 19, 720–736. 503, 504
[57] L. Blum, F. Cucker, M. Shub, S. Smale (1988). Complexity and Real Computation.
Springer Verlag. 225
[58] L. Blum, M. Shub, S. Smale (1988). On a theory of computations over the real numbers:
NP-completeness, recursive functions and universal machines. In Proceedings of the
29th Symp. Foundations of Computer Science, pages 387–397. 195
[59] I.M. Bomze (2010). Global optimization: a quadratic programming perspective. In
G. Di Pillo, F. Schoen, éditeurs, Numerical Optimization, Lecture Notes in Mathematics 1989, pages 1–53. Springer-Verlag. 576
[60] J.F. Bonnans (1989). Asymptotic admissibility of the unit stepsize in exact penalty
methods. SIAM Journal on Control and Optimization, 27, 631–641. 414
[61] J.F. Bonnans (1989). Local study of Newton type algorithms for constrained problems.
In S. Dolecki, éditeur, Optimization, Lecture Notes in Mathematics 1405, pages 13–24.
Springer-Verlag. 449
660
Bibliographie
[62] J.F. Bonnans (1989). A variant of a projected variable metric method for bound
constrained optimization problems. Rapport de recherche, INRIA, BP 105, 78153 Le
Chesnay, France. 367
[63] J.F. Bonnans (1994). Local analysis of Newton-type methods for variational inequalities and nonlinear programming. Applied Mathematics and Optimization, 29, 161–186.
449
[64] J.F. Bonnans, J.Ch. Gilbert, C. Lemaréchal, C. Sagastizábal (2006). Numerical Optimization – Theoretical and Practical Aspects (seconde édition). Universitext. Springer
Verlag, Berlin. [authors] [editor] [google books]. 14, 259, 449, 459, 564
[65] J.F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems.
Springer Verlag, New York. 120, 133, 184
[66] K.-H. Borgwardt (1982). The average number of pivot steps required by the simplexmethod is polynomial. Z. Oper. Res., (26), A157–A177. 512
[67] K.-H. Borgwardt (1987). The Simplex Method: A Probabilistic Analysis. Springer,
Berlin. 512
[68] J.M. Borwein, A.S. Lewis (2000). Convex Analysis and Nonlinear Optimization.
Springer, New York. 38, 39, 48, 51, 56, 82, 87, 107, 120, 122, 126, 127, 429, 430,
592, 667
[69] A. Bouaricha, R.B. Schnabel (1998). Tensor methods for large sparse systems of
nonlinear equations. Mathematical Programming, 83, 377–400. 337
[70] G. Bouligand (1932). Introduction à la Géométrie Infinitésimale Directe. GauthierVillars, Paris. 133
[71] S. Boyd, L. El Ghaoui, E. Feron, V. Balikrishnan (1994). Linear Matrix Inequalities
in System and Control Theory. SIAM, Philadelphia, PA, USA. 584, 588
[72] S. Boyd, L. Vandenberghe (2004). Convex Optimization. Cambridge University Press.
14
[73] C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton,
New Jersey. 183
[74] C. Brezinski (2006). The life and work of André Cholesky. Numerical Algorithms, 43,
279–288. 630
[75] H. Brézis (1973). Opérateurs maximaux monotones et semi-groupes de contractions
dans les espaces de Hilbert. North-Holland, Amsterdam. 120
[76] H. Brézis (1983). Analyse Fonctionnelle Appliquée. Masson, Paris. 6, 13, 44, 120, 609
[77] K.W. Brodlie, A.R. Gourlay, J. Greenstadt (1973). Rank-one and rank-two corrections
to positive definite matrices expressed in product form. Journal of the Institute of
Mathematics and its Applications, 11, 73–82. 348
[78] P.N. Brown (1991). A theoretical comparison of the Arnoldi and GMRES algorithms.
SIAM Journal on Scientific and Statistical Computing, 12, 58–78. 271
[79] P.N. Brown, Y. Saad (1990). Hybrid Krylov methods for nonlinear systems of equations. SIAM Journal on Scientific and Statistical Computing, 11, 450–481. 333
[80] C.G. Broyden (1970). The convergence of a class of double rank minimization algorithms, part I. Journal of the Institute of Mathematics and its Applications, 6, 76–90.
348
[81] R.E. Bruck, S. Reich (1977). Nonexpansive projections and resolvents of accretive
operators in Banach spaces. Houston Journal of Mathematics, 3, 459–470. 406
[82] J.V. Burke (1989). A sequential quadratic programming method for potentially infeasible mathematical programs. Journal of Mathematical Analysis and Applications,
139, 319–351. 454
[83] J.V. Burke (1991). An exact penalization viewpoint of constrained optimization. SIAM
Journal on Control and Optimization, 29, 968–998. 126, 454
[84] J.V. Burke, J.J. Moré (1988). On the identification of active constraints. SIAM Journal
on Numerical Analysis, 25, 1197–1211. 367
Bibliographie
661
[85] J.V. Burke, J.J. Moré (1994). Exposing constraints. SIAM Journal on Optimization,
4, 573–595. 367
[86] J.D. Buys (1972). Dual algorithms for constrained optimization. Thèse de doctorat,
Rijksuniversiteit te Leiden, Leiden, The Netherlands. 412
[87] R.H. Byrd, J.Ch. Gilbert, J. Nocedal (2000). A trust region method based on interior
point techniques for nonlinear programming. Mathematical Programming, 89, 149–185.
564
[88] R.H. Byrd, P. Lu, J. Nocedal, C.Y. Zhu (1995). A limited memory algorithm for bound
constrained optimization. SIAM Journal on Scientific Computing, 16(6), 1190–1208.
361
[89] R.H. Byrd, M. Marazzi, J. Nocedal (2001, avril). On the convergence of Newton
iterations to non-stationary points. Rapport de recherche, Department of Electrical
Engineering and Computer Science, Northwestern University, Evanston, Il 60208, USA.
327
[90] R.H. Byrd, J. Nocedal, R.B. Schnabel (1994). Representations of quasi-Newton matrices and their use in limited memory methods. Mathematical Programming, 63, 129–156.
361
[91] P.H. Calamai, J.J. Moré (1987). Projected gradient methods for linearly constrained
problems. Mathematical Programming, 39, 93–116. 367
[92] C. Carathéodory (1911). Über den Variabilitätsbereich der Fourier’schen Konstanten von positiven harmonischen Funktionen. Rendiconti del Circolo Matematico de
Palermo, 32, 193–217. 23
[93] C.W. Carroll (1961). The created response surface technique for optimizing nonlinear
restrained systems. Operations Research, 9, 169–184. 395
[94] A.L. Cauchy (1847). Méthode générale pour la résolution des systèmes d’équations
simultanées. Comptes Rendus de l’Académie des Sciences de Paris, t25, 536–538. 231
[95] Y. Censor, S. Zenios (1992). Proximal minimization algorithm with D-functions. Journal of Optimization Theory and Applications, 73, 451–464. 413
[96] J.-L. Chabert, Évelyne Barbin, Michel Guillemot, Anne Michel-Pajus, Jacques
Borowczyk, Ahmed Djebbar, J.-C. Martzloff (1994). Histoire d’Algorithmes – Du Caillou à la Puce. Regards sur la Science. Belin, Paris. 336, 499
[97] R. Chandrasekaran (1970). A special case of the complementary pivot problem.
Opsearch, 7, 263–268. 575
[98] Y.-Y. Chang, R.W. Cottle (1980). Least-index resolution of degeneracy in quadratic
programming. Mathematical Programming, 18, 127–137. 374
[99] B.W. Char, K.O. Geddes, G.H. Gonnet, M.B. Monagan, S.M. Watt (1988). Maple
reference manuel. Symbolic Computation Group, Department of Computer Science,
University of Waterloo, Ontario, Canada. 211
[100] G. Chavent (2003). Curvature steps and geodesics moves for nonlinear least squares
descent algorithms. Inverse Problems in Engineering. 508
[101] A. Chiche, J.Ch. Gilbert (2010). How the augmented Lagrangian algorithm deals with
an infeasible convex quadratic optimization problems. Rapport de recherche, INRIA,
BP 105, 78153 Le Chesnay, France. À paraı̂tre. 403, 404, 406, 457, 575
[102] A.L. Cholesky (1910). Sur la résolution numérique des systèmes d’équatiions linéaires.
Manuscrit retrouvé par C. Brezinski dans les archives d’André Louis Cholesky qu’une
personne de sa famille, M. Gross-Cholesky, a léguées à l’École Polytechnique. 623, 630
[103] G. Choquet (1969). Cours d’Analyse – Tome II : Topologie. Masson, Paris. 610
[104] G. Choquet (1969). Integration and Topological Vector Spaces, Lecture on Analysis,
Tome 1. W.A. Benjamin, Inc. 188
[105] V. Chvátal (1983). Linear Programming. W.H. Freeman, New York. 33, 57, 530
[106] P.G. Ciarlet (1982). Introduction à l’Analyse Numérique Matricielle et à l’Optimisation. Masson, Paris. 13, 259
662
Bibliographie
[107] P.G. Ciarlet (1988). Introduction à l’Analyse Numérique Matricielle et à l’Optimisation
(seconde édition). Masson, Paris. 530
[108] F.H. Clarke (1983). Optimization and Nonsmooth Analysis. John Wiley & Sons, New
York. 187, 454, 646
[109] K.A. Cliffe, A. Spence, S.J. Tavener (2000). The numerical analysis of bifurcation
problems with application to fluid mechanics. In Acta Numerica 2000, pages 39–131.
Cambridge University Press. 336
[110] A. Cobham (1965). The intrinsic computational difficulty of functions. In Y. Bar-Hillel,
éditeur, Proc. 1964 International Congress for Lagic, Methodology and Philosophy of
Science, pages 20–30. North-Holland, Amsterdam. 225
[111] G. Cohen (2000). Convexité et Optimisation. École Nationale Supérieure des Ponts et
Chaussées et INRIA. 120, 260, 442
[112] R. Cominetti (1999). Nonlinear averages and convergence of penalty trajectories in convex programming. In Michel Théra, Rainer Tichatschke, éditeurs, Ill-posed Variational
Problems and Regularization Techniques, Lecture Notes in Economics and Mathematical System 477, pages 65–78. Springer Verlag, Berlin. 489
[113] A.R. Conn, N.I.M. Gould, A. Sartenaer, Ph.L. Toint (1996). Convergence properties
of an augmented Lagrangian algorithm for optimization with a combination of general
equality and linear constraints. SIAM Journal on Optimization, 6, 674–703. 405
[114] A.R. Conn, N.I.M. Gould, Ph.L. Toint (1991). A globally convergent augmented Lagrangian algorithm for optimization with general constraints and simple bounds. SIAM
Journal on Numerical Analysis, 28, 545–572. 405
[115] A.R. Conn, N.I.M. Gould, Ph.L. Toint (1992). LANCELOT: A Fortran Package for
Large-Scale Nonlinear Optimization (Release A). Computational Mathematics 17.
Springer Verlag, Berlin. 405
[116] A.R. Conn, N.I.M. Gould, Ph.L. Toint (2000). Trust-Region Methods. MPS-SIAM
Series on Optimization 1. SIAM and MPS, Philadelphia. 14
[117] L. Contesse (1980). Une caractérisation complète des minima locaux en programmation
quadratique. Numerische Mathematik, 34, 315–332. 576
[118] D. Coppersmith, S. Winograd (1982). On the asymptotic complexity of matrix multiplications. SIAM Journal on Computing, 11, 472–492. 276
[119] R.W. Cottle, J.-S. Pang, R.E. Stone (1992). The Linear Complementarity Problem.
Academic Press, Boston. 362
[120] P. Courtier, O. Talagrand (1987). Variational assimilation of meteorological observations with the adjoint vorticity equation. I: Theory. Quaterly Journal of the Royal
Meteorological Society, 113, 1311–1328. 360
[121] P. Courtier, O. Talagrand (1987). Variational assimilation of meteorological observations with the adjoint vorticity equation. II: Numerical results. Quaterly Journal of
the Royal Meteorological Society, 113, 1329–1347. 360
[122] D.A. Cox, J.B. Little, D. O’Shea (2007). Ideals, Varieties, and Algorithms: An Introduction to Computational Algebraic Geometry and Commutative Algebra (troisième
édition). Undergraduate Texts in Mathematics. Springer, New York. 321
[123] J.Ch. Culioli (1994). Introduction à l’Optimisation. Ellipses, Paris. 13
[124] H.B. Curry (1944). The method of steepest descent for non-linear minimization problems. Quaterly of Applied Mathematics, 2, 258–261. 259
[125] J. Czyzyk, S. Mehrotra, M. Wagner, S.J. Wright (1999). PCx: an interior-point code
for linear programming. Optimization Methods and Software, 11-12, 397–430. 563
[126] Y.H. Dai (2002). Convergence properties of the bfgs algoritm. SIAM Journal on
Optimization, 13, 693–701. 361
[127] G.B. Dantzig (1951). Maximization of a linear function of variables subject to linear inequalities. In Tj.C. Koopmans, éditeur, Activity Analysis of Production and Allocation,
pages 339–347. Wiley, New York. 512, 524
Bibliographie
663
[128] W.C. Davidon (1959). Variable metric methods for minimization. AEC Research and
Development Report ANL-5990, Argonne National Laboratory, Argonne, Illinois. 191
[129] W.C. Davidon (1991). Variable metric methods for minimization. SIAM Journal on
[130] E. de Klerk, D.V. Pasechnik (2007). A linear programming reformulation of the standard quadratic optimization problem. Journal of Global Optimization, 37, 75–84. 576
[131] E. de Klerk, C. Roos, T. Terlaky (1998). Infeasible-start semidefinite programming
algorithms via self dual imbeddings. Fields Institute Communications, 18, 215–236.
597
[132] E.J. Dean, R. Glowinski (2006). An augmented Lagrangian approach to the numerical solution of the Dirichlet problem for the elliptic Monge-Ampère equation in two
dimensions. Electronic Transactions on Numerical Analysis, 22, 71–96. 406
[133] J.-P. Dedieu (2006). Points Fixes, Zéros et la Méthodes de Newton. Mathématiques
et Applications 54. Springer Verlag, Berlin. 337
[134] F. Delbos, J.Ch. Gilbert (2005). Global linear convergence of an augmented Lagrangian
algorithm for solving convex quadratic optimization problems. Journal of Convex
Analysis, 12, 45–69. [preprint] [editor]. 403, 404, 406, 408, 413, 575
[135] R.S. Dembo, S.C. Eisenstat, T. Steihaug (1982). Inexact Newton methods. SIAM
[136] R.S. Dembo, T. Steihaug (1983). Truncated-Newton algorithms for large-scale unconstrained optimization. Mathematical Programming, 26, 190–212. 337
[137] J.W. Demmel (1997). Applied Numerical Linear Algebra. SIAM. 630
[138] D. den Hertog (1992). Interior Point Approach to Linear, Quadratic and Convex
Programming. Mathematics and its Applications 277. Kluwer Academic Publishers,
Dordrecht. 563
[139] J.E. Dennis, D.M. Gay, R.E. Welsch (1981). An adaptive nonlinear least squares
algorithm. ACM Transactions on Mathematical Software, 7, 348–368. 507
[140] J.E. Dennis, H.F. Walker (1984). Inaccuracy in quasi-Newton methods: local improvement theorems. Mathematical Programming Study, 22, 70–85. 337
[141] P. Deuflhard (2004). Newton Methods for Nonlinear Problems – Affine Invariance and
Adaptative Algorithms. Computational Mathematics 35. Springer, Berlin. 337
[142] P. Deuflhard, G. Heindl (1980). Affine invariant convergence theorems for Newton’s
method and extensions to related methods. SIAM Journal on Numerical Analysis, 16,
1–10. 336
[143] J. Dieudonné (1960). Foundation of modern analysis. Academic Press. 596
[144] E.D. Dolan, J.J. Moré (2002). Benchmarking optimization software with performance
profiles. Mathematical Programming, 91, 201–213. 225
[145] Z. Dostál (2005). Inexact semimonotonic augmented Lagrangians with optimal feasibility convergence for convex bound and equality constrained quadratic programming.
SIAM Journal on Numerical Analysis, 43, 96–115. 405
[146] Z. Dostál, A. Friedlander, S.A. Santos (1999). Augmented Lagrangians with adaptive
precision control for quadratic programming with equality constraints. Computational
Optimization and Applications, 14, 37–53. 405
[147] Z. Dostál, A. Friedlander, S.A. Santos (2003). Augmented Lagrangians with adaptive precision control for quadratic programming with simple bounds and equality
constraints. SIAM Journal on Optimization, 13, 1120–1140. 405
[148] Z. Dostál, A. Friedlander, S.A. Santos, K. Alesawi (2000). Augmented Lagrangians
with adaptive precision control for quadratic programming with equality constraints:
corrigendum and addendum. Computational Optimization and Applications, 23, 127–
133. 405
[149] Z. Dostál, F.A.M. Gomes, S.A. Santos (2000). Duality based domain decomposition
with natural coarse space for variational inequalities. Journal of Computational and
Applied Mathematics, 126, 397–415. 405
664
Bibliographie
[150] J. Drkošová, A. Greenbaum, M. Rozložnı́k, Z. Strakoš (1995). Numerical stability of
GMRES. BIT, 35, 309–330. 276
[151] I.S. Duff, J.K. Reid (1982). MA27 – A set of Fortran subroutines for solving sparse
symmetric sets of linear equations. Rapport de Recherche AERE R10533, HMSO,
London. 502
[152] I.S. Duff, J.K. Reid (1983). The multifrontal solution of indefinite sparse symmetric
linear equations. ACM Transactions on Mathematical Software, 9, 302–325. 502
[153] I.S. Duff, J.K. Reid (1996). Exploiting zeros on the diagonal in the direct solution
of indefinite sparse symmetric linear systems. ACM Transactions on Mathematical
Software, 22, 227–257. 502
[154] J.C. Dunn (1987). On the convergence of projected gradient processes to singular
critical points. Journal of Optimization Theory and Applications, 55, 203–216. 367
[155] J. Eckstein (1993). Nonlinear proximal point algorithms using Bregman functions,
with applications to convex programming. Mathematics of Operations Research, 18,
202–226. 413
[156] J. Eckstein, P.J.S. Silva (2010). Proximal methods for nonlinear programming: double
regularization and inexact subproblems. Computational Optimization and Applications, 46, 279–304. 401, 405, 413
[157] J. Eckstein, P.J.S. Silva (2010). A practical relative error criterion for augmented
Lagrangians. Rapport de recherche. 405
[158] J. Edmonds (1965). Paths, trees, and flowers. Canad. J. Math., 17, 449–467. 225
[159] I. Ekeland (2000). Le meilleur des mondes possibles. Le Seuil, Paris. 183
[160] I. Ekeland, R. Temam (1974). Analyse Convexe et Problèmes Variationnels. Dunod,
Paris. 87, 120, 184, 451
[161] I.I. Eremin (1965). The relaxation method of solving systems of inequalities with
convex functions on the left-hand sides. Doklady Akad. Nauk SSSR, 160, 994–996. 226
[162] I.I. Eremin (1969). Fejer mappings and problems of convex optimization. Sibirsk. Mat.
Zh., 10, 1034–1047. 226
[163] I.I. Eremin, V.D. Mazurov (1979). Nestacionarnye Processy Programmirovanija.
Moskva. En russe. 226
[164] A. Ern, V. Giovangigli, D.E. Keyes, M.D. Smooke (1994). Towards polyalgorithmic
linear system solvers for nonlinear elliptic systems. SIAM Journal on Scientific Computing, 15, 681–703. 335
[165] V. Faber, T. Manteuffel (1984). Necessary and sufficient conditions for the existence
of a conjugate gradient method. SIAM Journal on Numerical Analysis, 21, 352–361.
270
[166] F. Facchinei, J.-S. Pang (2003). Finite-Dimensional Variational Inequalities and
Complementarity Problems (deux volumes). Springer Series in Operations Research.
Springer. 317, 337
[167] J.Y. Fan (2003). A modified Levenberg-Marquardt algorithm fpr singular system of
nonlinear equations. Journal of Computational Mathematics, 21, 625–636. 507
[168] J. Farkas (1901). Über die theorie der einfachen ungleichungen. Journal für die reine
und angewandte Mathematik, 124, 1–27. 1902 ? 53, 57
[169] W. Fenchel (1949). On conjugate functions. cjm, 1, 73–77. 451
[170] W. Fenchel (1951). Convex Cones, Sets, and Functions. Mimeographed Notes. Princeton University. 451
[171] A.V. Fiacco, G.P. McCormick (1968). Nonlinear Programming: Sequential Unconstrained Minimization Techniques. John Wiley, New York. 13, 183, 413, 564
[172] R. Fletcher (1970). A new approach to variable metric algorithms. The Computer
Journal, 13, 317–322. 348
[173] R. Fletcher (1980). Practical Methods of Optimization. Volume 1: Unconstrained Optimization. John Wiley & Sons, Chichester. 259
Bibliographie
665
[174] R. Fletcher (1982). A model algorithm for composite nondifferentiable optimization
problems. Mathematical Programming Study, 17, 67–76. 456
[175] R. Fletcher (1987). Practical Methods of Optimization (seconde édition). John Wiley
& Sons, Chichester. 13, 374, 405, 530
[176] R. Fletcher (1995). An optimal positive definite update for sparse Hessian matrices.
[177] R. Fletcher (2010). The sequential quadratic programming method. In G. Di Pillo,
F. Schoen, éditeurs, Numerical Optimization, Lecture Notes in Mathematics 1989,
pages 165–214. Springer-Verlag. 459
[178] R. Fletcher, M.J.D. Powell (1974). On the modification of LDLT factorizations. Mathematics of Computation, 28, 1067–1087. 630
[179] R. Fletcher, C.M. Reeves (1964). Function minimization by conjugate gradients. The
Computer Journal, 7, 149–154. 276
[180] A. Forsgren, P.E. Gill, M.H. Wright (2002). Interior methods for nonlinear optimization. SIAM Review, 44, 525–597. 564
[181] M. Fortin, R. Glowinski (1982). Méthodes de Lagrangien Augmenté – Applications
à la Résolution Numérique de Problèmes aux Limites. Méthodes Mathématiques de
l’Informatique 9. Dunod, Paris. 406, 413, 693
[182] J.B.J. Fourier (1827). Analyse des travaux de l’académie royale des sciences pendant
l’année 1824, partie mathématique. In Histoire de l’Académie Royale des Sciences de
l’Institut de France, Tome 7, pages xlvii–lv. 36
[183] M. Frank, P. Wolfe (1956). An algorithm for quadratic programming. Naval Research
Logistics Quarterly, 3, 95–110. 575, 576
[184] K.R. Frisch (1955). The logarithmic potential method for convex programming. Memorandum, Institute of Economics, University of Oslo, Oslo, Norway. 395
[185] A. Fuduli, J.Ch. Gilbert (2003). OPINL: a truncated Newton interior-point algorithm
for nonlinear optimization. Note de travail. 564
[186] E.M. Gafni, D.P. Bertsekas (1984). Two-metric projection methods for constrained
optimization. SIAM Journal on Control and Optimization, 22, 936–964. 367
[187] F.R. Gantmacher (1959). The Theory of Matrices, Tome 1. Chelsea, New York. 623
[188] M.R. Garey, D.S. Johnson (1979). Computers and Intractability: a Guide to the Theory
of NP-Completeness. W.H. Freeman, San Francisco. 194
[189] W. Gautschi (1997). Numerical Analysis – An Introduction. Birkhäuser, Boston. 208
[190] J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded
multipliers in nonconvex programming. Mathematical Programming, 12, 136–138. 162
[191] J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les
Publications CRM, Montréal. 183
[192] J. Gauvin (1995). Leçons de Programmation Mathématique. Éditions de l’École Polytechnique de Montréal, Montréal. 13
[193] D.M. Gay (1981). Computing optimal locally constrained steps. SIAM Journal on
Scientific and Statistical Computing, 2, 186–197. 311
[194] J. Genet (1976). Mesure et Intégration – Théorie Élémentaire. Vuibert. 666
[195] L. El Ghaoui, H. Lebret (1997). Robust solutions to least-squares problems with
uncertain data. SIAM Journal on Matrix Analysis and Applications, 18, 1035–1064.
507
[196] J.Ch. Gilbert (1992). Automatic differentiation and iterative processes. Optimization
Methods and Software, 1, 13–21. 225
[197] J.Ch. Gilbert (2008). Optimisation différentiable. In Editions T.I., éditeur, Techniques
de l’Ingénieur. Document AF-1-252. 13
[198] J.Ch. Gilbert (2008). QPAL – A solver of convex quadratic optimization problems,
using an augmented Lagrangian approach – Version 0.5. Internet link. 408
666
Bibliographie
[199] J.Ch. Gilbert, C. Gonzaga, E. Karas (2005). Examples of ill-behaved central paths in
convex optimization. Mathematical Programming, 103, 63–94. 489, 564
[200] J.Ch. Gilbert, X. Jonsson (2002). BFGS preconditioning of a trust region algorithm for
unconstrained optimization. Rapport de recherche, INRIA, BP 105, 78153 Le Chesnay,
France. À paraı̂tre. 311
[201] J.Ch. Gilbert, X. Jonsson (2008). LIBOPT – An environment for testing solvers on
heterogeneous collections of problems. Soumis à ACM Transactions on Mathematical
Software. 225
[202] J.Ch. Gilbert, G. Le Vey, J. Masse (1991). La différentiation automatique de fonctions
représentées par des programmes. Rapport de Recherche 1557, INRIA, BP 105, F78153 Le Chesnay, France. http://www.inria.fr/RRRT/RR-1557.html. 215, 216, 220,
225
[203] J.Ch. Gilbert, C. Lemaréchal (1989). Some numerical experiments with variablestorage quasi-Newton algorithms. Mathematical Programming, 45, 407–435. 342, 358
[204] J.Ch. Gilbert, J. Nocedal (1992). Global convergence properties of conjugate gradient
methods for optimization. SIAM Journal on Optimization, 2, 21–42. 268, 269
[205] J.Ch. Gilbert, J. Nocedal (1993). Automatic differentiation and the step computation
in the limited memory BFGS method. Applied Mathematics Letters, 6(3), 47–50. 361
[206] P.E. Gill, G.H. Golub, W. Murray, M.A. Saunders (1974). Methods for modifying
matrix factorizations. Mathematics of Computation, 28, 505–535. 630
[207] P.E. Gill, W. Murray (1972). Quasi-Newton methods for unconstrained optimization.
Journal of the Institute of Mathematics and its Applications, 9, 91–108. 355
[208] P.E. Gill, W. Murray (1977). Modification of matrix factorizations after a rank-one
change. In D.A.H. Jacobs, éditeur, The State of the Art in Numerical Analysis. Academic Press, London. 630
[209] P.E. Gill, W. Murray, M.A. Saunders (2002). SNOPT: an SQP algorithm for largescale constrained optimization. SIAM Journal on Optimization, 12, 979–1006. 456,
459
[210] P.E. Gill, W. Murray, M.H. Wright (1981). Practical Optimization. Academic Press,
New York. 13, 374, 630
[211] R. Glowinski, J.L. Lions, R. Tremolières (1976). Analyse Numérique des Inéquations
Variationnelles. Dunod-Bordas, Paris. 413
[212] R. Glowinski, J.L. Lions, R. Tremolières (1981). Numerical Analysis of Variational
Inequalities. North-Holland, Amsterdam, New York. 413
[213] D. Goldfarb (1970). A family of variable-metric method derived by variational means.
Mathematics of Computation, 24, 23–26. 348
[214] D. Goldfarb (1976). Factorized variable metric methods for unconstrained optimization. Mathematics of Computation, 30, 796–811. 348, 355
[215] D. Goldfarb, A. Idnani (1983). A numerically stable dual method for solving strictly
convex quadratic programs. Mathematical Programming, 27, 1–33. 355, 575
[216] D. Goldfarb, K. Scheinberg (1998). Interior point trajectories in semidefinite programming. SIAM Journal on Optimization, 8, 871–886. 597
[217] D. Goldfarb, M.J. Todd (1989). Linear programming. In G.L. Nemhauser, A.H.G. Rinnooy Kan, M.J. Todd, éditeurs, Handbooks in Operations Research and Management
Science, Tome 1: Optimization, chapter 2, pages 73–170. Elsevier Science Publishers
B.V., North-Holland. 530
[218] A.J. Goldman, A.W. Tucker (1956). Polyhedral convex cones. In H.W. Kuhn, A.W.
Tucker, éditeurs, Linear Inequalities and Related Systems, pages 19–40. Princeton University Press, Princeton.
[219] A.A. Goldstein (1962). Cauchy’s method of minimization. Numerische Mathematik,
4, 146–150. 241
Bibliographie
667
[220] A.A. Goldstein (1964). Convex programming in Hilbert space. Bulletin of the American
Mathematical Society, 70, 709–710. 364, 378
[221] A.A. Goldstein (1965). On steepest descent. SIAM Journal on Control, 3, 147–151.
241
[222] H.H. Goldstine (1977). A History of Numerical Analysis From the 16th Through the
19th Century. Studies in the History of Mathematics and Physical Sciences 2. SpringerVerlag, New York. 336
[223] E.G. Gol’shteı̆n, N.V. Tretyakov (1996). Modified Lagrangians and Monotone Maps
in Optimization. Discrete Mathematics and Optimization. John Wiley & Sons, New
York. 423, 452
[224] G.H. Golub, C.F. Van Loan (1996). Matrix Computations (troisième édition). The
Johns Hopkins University Press, Baltimore, Maryland. 630
[225] J. Gondzio (1995). HOPDM (version 2.12): a fast LP solver based on a primal-dual
interior point method. European Journal of Operations Research, 85, 221–225. 563
[226] C. Gonzaga (2001). Two facts on the convergence of the Cauchy algorithm. Journal
of Optimization Theory and Applications. À paraı̂tre. 259
[227] P. Gordan (1873). Über die Auflösung linearer Gleichungen mit reelen Coefficienten.
Mathematische Annalen, 6, 23–28. 57
[228] N.I.M. Gould, D. Orban, A. Sartenaer, Ph.L. Toint (2000). Superlinear convergence
of primal-dual interior point algorithms for nonlinear programming. Mathematical
Programming, 87, 215–249. 496
[229] N.I.M. Gould, D. Orban, Ph.L. Toint (2005). Numerical methods for large-scale nonlinear optimization. In Acta Numerica 2005, pages 299–361. Cambridge University
Press. 13, 459
[230] J.V. Grabiner (1983). The changing concept of change: the derivative from Fermat to
Weierstrass. Mathematics Magazine, 56, 195–206. 633
[231] B. Gracián (1647). Oracle manuel et art de prudence. Seuil. Recueil d’écrits de
Baltasar Gracián y Morales (1601-1658), traduits de l’espagnol, introduits et annotés
par Benito Pelegrı́n. 415
[232] J. Gray (2002). Adrien-Marie Legendre (1752-1833). European Mathematical Society
Newsletter, 45, 13. 508
[233] A. Greenbaum (1989). Behavior of slightly perturbed Lanczos and conjugate-gradient
recurrences. Linear Algebra and its Applications, 113, 7–63. 276
[234] A. Greenbaum (1994). The Lanczos and conjugate gradient algorithms in finite precision arithmetic. In J.D. Brown, M.T. Chu, D.C. Ellison, R.J. Plemmons, éditeurs,
Proceedings of the Cornelius Lanczos International Centenary Conference, pages 49–
60. SIAM, Philadelphia, PA, USA. 276
[235] A. Greenbaum (1997). Iterative Methods for Solving Linear Systems. SIAM, Philadelphia. 276
[236] A. Greenbaum (1997). Estimating the attainable accuracy of recursively computed
residual methods. SIAM Journal on Matrix Analysis and Applications, 18, 535–551.
276
[237] A. Greenbaum, Z. Strakoš (1992). Predicting the behavior of finite precision Lanczos
and conjugate gradient computations. SIAM Journal on Matrix Analysis and Applications, 13, 121–137. 276
[238] M. Grevisse (1986). Le Bon Usage – Grammaire Française. Duculot, Paris, Louvainla-Neuve. Douzième édition refondue par A. Goosse. 7, 132
[239] A. Griewank (1985). On solving nonlinear equations with simple singularities or nearly
singular solutions. SIAM Review, 27, 537–563. 336
[240] A. Griewank (1989). On automatic differentiation. In M. Iri, K. Tanabe, éditeurs,
Mathematical Programming: Recent Developments and Applications, pages 83–108.
Kluwer Academic Publishers, Dordrecht. 220
668
Bibliographie
[241] A. Griewank (1992). Achieving logarithmic growth of temporal and spatial complexity
in reverse automatic differentiation. Optimization Methods and Software, 1, 35–54. 219
[242] A. Griewank (2000). Evaluating Derivatives – Principles and Techniques of Algorithmic
Differentiation. SIAM Publication. 211, 225
[243] A. Griewank (2003). A mathematical view of automatic differentiation. In Acta Numerica 2003, pages 321–398. Cambridge University Press. 225
[244] A. Griewank, G. Corliss, éditeurs. Automatic Differentiation of Algorithms: Theory,
Implementation, and Application, number 53 in Proceedings in Applied Mathematics.
SIAM, Philadelphia, (1991). 225
[245] A. Griewank, A. Walther (2008). Evaluating Derivatives – Principles and Techniques
of Algorithmic Differentiation (seconde édition). SIAM Publication. 211, 225
[246] L. Grippo, F. Lampariello, S. Lucidi (1986). A nonmonotone line search technique for
Newton’s method. SIAM Journal on Numerical Analysis, 23, 707–716. 259
[247] M.H. Gutknecht (1997). Lanczos-type solvers for nonsymmetric linear systems of
equations. In Acta Numerica 1997, pages 271–397. Cambridge University Press. 276
[248] W. Hackbusch (1994). Iterative Solution of Large Sparse Systems of Equations. Applied
Mathematical Sciences 95. Springer-Verlag, New York.
[249] W.W. Hager (1993). Analysis and implementation of a dual algorithm for constrained
optimization. Journal of Optimization Theory and Applications, 79, 427–462. 405
[250] M. Halická (2001). Analyticity of the central path at the boundary point in semidefinite
programming. Rapport de recherche, Dep. of Appl. Math., FMFI UK, Mlynska dolina,
842 48 Bratislava, Slovakia. 597
[251] M. Halická, E. de Klerk, C. Roos (2002). On the convergence of the central path in
semidefinite optimization. SIAM Journal on Optimization, 12, 1090–1099. 597
[252] M. Halická, E. de Klerk, C. Roos (2002). Limiting behavior of the central path in
semidefinite optimization. Rapport de recherche. 597
[253] S.-P. Han (1976). Superlinearly convergent variable metric algorithms for general
nonlinear programming problems. Mathematical Programming, 11, 263–282. 459
[254] S.-P. Han (1977). A globally convergent method for nonlinear programming. Journal
of Optimization Theory and Applications, 22, 297–309. 459
[255] P.C. Hansen (1998). Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion. SIAM, Philadelphia. 508
[256] R.J. Hanson, C.L. Lawson (1969). Extensions and applications of the Householder
algorithm for solving linear least squares problems. Mathematics of Computation, 23,
787–812. 508
[257] P.T. Harker, J.-S. Pang (1990). A damped-Newton method for the linear complementarity problem. In E.L. Allgower, K. Georg, éditeurs, Computational Solution of
Nonlinear Systems of Equations, Lecture in Applied Mathematics 26. AMS, Providence, RI. 575
[258] R. Hauser, J. Nedič (2005). The continuous Newton-Raphson method can look ahead.
[259] R. Helgason, J. Kennington (1995). Handbooks in Operations Research and Management Science 7: Netwok Models. North-Holland. 530
[260] R. Helgason, J. Kennington, H. Lall (1980). A polynomially bounded algorithm for a
singly constrained quadratic program. Mathematical Programming, 18, 338–343. 575
[261] M.R. Hestenes (1969). Multiplier and gradient methods. Journal of Optimization
Theory and Applications, 4, 303–320. 412
[262] M.R. Hestenes (1975). Optimization theory: The finite dimensional case. Wiley, New
York. 168
[263] M.R. Hestenes, E. Stiefel (1952). Methods of conjugate gradients for solving linear
systems. Journal of Research of the National Bureau of Standards, 49, 409–436. 276,
503
Bibliographie
669
[264] N.J. Higham (2002). Accuracy and Stability of Numerical Algorithms (seconde édition).
SIAM Publication, Philadelphia. 234, 253, 276, 337, 625, 630, 679
[265] M. Hintermüller (2003). A primal-dual active set algorithm for bilaterally control
constrained optimal control problems. Quaterly of Applied Mathematics, 1, 131–160.
575
[266] M. Hintermüller, K. Ito, K. Kunisch (2003). The primal-dual active set strategy as a
semismooth Newton method. SIAM Journal on Optimization, 13, 865–888. 575
[267] J.-B. Hiriart-Urruty (1996). L’Optimisation. Que sais-je 3184. Presses Universitaires
de France. 14, 161, 183
[268] J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften 305-306. Springer-Verlag.
28, 80, 82, 83, 87, 92, 94, 97, 105, 110, 111, 115, 120, 124, 126, 129, 260, 280, 446, 451,
452, 453, 670, 671
[269] A.J. Hoffman (1952). On approximate solutions of systems of linear inequalities. Journal of Research of the National Bureau of Standard, 49, 263–265. 189
[270] R.A. Horn, C. Jonhson (1985). Matrix Analysis. Cambridge University Press, Cambridge, U.K. 56, 630
[271] A.S. Houselholder (1964). The Theory of Matrices in Numerical Analysis. Blaisdell,
New York. 623
[272] S. Van Huffel, J. Vandewalle (1991). The Total Least Squares Problem: Computational
Aspects and Analysis. Frontiers in Applied Mathematics 9. SIAM, Philadelphia, PA,
USA. 508
[273] C. Humes, P.J.S. Silva, B.F. Svaiter (2004). Some inexact hybrid proximal augmented
Lagrangian algorithms. Numerical Algorithms, 35, 175–184. 405
[274] J. Huschens (1994). On the use of production structure in secant methods for nonlinear
least squares problems. SIAM Journal on Optimization, 4, 108–129. 507
[275] M. Iri (1984). Simultaneous computation of functions, partial derivatives and estimates
of rounding errors, complexity and practicality. Japan Journal of Applied Mathematics,
1, 223–252. 216
[276] M. Iri, K. Kubota (1987). Methods of fast automatic differentiation and applications.
Research Memorandum RMI 87-02, Department of Mathematical Engineering and
Instrumentation Physics, Faculty of Engineering, University of Tokyo, Hongo 7-3-1,
Bunkyo-ku, Tokyo, Japan. 216
[277] K. Ito, K. Kunisch (2008). Lagrange Multiplier Approach to Variational Problems and
Applications. Advances in Design and Control. SIAM Publication, Philadelphia. 14,
184
[278] J. Jahn (1985). Scalarization in multi objective optimization. Springer-Verlag, Vienna.
122
[279] B. Jansen (1997). Interior Point Techniques in Optimization – Complementarity, Sensitivity and Algorithms. Applied Optimization 6. Kluwer Academic Publishers, Dordrecht. 564
[280] J.L.W.V. Jensen (1905). Om Konvekse Funktioner og Uligheder mellem Middelværdier. Nyt Tidsskr. Math., B 16, 49–68. 121
[281] J.L.W.V. Jensen (1906). Sur les fonctions convexes et les inégalités entre les valeurs
moyennes. Acta Math., 30, 175–193. 121
[282] H. Jiang, P.A. Forsyth (1995). Robust linear and nonlinear strategies for solution of
the transonic Euler equations. Comput. Fluids, 24, 753–770. 335
[283] F. John (1948). Extremum problems with inequalities as subsidiary conditions. In
K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant
Anniversary Volume, pages 186–204. Wiley Interscience, New York. 183
[284] L. Kantorovich (1939). The method of successive approximations for functional equations. Acta Math., 71, 63–97. 336
670
Bibliographie
[285] L. Kantorovich (1948). On Newton’s method for functional equations. Dokl. Akad.
Nauk SSSR, 59, 1237–1240. En russe. 336
[286] L. Kantorovich (1949). On Newton’s method. Trudy Mat. Inst. Steklov, 28, 104–144.
En russe. 336
[287] L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum
problems. Doklady Akad. Nauk SSSR, 28, 212–215. 183
[288] L.V. Kantorovich, G.P. Akilov (1982). Functional Analysis (seconde édition). Pergamon Press, London. 253, 336
[289] Ch. Kanzow (2004). Inexact semismooth Newton methods for large-scale complementarity problems. Optimization Methods and Software, 19, 309–325. 575
[290] N. Karmarkar (1984). A new polynomial-time algorithm for linear programming. Combinatorica, 4, 373–395.
[291] W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as
Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago,
Chicago. 183
[292] C.T. Kelley (1995). Iterative Methods for Linear and Nonlinear Equations. SIAM
Publication, Philadelphia. 13, 337
[293] C.T. Kelley (1999). Iterative Methods for Optimization. SIAM Publication, Philadelphia. 14, 337
[294] C.T. Kelley (2003). Solving Nonlinear Equations with Newton’s Method. SIAM Publication, Philadelphia. 337
[295] C.T. Kelley, D.E. Keyes (1998). Convergence analysis of pseudo-transient continuation.
[296] D.E. Keyes (1995). Aerodynamic applications of Newton-Krylow-Schwarz solvers. In
M. Deshpande, S. Desai, R. Narasimha, éditeurs, Proc. 14th Internat. Conference on
Numerical Methods in Fluid Dynamics, pages 1–20. Springer. 335
[297] K.V. Kim, Yu.E. Nesterov, B.V. Cherkasskiı̆ (1984). An estimate of the effort in
computing the gradient. Soviet Math. Dokl., 29, 384–387. 216
[298] V. Klee, G.L. Minty (1972). How good is the simplex algorithm ? In O. Shisha, éditeur,
Inequalities III, pages 159–175. Academic Press, New York. 512, 530
[299] D.A. Knoll, D.E. Keyes (2004). Jacobian-free Newton-Krylov methods: a survey of
approaches and applications. Journal of Computational Physics, 193, 357–397. 337
[300] M. Kojima, S. Mizuno, A. Yoshise (1989). A primal-dual interior-point method for
linear programming. In N. Megiddo, éditeur, Progress in Mathematical Programming,
Interior-point and Related Methods, pages 29–47. Springer-Verlag, New York. 563
[301] M. Kojima, S. Mizuno, A. Yoshise (1989). A polynomial-time algorithm for a class of
linear complementarity problems. Mathematical Programming, 44, 1–26. 563
[302] M. Kojima, S. Shindo (1986). Extension of Newton and quasi-Newton methods to
systems of PC1 equations. Journal of Operations Research Society of Japan, 29, 352–
375. 337
[303] D. König (1936). Theorie der Endlichen and Unendlichen Graphen. Akademische
Verlagsgegesellschaft, Leipzig. 55
[304] M.A. Krasnosel’skii, S.G. Krein (1952). An iteration process with minimal residues.
Mat. Sb., 31, 315–334. En russe. 259
[305] M. Kubicek, M. Marek (1983). Computational Methods in Bifurcation Theory and
Dissipative Structures. Springer Series in Comput. Phys. Springer-Verlag, New York.
336
[306] H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle,
C.E.Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–
26. American Mathematical Society, Providence, RI. 183
[307] H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J. Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability,
pages 481–492. University of California Press, Berkeley, California. 183
Bibliographie
671
[308] J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242–246. 161
[309] R. Laraki (2004). On the regularity of the convexification operator on a compact set.
Journal of Convex Analysis, 11, 209–234. 188
[310] R. Laraki, J.B. Lasserre (2008). Computing uniform convex approximations for convex
envelopes and convex hulls. Journal of Convex Analysis. À paraı̂tre. 189
[311] P. Lascaux, R. Théodor (1986). Analyse Numérique Matricielle Appliquée à l’Art de
l’Ingénieur. Masson, Paris. 630
[312] J.B. Lasserre (1997). A Farkas lemma without s standard closure condition. SIAM
Journal on Control and Optimization, 35, 265–272. 50
[313] J.B. Lasserre (2001). Global optimization with polynomials and the problem of moments. SIAM Journal on Optimization, 11, 796–817. 321
[314] J.B. Lasserre (2008). Cours du Mastère 2, voie OJME, Université Paris VI. 15
[315] P.-J. Laurent (1972). Approximation et Optimisation. Hermann, Paris. 451
[316] F.-X. Le Dimet, I.M. Navon, D.N. Daescu (2001). Second order information in data
assimilation. Monthly Weather Review. 225
[317] E.B. Lee, L. Markus (1967). Foundations of Optimal Control Theory (première
édition). Wiley. 200
[318] C. Lemaréchal. Lagrangian relaxation. In M. Jünger, D. Naddef, éditeurs, Computational Combinatorial Optimization, pages 115–160. Springer-Verlag, Heidelberg. 452
[319] C. Lemaréchal (1981). A view of line-searches. In A. Auslender, W. Oettli, J. Stoer,
éditeurs, Optimization and Optimal Control, Lecture Notes in Control and Information
Science 30, pages 59–78. Springer-Verlag, Heidelberg. 259
[320] K. Levenberg (1944). A method for the solution of certain nonlinear problems in least
squares. Quart. Appl. Math., 2, 164–168. 311, 507
[321] E.S. Levitin, B.T. Polyak (1966). Constrained minimization problems. USSR. Comput.
Math. and Math. Phys., 6, 1–50. 364, 378
[322] D.H. Li, M. Fukushima (2001). A modified bfgs method and its global convergence
in nonconvex minimization. Journal of Computational and Applied Mathematics, 129,
15–35. 361
[323] Y.Y. Lin, J.-S. Pang (1987). Iterative methods for large scale convex quadratic programs: a survey. SIAM Journal on Control and Optimization, 25, 383–411. 452
[324] J.L. Lions (1968). Contrôle Optimal de Systèmes Gouvernés par des Equations aux
Dérivées Partielles. Etudes Mathématiques. Dunod – Gauthier-Villars, Paris. 200, 205
[325] D.C. Liu, J. Nocedal (1989). On the limited memory BFGS method for large scale
optimization. Mathematical Programming, 45, 503–520. 358
[326] S. Lucidi, M. Roma (1978). Nonmonotone conjugate gradient methods for optimization. In J. Henry, J.-P. Yvon, éditeurs, System Modelling and Optimization, Lecture
Notes in Control and Information Sciences 170, pages 206–214. Springer-Verlag, Berlin.
259
[327] Z.-Q. Luo, J.-S. Pang (2000). Error bounds in mathematical programming. Mathematical Programming, 88, 221–222. 190
[328] Z.-Q. Luo, J.-S. Pang, D. Ralph (1996). Mathematical Programs with Equilibrium
Constraints. Cambridge University Press. 187
[329] Z.-Q. Luo, J.F. Sturm, S. Zhang (1998). Superlinear convergence of a symmetric
primal-dual path following algorithm for semidefinite programming. SIAM Journal on
[330] J.-M. Mandosio (2010). Présentation. In Grammaire Générale et Raisonnée d’Antoine
Arnauld et Claude Lancelot, 1660. Éditions Allia. 3
[331] O.L. Mangasarian, S. Fromovitz (1967). The Fritz John necessary optimality conditions in the presence of equality and inequality constraints. Journal of Mathematical
Analysis and Applications, 17, 37–47. 183
672
Bibliographie
[332] D.W. Marquardt (1963). An algorithm for least-squares estimation of nonlinear parameters. Journal of the Society for Industrial and Applied Mathematics, 11, 431–441.
294, 311, 507
[333] R.K. Martin (1999). Large Scale Linear and Integer Optimization: a Unified Approach.
Kluwer Academic Publishers, Boston. 530
[334] B. Martinet (1970). Régularisation d’inéquations variationnelles par approximations
successives. Revue Française d’Informatique et Recherche Opérationnelle, R-3, 154–
179. 260, 261
[335] J.M. Martı́nez (1994). Local minimizers of quadratic functions on Euclidean balls and
spheres. SIAM Journal on Optimization, 4, 159–176. 311
[336] W.F. Mascarenhas (2004). The BFGS method with exact line searches fails for nonconvex objective functions. Mathematical Programming, 99, 49–61. 357, 361
[337] W.F. Mascarenhas (2008). Newton’s iterates can converge to non-stationary points.
Mathematical Programming, 112, 327–334. 336
[338] H. Maurer, J. Zowe (1979). First and second-order necessary and sufficient optimality
conditions for infinite-dimensional programming problems. Mathematical Programming, 16, 98–110. 168
[339] J. Mawhin (1992). Analyse – Fondements, Techniques, Évolution. De Boeck. 183, 610
[340] J. Mawhin, N. Rouche (1973). Équations Différentielles Ordinaires, Tome 1: Théorie
Générale. Masson et Cie , Paris. 255
[341] G.P. McCormick (1983). Nonlinear Programming. Theory, Algorithms and Applications. J. Wiley & Sons, New York. 13
[342] L. McLinden (1980). An analogue of Moreau’s proximation theorem, with application
to the nonlinear complementarity problem. Pacific Journal of Mathematics, 88, 101–
161. 564, 597
[343] N. Megiddo (1987). On the complexity of linear programming. In T. Bewley, éditeur,
Advances in Economic Theory, pages 225–268. Cambridge Univ. Press, Cambridge.
512
[344] S. Mehrotra (1992). On the implementation of a primal-dual interior point method.
[345] F. Meng, G. Zhao, M. Goh, R. De Souza (2008). Lagrangian-dual functions and
Moreau-Yosida regularization. SIAM Journal on Optimization, 19, 39–61. 451
[346] H. Minkowski (1896). Geometrie der Zahlen. Teubner, Leipzig. 53
[347] M. Minoux (1983). Programmation Mathématique. Théorie et Algorithmes. Dunod,
Paris. 530
[348] G.J. Minty (1962). Monotone (nonlinear) operators in Hilbert spaces. Duke Math. J.,
29, 341–346. 120
[349] G.J. Minty (1964). On the monotonicity of the gradient of a convex function. Pacific
J. Math., 14, 243–247. 120
[350] S. Mizuno (1992). A new polynomial time method for a linear complementarity problem. Mathematical Programming, 56, 31–43. 547
[351] S. Mizuno, M.J. Todd, Y. Ye (1993). On adaptive-step primal-dual interior-point
algorithms for linear programming. Mathematics of Operations Research, 18, 964–981.
563
[352] Montaigne (1572-1592). Les Essais. Gallimard. Adaptation en français moderne par
André Lanly, 2009. 3
[353] R. Monteiro, I. Adler (1989). Interior path following primal-dual algorithms. part I:
linear programming. Mathematical Programming, 44, 27–41. 563
[354] R.D.C. Monteiro (2003). First- and second-order methods for semidefinite programming. Mathematical Programming, 97, 209–244. 602
Bibliographie
673
[355] R.D.C. Monteiro, M. Todd (2000). Path-following methods. In H. Wolkowicz, R. Saigal, L. Vandenberghe, éditeurs, Handbook of Semidefinite Programming – Theory, Algorithms, and Applications, chapter 10, pages 267–306. Kluwer Academic Publishers.
602
[356] R.D.C. Monteiro, P.R. Zanjacomo (1997). A note of the existence of the alizadehhaeberly-overton direction for semidefinite programming. Mathematical Programming,
78, 393–396. 600
[357] R.D.C. Monteiro, F. Zhou (1998). On the existence and convergence of the central
path for convex programming and some duality results. Computational Optimization
and Applications, 10, 51–77. 489, 597
[358] B.S. Mordukhovich (2006). Variational Analysis and Generalized Differentiation.
Grundlehren der mathematischen Wissenschaften 330-331. Springer. 184
[359] J.J. Moré (1983). Recent developments in algorithms and software for trust region
methods. In A. Bachem, M. Grötschel, B. Korte, éditeurs, Mathematical Programming,
the State of the Art, pages 258–287. Springer-Verlag, Berlin. 311
[360] J.J. Moré, D.C. Sorensen (1983). Computing a trust region step. SIAM Journal on
Scientific and Statistical Computing, 4, 553–572. 301
[361] J.J. Moré, G. Toraldo (1989). Algorithms for bound constrained quadratic programming problems. Numerische Mathematik, 55, 377–400. 367
[362] J.J. Moré, S.A. Vavasis (1991). On the solution of concave knapsack problems. Mathematical Programming, 49, 397–411. 575
[363] J.J. Moreau (1965). Proximité et dualité dans un espace hilbertien. Bulletin de la
Société Mathématique de France, 93, 273–299. 56, 120
[364] W. Mulder, B.V. Leer (1985). Experiments with implicit upwind methods for the Euler
equations. Journal of Computational Physics, 59, 232–246. 335
[365] P.J. Nahin (2004). When Least Is Best – How Mathematicians Discovered Many Clever
Ways to Make Things as Small (or as Large) as Possible. Princeton University Press.
v
[366] U. Naumann (2008). Optimal jacobian accumulation is np-complete. Mathematical
Programming, 112, 427–441. 225
[367] L. Nazareth (1994). The Newton-Cauchy Framework – A unified approach to unconstrained nonlinear minimization. Lecture Notes in Computer Science 769. SpringerVerlag. 13
[368] E.D. Nering, A.W. Tucker, éditeurs (1993). Linear Programs and Related Problems.
Academic Press. 530
[369] Y. Nesterov (2004). Introductory Lectures on Convex Optimization – A Basic Course.
Kluwer Academic Publishers. 14, 496
[370] Y.E. Nesterov, A.S. Nemirovskii (1993). An interior point method for generalized
linear-fractional programming. Rapport de recherche. 461, 481, 496
[371] Y.E. Nesterov, A.S. Nemirovskii (1994). Interior-Point Polynomial Algorithms in Convex Programming. SIAM Studies in Applied Mathematics 13. SIAM, Philadelphia, PA,
USA. 185, 461, 564, 584, 602
[372] J. Nocedal (1980). Updating quasi-Newton matrices with limited storage. Mathematics
of Computation, 35, 773–782. 358, 361
[373] J. Nocedal, R.A. Waltz (2001). Knitro 1.00 – User’s manual. Department of Electrical
Engineering and Computer Science, Northwestern University, Evanston, Il 60208, USA.
564
[374] J. Nocedal, S.J. Wright (2006). Numerical Optimization (seconde édition). Springer
Series in Operations Research. Springer, New York. 14, 185
[375] Y. Notay (1993). On the convergence rate of the conjugate gradients in presence of
rounding errors. Numerische Mathematik, 65, 301–317. 276
674
Bibliographie
[376] J.M. Ortega, W.C. Rheinboldt (1970). Iterative Solution of Nonlinear Equations in
Several Variables. Academic Press, New York. 13
[377] M. Padberg (1999). Linear Optimization and Extensions (seconde édition). Springer,
Berlin. 530
[378] C.C. Paige, M.A. Saunders (1982). LSQR: an algorithm for sparse linear equations
and sparse least squares. ACM Transactions on Mathematical Software, 8, 43–71. 504
[379] J.-S. Pang (1990). Newton’s method for B-differentiable equations. Mathematics of
Operations Research, 15, 311–341. 337
[380] J.-S. Pang (1997). Error bounds in mathematical programming. Mathematical Programming, 79, 299–332. 190
[381] C.H. Papadimitriou, K. Steiglitz (1982). Combinatorial optimization: Algorithms and
Complexity. Prentice-Hall, New Jersey. 194
[382] P.M. Pardalos, S.A. Vavasis (1992). Open questions in complexity theory for numerical
optimization. Mathematical Programming, 57, 337–339. 576
[383] V.Th. Paschos (2004). Complexité et approximation polynomiale. Lavoisier, Paris. 225
[384] V.Th. Paschos, éditeur (2005). Optimisation combinatoire 1 – Concepts fondamentaux.
Lavoisier, Paris. 5, 225
[385] E. Polak (1971). Computational Methods in Optimization: A Unified Approach. Academic Press, New York. 259
[386] E. Polak (1997). Optimization – Algorithms and Consistent Approximations. Applied
Mathematical Sciences 124. Springer. 14
[387] B. Polyak (2001). History of mathematical programming in the ussr: analyzing the
phenomenon. Mathematical Programming. 183
[388] M.J.D. Powell (1969). A method for nonlinear constraints in minimization problems.
In R. Fletcher, éditeur, Optimization, pages 283–298. Academic Press, London. 412
[389] M.J.D. Powell (1970). A hybrid method for nonlinear equations. In P. Rabinowitz,
éditeur, Numerical Methods for Nonlinear Algebraic Equations, pages 87–114. Gordon
and Breach, New York. 241, 311, 336
[390] M.J.D. Powell (1973). On search directions for minimization algorithms. Mathematical
Programming, 4, 193–201. 259
[391] M.J.D. Powell (1975). Convergence properties of a class of minimization algorithms.
In O.L. Mangasarian, R.R. Meyer, S.M. Robinson, éditeurs, Nonlinear Programming
2, pages 1–27. Academic Press, New York. 311
[392] M.J.D. Powell (1976). Some global convergence properties of a variable metric algorithm for minimization without exact line searches. In R.W. Cottle, C.E. Lemke,
éditeurs, Nonlinear Programming, SIAM-AMS Proceedings 9. American Mathematical
Society, Providence, RI. 361
[393] M.J.D. Powell (1978). Algorithms for nonlinear constraints that use Lagrangian functions. Mathematical Programming, 14, 224–248. 459
[394] M.J.D. Powell (1984). Nonconvex minimization calculations and the conjugate gradient
method. In Lecture Notes in Mathematics 1066, pages 122–141. Springer-Verlag, Berlin.
361
[395] M.J.D. Powell (1984). On the global convergence of trust region algorithms for unconstrained minimization. Mathematical Programming, 29, 297–303.
[396] M.J.D. Powell (1987). Updating conjugate directions by the BFGS formula. Mathematical Programming, 38, 29–46. 355
[397] M.J.D. Powell (2000). On the convergence of the DFP algorithm for unconstrained
optimization when there are only two variables. Mathematical Programming, 87, 281–
301. 361
[398] L. Pronzato, H.P. Wynn, A.A. Zhigljavsky (2001). Renormalised steepest descent in
Hilbert space converges to a two-point attractor. Acta Applicandae Mathematicae, 67,
1–18. 259
Bibliographie
675
[399] L. Pronzato, H.P. Wynn, A.A. Zhigljavsky (2004). Asymptotic behaviour of a family
of gradient algorithms in Rd and Hilbert spaces. Manuscript. 259
[400] B.N. Pshenichnyj (1994). The Linearization Method for Constrained Optimization.
Computational Mathematics 22. Springer-Verlag. 459
[401] L. Qi, J. Sun (1993). A nonsmooth version of Newton’s method. Mathematical Programming, 58, 353–367. 337
[402] M. Ramana (1997). An exact duality theory for semidefinite programming and its
complexity implications. Mathematical Programming, 77, 129–162. 602
[403] M. Ramana, L. Tunçel, H. Wolkowicz (1997). Strong duality for semidefinite programming. SIAM Journal on Optimization, 7, 641–662. 602
[404] John Rawls (1987). Théorie de la Justice. Collection Points 354. Seuil. Traduction
française de Catherine Audard da la version remaniée en 1975 de A Theory of Justice,
The Belknap Press of Harvard University Press, 1971. 417
[405] S. Reich (1977). On infinite products of resolvents. Rend. Classe Sci. Fis. Mat. e Nat.
Accad. Naz. Lincei Ser. VIII, LXIII, Fasc. 5. 406
[406] J. Renegar (2001). A Mathematical View of Interior-Point Methods in Convex Optimization. MPS-SIAM Series on Optimization 3. SIAM. 453, 496, 564
[407] S.M. Robinson (1976). First order conditions for general nonlinear optimization. SIAM
Journal on Applied Mathematics, 30, 597–607. 188
[408] S.M. Robinson (1982). Generalized equations and their solutions, part II: applications
to nonlinear programming. Mathematical Programming Study, 19, 200–221. 168, 188
[409] R.T. Rockafellar (1969). Convex functions and duality in optimization problems and
dynamics. Lecture Notes in Operations Research and Mathematical Economics 11,
pages 117–141. Springer-Verlag. 429, 430, 451
[410] R.T. Rockafellar (1970). Convex Analysis. Princeton Mathematics Ser. 28. Princeton
University Press, Princeton, New Jersey. 27, 28, 43, 55, 59, 61, 69, 70, 82, 83, 84, 92,
94, 97, 102, 105, 107, 108, 111, 112, 120, 123, 124, 129, 451, 454, 665, 670
[411] R.T. Rockafellar (1971). New applications of duality in convex programming. In Proceedings of the 4th Conference of Probability, Brasov, Romania, pages 73–81. (version
écrite d’un exposé donné à différentes conférences, en particulier au “7th International
Symposium on Mathematical Programming”, La Haye, 1970). 412, 451
[412] R.T. Rockafellar (1973). A dual approach to solving nonlinear programming problems
by unconstrained optimization. Mathematical Programming, 5, 354–373. 412, 451
[413] R.T. Rockafellar (1973). The multiplier method of Hestenes and Powell applied to
convex programming. Journal of Optimization Theory and Applications, 12, 555–562.
399, 412, 452
[414] R.T. Rockafellar (1974). Augmented Lagrange multiplier functions and duality in
nonconvex programming. SIAM Journal on Control, 12, 268–285. 412, 413
[415] R.T. Rockafellar (1974). Conjugate Duality and Optimization. Regional Conference
Series in Applied Mathematics 16. SIAM, Philadelphia, PA, USA. 451
[416] R.T. Rockafellar (1976). Monotone operators and the proximal point algorithm. SIAM
Journal on Control and Optimization, 14, 877–898. 128, 260, 261
[417] R.T. Rockafellar (1976). Augmented Lagrangians and applications of the proximal
point algorithm in convex programming. Mathematics of Operations Research, 1, 97–
116. 128, 260, 451
[418] R.T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183–
238. 17, 135, 183
[419] C. Roos, T. Terlaky, J.-Ph. Vial (1997). Theory and Algorithms for Linear Optimization – An Interior Point Approach. John Wiley & Sons, Chichester. 564
[420] A. Ruszczyński (1995). On convergence of an augmented Lagrangian decomposition
method for sparse convex optimization. Mathematics of Operations Research, 20, 634–
656. 451
676
Bibliographie
[421] A. Ruszczynski, A. Shapiro (2003). Handbooks in Operations Research and Management Science, Tome 10: Stochastic Programming. Elsevier Science Publishers B.V.,
North-Holland. 121
[422] Y. Saad (2003). Iterative Methods for Sparse Linear Systems (seconde édition). SIAM
Publication, Philadelphia. 276
[423] Y. Saad, M.H. Schultz (1986). GMRES: a generalized minimal residual algorithm
for solving non symmetric linear systems. SIAM Journal on Scientific and Statistical
Computing, 7, 856–869. 276
[424] Y. Saad, H.A. van der Vorst (2000). Iterative solution of linear systems in the 20th
century. Journal of Computational and Applied Mathematics, 123, 1–33. 276
[425] S. Sahni (1974). Computationally related problems. SIAM Journal on Computing, 3,
262–279. 576
[426] R. Saigal (1995). Linear Programming – A Modern Integrated Analysis. Kluwer Academic Publisher, Boston. 530, 564
[427] J.W. Sawyer (1984). First partial differentiation by computer with an application to
categorial data analysis. The American Statistician, 38, 300–308. 216
[428] Cplex. Internet link. 563
[429] Mozek. Internet link. 563
[430] SeDuMi. Internet link. 563
[431] R.B. Schnabel (1983). Quasi-Newton methods using multiple secant equations. Technical Report CU-CS-247-83, Departement of Computer Sciences, University of Colorado,
Boulder, USA. 361
[432] D. Schott (1995). Basic properties of Fejer monotone sequences. Rostocker Mathematisches Kolloquium, 49, 57–74. 226
[433] A. Schrijver (1986). Theory of Linear and Integrated Programming. John Wiley &
Sons. 530
[434] L. Schwartz (1991). Analyse I – Théorie des Ensembles et Topologie. Hermann, Paris.
610, 653, 654
[435] L. Schwartz (1992). Analyse II – Calcul Différentiel et Équations Différentielles. Hermann, Paris. 633, 643, 645
[436] R. Shamir (1987). The efficiency of the simplex method: a survey. Management Science,
33, 301–334. 512
[437] D.F. Shanno (1970). Conditioning of quasi-Newton methods for function minimization.
Mathematics of Computation, 24, 647–656. 348
[438] G.A. Shultz, R.B. Schnabel, R.H. Byrd (1985). A family of trust-region-based algorithms for unconstrained minimization with strong global convergence properties.
[439] D. Siegel (1993). Updating conjugate direction matrices using members of Broyden’s
family. Mathematical Programming, 60, 167–185. 355
[440] P.J.S. Silva, J. Eckstein (2006). Double-regularization proximal methods, with complementarity applications. Computational Optimization and Applications, 33, 115–156.
413
[441] M. Slater (1950). Lagrange multipliers revisited: a contribution to non-linear programming. Cowles Commission Discussion Paper, Math. 403. 183
[442] S. Smale (1983). On the average number of steps of the simplex method of linear
programming. Mathematical Programming, 27, 241–262. 512
[443] M.V. Solodov, B.F. Svaiter (1999). A hybrid approximate extragradient-proximal
point algorithm using the enlargement of a maximal monotone operator. Set-Valued
Analysis, 7, 323–345. 405
[444] M.V. Solodov, B.F. Svaiter (1999). A hybrid projection-proximal point algorithm.
Journal of Convex Analysis, 6, 59–70. 405
Bibliographie
677
[445] M.V. Solodov, B.F. Svaiter (2000). An inexact hybrid generalized proximal point
algorithm and some new results on the theory of Bregman functions. Mathematics of
[446] G. Sonnevend, J. Stoer, G. Zhao (1989). On the complexity of following the central
path of linear programs by linear extrapolation. Mathematics of Operations Research,
63, 19–31. 563
[447] G. Sonnevend, J. Stoer, G. Zhao (1991). On the complexity of following the central
path of linear programs by linear extrapolation II. Mathematical Programming, 52,
527–553. 563
[448] D.C. Sorensen (1982). Newton’s method with a model trust region modification. SIAM
[449] D.C. Sorensen (1982). Collinear scaling and sequential estimation in sparse optimization algorithms. Mathematical Programming, 18, 135–159. 361
[450] B. Speelpenning (1980). Compiling fast partial derivatives of functions given by algorithms. PhD thesis, Department of Computer Science, University of Illinois at UrbanaChampaign, Urbana, IL 61801. 216
[451] J.E. Spingarn (1987). A projection method for least-squares solutions to overdetermined systems of linear inequalities. Linear Algebra and its Applications, 86, 211–236.
406
[452] G. Sporre, A. Forsgren (2002). Characterization of the limit point of the central path
in semidefinite programming. Rapport de recherche. 597
[453] T. Steihaug (1983). The conjugate gradient method and trust regions in large scale
optimization. SIAM Journal on Numerical Analysis, 20, 626–637.
[454] J.M. Stern, S.A. Vavasis (1993). Active set methods for problems in column block
angular form. Mat. Apl. Comput., 12, 199–226. 576
[455] E. Stiefel (1952). Ausleichung ohne aufstellung der gausschen normalgleichungen. Wiss.
Z. Technische Hochschule Dresden, 2, 441–442. 503
[456] V. Strassen (1969). Gaussian elimination is not optimal. Numerische Mathematik, 13,
354–356. 276
[457] B. Stroustrup (1994). The Design and Evolution of C++. Addison-Wesley. vi
[458] J.F. Sturm (1999). Using SeDuMi 1.02, a Matlab toolbox for optimization over symmetric cones. Optimization Methods and Software, 11, 625–653. 563, 602
[459] O. Talagrand (1997). Assimilation of observations, an introduction. Journal of the
Met. Soc. of Japan, 75(1B), 191–209. 502
[460] M. Teboulle (1992). Entropic proximal mappings with applications to nonlinear programming. Mathematics of Operations Research, 17, 670–681. 413
[461] T. Terlaky, éditeur (1996). Interior Point Methods of Mathematical Programming.
Kluwer Academic Press, Dordrecht. 564
[462] T. Terlaky, S. Zhang (1993). Pivot rules for linear programming – a survey. Annals of
[463] S.W. Thomas (1975). Sequential estimation techniques for quasi-Newton algorithms.
Thèse de doctorat, Cornell University, Ithaca, NY. 311
[464] A.N. Tikhonov (1963). Solution of ill-posed problems and the regularization method.
Soviet Mathematics Doklady, 4, 1035–1038. 508
[465] F. Tisseur (2001). Newton’s method in floating point arithmetic and iterative refinement of generalized eigenvalue problems. SIAM Journal on Matrix Analysis and
Applications, 22, 1038–1057. 337
[466] M.J. Todd (2001). Semidefinite optimization. In Acta Numerica 2001, pages 515–560.
Cambridge University Press. 594, 602
[467] M.J. Todd, K.-C. Toh andR.H. Tütüncü (1998). On the Nesterov-Todd direction in
semidefinite programming. SIAM Journal on Optimization, 8, 769–796. 600
678
Bibliographie
[468] Ph.L. Toint (1977). On sparse and symmetric matrix updating subject to a linear
equation. Mathematics of Computation, 31, 954–961. 361
[469] L.N. Trefethen, D. Bau (1997). Numerical Linear Algebra. SIAM Publication, Philadelphia. 630
[470] A. van der Sluis (1969). Condition numbers and equilibration of matrices. Numerische
Mathematik, 15, 14–23. 266
[471] H.A. van der Vorst (1990). The convergence behaviour of preconditioned CG and CGS in the presence of rounding errors. In O. Axelsson, L.Y. Kolotilina, éditeurs, Preconditioned Conjugate Gradient Methods, Lecture Notes in Mathematics 1457, pages
126–136. Springer-Verlag, Berlin. 276
[472] H.A. van der Vorst (2003). Iterative Krylov Methods for Large Linear Systems. Cambridge monographs on applied and computational mathematics 13. Cambridge University Press, Oxford. 276
[473] L. Vandenberghe, S. Boyd (1996). Semidefinite programming. SIAM Review, 38, 49–95.
588, 602
[474] R.J. Vanderbei (1997). Linear Programming: Foundations and Extensions. Kluwer
Academic Publishers, Boston. 530, 564
[475] S.A. Vavasis (1991). Nonlinear Optimization – Complexity Issues. Oxford University
Press, New York. 194, 195, 198, 574, 575, 576
[476] S.A. Vavasis (1992). Local minima for indefinite quadratic knapsack problems. Mathematical Programming, 57, 127–153. 575
[477] Vax Unix Macsyma: Reference manual, version 11 (1985). Symbolics. 211
[478] V. Venkatakrishnan (1989). Newton solution of inviscid and viscous problems. AIAA
J., 27, 885–891. 335
[479] J. Ville (1938). Sur la théorie générale des jeux où intervient l’habileté des joueurs. In
Traité du Calcul des Probabilités et de ses Applications, E. Borel, Tome IV, Fascicule II,
Applications aux jeux de hasard, J. Ville (ed.), pages 105–113. Gauthier-Villars, Paris.
57
[480] V.V. Voevodin (1983). The problem of a non-selfadjoint generalization of the conjugate
gradient method has been closed. USSR Computational Math. and Math. Phys., 23,
143–144. 270
[481] N. Watanabe, Y. Nishimura, M. Matsubara (1978). Decomposition in large system
optimization using the method of multipliers. Journal of Optimization Theory and
Applications, 25, 181–193.
[482] L.T. Watson (1990). Globally convergent homotopy algorithms for nonlinear systems
of equations. Nonlinear Dynamics, 1, 143–191. 336
[483] A.C. Williams (1970). Boundedness relations for linear constraint sets. Linear Algebra
and its Applications, 3, 129–141.
[484] R.B. Wilson (1963). A simplicial algorithm for concave programming. Thèse de doctorat, Graduate School of Business Administration, Harvard University, Cambridge,
MA, USA. 459
[485] P. Wolfe (1969). Convergence conditions for ascent methods. SIAM Review, 11, 226–
235. 259
[486] P. Wolfe (1971). Convergence conditions for ascent methods II: some corrections. SIAM
Review, 13, 185–188. 259
[487] P. Wolfe (1972). On the convergence of gradient methods under constraint. IBM
Journal of Research and Development, 16, 407–411. 361
[488] H. Wolkowicz, R. Saigal, L. Vandenberghe, éditeurs (2000). Handbook of Semidefinite
Programming – Theory, Algorithms, and Applications. Kluwer Academic Publishers.
564, 578, 584, 588, 590, 602
[489] D.H. Wolpert, W.G. Macready (1997). No free lunch theorems for optimization. IEEE
Transactions on Evolutionary Computation, 1, 67–82. 5
Bibliographie
679
[490] S. Wright, D. Orban (2002). Properties of the log-barrier function on degenerate
nonlinear programs. Mathematics of Operations Research, 27, 585–613. 496
[491] S.J. Wright (1993). Identifiable surfaces in constrained optimization. SIAM Journal
on Control and Optimization, 31, 1063–1079. 367
[492] S.J. Wright (1997). Primal-Dual Interior-Point Methods. SIAM Publication, Philadelphia. 557, 563
[493] S.J. Wright (1999). Modified Cholesky factorizations in interior-point algorithms for
linear programming. SIAM Journal on Optimization, 9, 1159–1191. 563
[494] H. Yabe, N. Yamaki (1995). Convergence of a factorized Broyden-like family for nonlinear least squares problems. SIAM Journal on Optimization, 5, 770–790. 507
[495] Y. Ye (1992). On the finite convergence of interior-point algorithms for linear programming. Mathematical Programming, 57, 325–336. 545
[496] Y. Ye (1997). Interior Point Algorithms – Theory and Analysis. Wiley-Interscience
Series in Discrete Mathematics and Optimization.
Wiley. 538, 564
√
[497] Y. Ye, M.J. Todd, S. Mizuno (1994). An O( nL)-iteration homogeneous and self-dual
linear programming algorithm. Mathematics of Operations Research, 19, 53–67. 562
[498] T.J. Ypma (1983). Finding a multiple zero by transformations and Newton-like methods. SIAM Review, 25, 365–378. 336
[499] T.J. Ypma (1995). Historical development of the Newton-Raphson method. SIAM
Review, 37, 531–551. 336
[500] Y. Yuan (2010). A short note on the Q-linear convergence of the steepest descent
method. Mathematical Programming, 123, 339–343. 254
[501] A.J. Zaslavski (2009). Optimization on Metric and Normed Spaces. Optimization and
its Applications 44. Springer, New York. 13
[502] X. Zhan (2002). Matrix Inequalities. Springer. 630
[503] Y. Zhang (1998). On extending some primal-dual interior-point algorithms from linear
programming to semidefinite programming. SIAM Journal on Optimization, 8, 365–
386. 600
[504] Y. Zhang (1998). Solving large-scale linear programs with interior-point methods under
the Matlab environment. Optimization Methods and Software, 10, 1–31. 563
[505] G. Zoutendijk (1970). Nonlinear programming, computational methods. In J. Abadie,
éditeur, Integer and Nonlinear Programming, pages 37–86. North-Holland, Amsterdam.
259
La figure C.1 donne par tranche de 10 ans la fréquence des publications contenues
dans cette bibliographie en fonction de leur date de parution (cette idée a été empruntée à N. Higham [264]). On constate une croissance exponentielle de celles-ci
jusqu’en 1990. Cette évolution reflète, selon nous, l’accroissement des activités de
recherche dans ce domaine, mais aussi le filtre qu’opèrent les articles de synthèse
et notre mémoire sur le passé. Quant au tassement de la croissance observé dans
la tranche 1990-1999, le lecteur est libre d’en avoir sa propre interprétation . . . On
constate également que l’optimisation numérique est une discipline jeune. Les publications d’avant 1950 sont relatives à l’analyse convexe et à l’algèbre linéaire, parfois
à l’optimisation, mais guère aux aspects numériques de cette dernière discipline, qui
ne se sont développés qu’après la seconde guerre mondiale.
novembre 2010.
140
120
100
80
60
40
20
0
1900
1910
1920
1930
1940
1950
1960
1970
1980
1990
2000
2010
Fig. C.1. Fréquence des publications de la bibliographie en fonction de leur date de parution.
Index
adhérence, 603
– enveloppe affine d’une –, 31, 56
affine, voir enveloppe, fonction, hyperplan,
minorante, sous-espace
algorithme, voir aussi méthode
– à directions de descente, 225
– à mémoire limitée, 338
– à régions de confiance, 280
– affine, 542
– avec activation de contraintes, 367–377
– CGLS (gradient conjugué pour problèmes
de moindres-carrés linéaires), 503
– d’Arrow-Hurwicz, 441
– de BFGS, 346
– de Fletcher-Lemaréchal, 235, 236, 238
– de Gauss-Newton, 230, 506
– de Gauss-Seidel, 250
– de Gram-Schmidt, 614
– de la plus profonde descente, 227
– de la sécante, 339
– de Levenberg-Marquardt, 507
– de minimisation de la fonction duale,
437
– de Moré-Sorensen, 301
– de Newton, 228
– de Newton en optimisation, 319
– – tronqué, 325, 326, 334
– de Newton pour système non linéaire,
315
– – globalisation par recherche linéaire,
324
– – inexact, 321, 324, 334
– de pénalisation extérieure, 385
– de pénalisation intérieure, 395
– de points intérieurs, 512
– de points-frontière, 512
– de quasi-Newton, 229
– – réduit, 458
– de relaxation, 250
– de suivi de chemin, 542
–
–
–
–
–
des directions conjuguées, 259–260
dogleg de Powell, 297
du gradient, 227
du gradient avec projection, 364
du gradient conjugué, 14, 228, 253, 261,
260–262, 502
– – préconditionné, 265–266, 277
– – projeté, 266, 277
– – réduit, 277
– du lagrangien augmenté, 440
– du résidu minimal (GMRES), 254, 270–
276
– du résidu orthogonal, 271
– du simplexe, 512, 528
– GMRES, 273
– ℓ-BFGS, 356
– LSQR (Paige et Saunders), 504
– proximal, 246, 252
– SQP, 448, 448
– – réduit, 457
– une coordonnée à la fois, 250
angle de descente, 224, 229, 239, 324, 353
application linéaire
– adjointe, 610
– auto-adjointe, 610
– continue, 607
– continue inversible, 607
arête d’un ensemble convexe, 29
argmin, 4
Armijo, 233
Arnoldi, 271
Arrow, 441
augmentabilité, 404, 631
Bachelard, v
Banach
– lemme de perturbation, 608
base
– d’indices, 515
– d’un espace vectoriel, 613
681
682
Index
– de Gröbner, 320
Benders, 530
Borel, 604
borne d’erreur, 183
Borsuk, 334
boule, voir aussi minimisation
– centre d’une –, 605
– fermée, 605
– ouverte, 605
– rayon d’une –, 605
Bouligand, 129
Bouveresse, v
Broyden, 343, 357
Carathéodory, 27
cas difficile, 294
Cauchy, 223, 295, voir aussi entrelacement, inégalité, pas de recherche linéaire,
point, recherche linéaire, suite
Céline, v
centrage, 544
centre analytique, 535, 538
– de la face optimale, 539
centre de gravité, 538
chemin central
– en optimisation linéaire, 533, 534
chemin continu, 565
chiffre sigificatif correct, 187
Cholesky, 630, voir aussi factorisation
code
– Lbfgs, 356
– linéaire cotangent, 212
– linéaire tangent, 208
– M1qn3, 356
codimension, 613
combinaison
– affine, 24
– conique, 27
– convexe, 25
combinaison d’éléments, 653
combinatoire, 488
combinatoire des problèmes d’optimisation, 165, 535, 568
commande
– optimale, 195
communication
– directe, 215
– inverse, 215
commutativité
– d’une inf-convolution, 84
– de matrices, 631
complément de Schur, 584
complémentarité, 148, 518
– stricte, 148, 591
complexité, 188–193, 276, 568
– itérative, 542, 545
composante
– basique, 515
– non basique, 515
concordance, 282
condition, voir aussi inégalité
– d’Armijo, 232
– de croissance positive à l’infini, 125
– de décroissance forte, 299
– de décroissance suffisante, 296
– de décroissance linéaire, 232
– de Powell, 302
– de Wolfe, 234
– de Zoutendijk, 239
conditionnement, 193, 229, 353
– d’un problème de moindres-carrés, 501
conditions d’optimalité, 128
– de Karush-Kuhn-Tucker, 147
– du premier ordre, 128
– du second ordre, 128
– nécessaires, 128
– – du premier ordre (CN1), 128, 131–
133, 137, 147
– – du second ordre (CN2), 128, 133,
141, 161
– suffisantes, 128
– – du premier ordre (CS1), 128, 132,
133, 140, 150
– – du second ordre (CS2), 128, 133, 142,
163, 180
– – du second ordre faibles, 159
– – du second ordre fortes, 158, 164
– – du second ordre semi-fortes, 158, 164
cône, 27
– asymptotique, 28, 28–29, 56, 78, 80–81,
120, 390, 523, 524, 540
– – d’un polyèdre convexe, 37, 57
– – image par une application linéaire, 58
– auto-dual, 51, 58, 578
– bidual, 51
– contingent, voir cône tangent
– critique, 158, 159, 161
– de récession, voir cône asymptotique
– dual, 51, voir aussi Sn
+
– – intérieur, 59
– – intérieur relatif, 59
– dual négatif, 51, 58
– enveloppe affine, 57
Index
– intérieur relatif, 57
– linéarisant, 145, 166
– normal, 50, 130
– polaire, voir cône dual négatif
– polyédrique convexe, 37
– radial, 129, 132, 179
– tangent, voir cône tangent
cône normal
– à un convexe, 179
cône tangent, 129
– à Sn
+ , 180
– à un convexe, 179
– à un polyèdre convexe, 179
– à une intersection d’ensembles, 179
– à une réunion d’ensembles, 179
conjuguée
– d’une enveloppe inférieure, 122
– d’une enveloppe supérieure, 122
– d’une fonction quadratique strictement
convexe, 122
– d’une indicatrice, 123
– d’une inf-image sous une application
linéaire, 93
– d’une norme, 123
– de la valeur propre maximale, 124
contrainte
– active, 144
– affine, 362
– de borne, 362
– faiblement active, 161
– fortement active, 161
– incompatible, 449
– non dégénérée, 371
convergence
– local, 450, 451
– super-linéaire
– – en 2 pas, 458
convexité
linéaire, 85
correction de Powell, 455
Courant, 618
coût, 511
– réduit, 525
critère, 4, 511
croissance quadratique, 163
Curry, 231
cyclage, 371
Dantzig, 530
décomposition, voir factorisation
– de Benders, 530
– de Dantzig-Wolfe, 530
– de Moreau, 58
– lagrangienne, 530
– spectrale, 618
demi-droite, 29
demi-espace fermé, 49
dense, 603
dérivabilité, voir différentiabilité
dérivée, 634
– à droite, 634
– à gauche, 634
dérivée directionnelle
déterminant, 617
– dérivée, 631
différentiabilité
– au second ordre, 641
– au sens de Fréchet, 634
– au sens de Gâteaux, 634
– directionnelle, 633
différentiation automatique, 205
– en mode direct, 208
– en mode inverse, 212
dimension
– d’image, 615, 630
– d’un ensemble convexe, 25
– d’un espace vectoriel, 613
– d’un sous-espace affine, 608
– de noyau, 615, 630
– finie, 613
direction
– à courbure quasi-négative, 326
– à courbure négative, 298
– admissible, 367
– conjuguée, 258
– de descente, 224
– de descente admissible, 361, 367
– de Gauss-Newton, 230
– de la plus profonde descente, 227
– de Newton, 229
– de Newton inexacte, 321
– du gradient, 227
– du gradient conjugué, 228
distance, 605
– à un ensemble, 605
– – différentiabilité, 646
683
684
Index
– – non-expansivité, 610
– – sous-différentiabilité, 124
domaine
– d’une fonction, 61, 414
– d’une multifonction, 107
– du sous-différentiel, 108
droite, 481
– achevée, 3
droite achevée, 604
dualisation de contraintes fonctionnelles,
428
dualité
– faible, 580
– saut de –, 417, 424, 544, 580
échec d’une itération, 282
élimination
– de Fourier, 39
– gaussienne, 39, 253
ellipsoı̈de
– inscrit, 496
ensemble
– admissible, 4, 127, 511
– affine, voir sous-espace
– borné, 606
– connexe par arcs, 565
– convexe, 22
– de sous-niveau, 80, 120
– des applications linéaires continues inversibles, 608
– des matrices définies positives, voir Sn
++
– des matrices semi-définies positives, voir
Sn
+
entrelacement
– de Cauchy, 631
– des valeurs propres, 619
enveloppe
– affine, 24, 56, 57
– – d’un cône, 57
– – d’un convexe, 56
– – d’un intérieur relatif, 31, 57
– – d’un polyèdre convexe, 57
– – d’une adhérence, 31, 56
– – d’une somme, 56
– conique, 27
– convexe
– – d’un ensemble, 25
– – d’une fonction, 86
– convexe fermée
– – d’un ensemble, 49
– – d’une fonction, 92
– inférieure, 122
– supérieure de fonctions, 83, 122
– – sous-differentiel d’une –, 114–115
épigraphe, 12, 61, 604
– stricte, 61
équation
– adjointe, 198, 202, 204
– d’état, 457
– de Fermat, 178
– de l’état adjoint, voir équation adjointe
– de Newton, 315, 325, 562
– d’état, 15, 195, 200
– normale, 253, 500, 562
équivalence entre problèmes d’optimisation,
8
erreur amont, 226
espace
– actif, 368
– compact, 604
– complet, 607
– de Banach, 607
– de Hilbert (ou hilbertien), 609
– dual (topologique), 607
– euclidien, 608
– métrique, 605
– – topologie d’un –, 605
– normé, 606
– pré-hilbertien, 608
– topologique, 603
état
– adjoint, 198, 458
– stationnaire, 331
Euler, 178, voir aussi schéma
Everett, 443
existence de solution
– d’un problème d’optimisation
– – linéaire, 41
– – par l’approche topologique (Weierstrass),
6
– – par le comportement à l’infini, 7, 81
– – quadratique, 180, 568
– d’un système d’équations non linéaires,
317
– revue des méthodes, 7
face
– d’un convexe, 29
– engendrée par une partie, 29
– exposée d’un convexe, 56
Index
– optimale, 538
facteur
– d’inexactitude, 321
– d’Oren-Luenberger, 352
factorisation
– de Bunch et Kaufman, 562
– de Bunch et Parlett, 562
– de Cholesky, 301, 351, 502, 623–629
– – creuse, 563
– – mise à jour des facteurs, 627
– en valeurs singulières (SVD), 505, 629–
630
– gaussienne (LU), 253, 621–623
– QR, 504, 620
famille de problèmes, 188
– clique, 192
– de classe NP, 190
– de classe NPA, 192
– de classe NPC, 191
– de classe P, 190
– de décision, 189
– évaluation en temps polynomial, 190
– instance, 188
– ol, 188, 189, 190
– oq, 188, 192, 193
– oqc, 190
– polynomialement réductible, 191
– sat, 192, 573
– sous-somme, 192
Farkas, 53, 59, 531
Fenchel, 90
Fermat, 127, 178
fermé, 603
fermeture d’une fonction, 87
Finsler, 617
Fisher, 618
Fletcher, 235, 236, 267, 268, 343, voir
aussi pas de recherche linéaire
fonction
– affine, 64, 608
– als (asymptotically level stable), 55
– asymptotique, 79
– auto-concrdante, 464
– B-différentiable, 334
– barrière, 394
– barrière auto-concrdante, 475
– biconjuguée, 91
– composée, 82
– concave, 61, 121
– conjuguée, 90
– continue, 604, 605
–
–
–
–
–
–
–
–
–
–
685
convexe, 61
(convexe) polyédrique, 66
convexe-concave, 421
d’appui
– définition, 67
– du sous-différentiel, 106, 123
de couplage, 415
de mérite, 322
de Minkowski, 477
de moindres-carrés, 322, voir aussi problème
– de récession, voir fonction asymptotique
– dérivée directionnelle, 72
– différentiable, voir différentiabilité
– duale, 415, 422, 434
– fermée, 63, 605
– fortement convexe, 63, 121
– implicite, 195
– impropre, 63
– indicatrice, 64, 123, 536
– – conjuguée, 123
– – sous-différentiel, 123
– intermédiaire, 207
– linéaire, voir minimisation
– lipschitzienne, 605
– localement lipschitzienne, 606
– log-barrière (lb), 464, 475, 496, 536
– log-déterminant (ld), 341, 465, 475, 591
– marginale, voir fonction marginale
– max, 120
– monotone, 116
– multivoque, voir multifonction
– non différentiable, 334
– non-expansive, 116, 606, 610
– propre, 63, 119
– quadratique, voir aussi fonction quadratique convexe
– quadratique convexe, 120
– – conjuguée, 122
– – ensembles de sous-niveau, 120
– – régularisée de Moreau-Yosida, 126
– semi-continue inférieurement (s.c.i.), 605
– semi-continue supérieurement (s.c.s.), 605
– semi-lisse, 334
– séparable, 247
– sous-différentiable, 101, voir aussi sousdifférentiabilité
– sous-linéaire, 67
– strictement convexe, 62
– valeur, voir fonction valeur
fonction duale
686
Index
– d’un problème quadratique, 570
fonction marginale, 83, 84, 85
– sous-differentiel, 113
fonction valeur, 85, 167, 422, 425, 432
– continuité directionnelle, 175
– convexité, 169
fonction-coût, 4
fonction-objectif, 4
forme, 607
formule
– de Grassmann, 630
– de Sherman-Morrison-Woodbury, 631
– de Woodbury, 632
– du max, 106
formule de mise à jour, 337
– à mémoire limitée, 353
– de BFGS (Broyden-Fletcher-GoldfarbShanno), 343
– PSB (Powell-Symétrique-Broyden), 357
– SR1 (Symétrique de Rang 1), 340
Fourier, 39
Fréchet, 609, 634, 640
Frobenius, 577, 616
Fromovitz, voir qualification des contraintes d’inégalité (QC-MF)
frontière, 603
– relative, 30, 50, 57
Gâteaux, 634
Gauss, 250, 506
globalisation, 227, 322
– par méthode de continuation, 332–333
– par recherche linéaire, 322–330
– par régime pseudo-transitoire, 331–332
– par région de confiance, 330–331
Goldfarb, 343
Goldstein, 234
Gordan, 59
Gröbner, voir base
gradient, 640
– réduit, 458
Gram, 614
graphe, 513
– connexe, 514
Grassmann, voir formule
Heine, 604
Héron d’Alexandrie, 333
hessien, 645
– réduit du lagrangien, 143
Hilbert, 609
Hoffman, voir lemme
Hölder
– inégalité de –, 181, 609
Houellebecq, vi
Hurwicz, 441
hyperplan affine, 45
identité du parallélogramme, 611
image, 604, 616
– par une application linéaire, 607
– – d’un cône asymptotique, 58
– – d’un cône convexe fermé, 58
– – d’un convexe fermé, 42–43
– – d’un intérieur relatif de convexe, 32
– – d’une adhérence de convexe, 32
image réciproque, 604
– par une application linéaire
– – d’un intérieur relatif de convexe, 32
– – d’une adhérence de convexe, 32
IML, voir inégalité matricielle linéaire
incompatibilité d’inégalités linéaires, 59
indicatrice, voir fonction indicatrice
indice de saturation d’un sous-espace de
Krylov, 254
inégalité, voir aussi condition
– de Cauchy-Schwarz, 608, 611
– – généralisée, 609
– de convexité, 62
– de Hölder, 181, 609
– de Jensen, 119
– – version intégrale, 119
– des moyennes, 120
– du sous-gradient, 101
– incompatible, 59
– matricielle linéaire, 24, 580
– triangulaire, 605, 606
inéquation variationnelle, 108
inf-convolution, 84, 85, 115, 120
– conjuguée d’une –, 97
– de deux formes quadratiques, 120
– épigraphe d’une –, 84
– épigraphe stricte d’une –, 84
inf-image d’une fonction sous une application linéaire, 85
– convexité d’une –, 85
– polyédricité d’une –, 86
Index
– propreté et semi-continuité inférieure d’une
–, 94
intérieur, 603
– relatif, 30
– – d’un cône, 57
– – enveloppe affine d’un –, 31, 57
itération, 13
– externe, 325
– interne, 325
itéré, 185
jacobienne, 134, 138, 567
Jensen, voir inégalité de Jensen
Kantorovich, 178, 245, 333
– théorème, 317, 334
Karush, 147
Kepler, 178
Krylov, 254
Kuhn, 147
Ky Fan, 619
Lagrange, 127, 137, 147, 178, voir aussi
multiplicateur
lagrangien, 138, 147, 198, 408, 421, 517
– associé à des perturbations, 423
– augmenté, 396, 398
– augmenté non différentiable, 411
– modifié, 396
Lebesgue, 604
Legendre, 90
Leibniz, 178
Lemaréchal, 235, 236
lemme, voir aussi théorème
– de Farkas, 53, 531
– de Finsler, 617
– de Hoffman, 183
– de Mizuno, 547
– de perturbation de Banach, 608
Levenberg, voir algorithme
ligne de flux de Newton, 335
Lipschitz, 605
loi de conservation des ennuis, 8, 19
Löwner, 577
Luenberger, 352
Lyapunov, 595
machine de Turing, 190
MacLaurin, v
Mangasarian, voir qualification des contraintes d’inégalité (QC-MF)
687
Marquardt, 507, voir aussi algorithme
matrice, 615
– bijective, 616
– carrée, 615
– creuse, 220
– d’incidence d’un réseau, 513
– de type m × n, 615
– définie négative, 616
– définie positive (Sn
++ ), 616
– définie positive (Sn
++ ), 631
– des cofacteurs, 631
– doublement stochastique, 57
– identité, 615
– injective, 616
– inverse, 616
– inversible, 616
– orthogonale, 620
– pseudo-inverse, 617
– pseudo-inverse de Moore-Penrose, 501,
505
– semi-définie négative, 616
– semi-définie positive (Sn
+ ), 616
– semi-définie positive (Sn
+ ), 59
– surjective, 616
– symétrique, 616
– triangulaire, 620
– triangulaire unitaire, 620
– uniformément injective, 506
maximisation, 8
méthode, voir aussi algorithme
– d’activation de contraintes, 362
– de faisceaux, 436, 442
– de l’état adjoint, 198
– de Newton, 313
– de pivotage, 362
– des multiplicateurs, 403, 406, 441
– newtonienne, 446
– primale-duale, 447
– tensorielle, 334
mineur
– principal, 619
– principal de tête, 619
minimisation
– d’une fonction linéaire sur une boule,
181
– emboı̂tée, 9–11
minimiseur, voir minimum
minimum, 4
– fort, 133, 142, 163
– global, 4
– global strict, 4
688
Index
– local, 4, 5
– local strict, 4
Minkowski, 37, 55
– fonction de –, 477
– norme de –, 606
minorante affine, 65, 88, 91
– exacte, 65
– pente d’une –, 65
Miranda, 334
Mizuno, 547
module de complexité, 475
moindres-carrés, 311
Montaigne, 3
Moore, 334
Moré, 301
Moreau, voir décomposition, régularisée
Morrison, 631
multifonction, 107
– domaine d’une –, 107
– graphe d’une –, 107
– image d’une –, 107
– localement radialement lipschitzienne,
125, 247
– monotone, 107
– monotone maximale, 107
multiplicateur de Lagrange, 137, 147
– de norme minimale, 389
Newton, 295, 315, 319, 324, 326, 333, 506,
562
normale, 50
norme, 123, 606, 631
– associée à un produit scalaire, 608
– biduale, 124
– convexité d’une –, 123
– de Frobenius, 577, 616
– de Minkowski ou ℓp , 606
– duale, 123, 408, 609, 611
– euclidienne ou ℓ2 , 606
– sous-différentiel d’une –, 124
– subordonnée, 615
noyau, 607, 616
OL, voir optimisation linéaire
opérateur, voir aussi application linéaire
– proximal, 115
– réduction, 191
optimisation
– combinatoire, 5
– conique, 496
– en nombres entiers, 5
–
–
–
–
globale, 19, 320
linéaire, 511–531, 533–565
multicritère, 5, 121
quadratique, 362, 389, 390, 404, 567–
575
– semi-définie positive (SDP), 577–599
optimiseur, 215
OQ, voir optimisation quadratique
Oren, 352
orthant positif, 23, 511
OSDP, voir optimisation semi-définie positive
ouvert, 603
– relatif, 30
parallélogramme, voir identité
Pareto, 121
pas (de recherche linéaire), 225
– admissibilité asymptotique du – unité,
244
– d’activation, 371
– d’Armijo, 233
– de Cauchy, 231
– de Curry, 231
– de Fletcher, 238
– de Goldstein, 234, 252
– de Wolfe, 234
– optimal, 231
passage d’un terme du critère en contrainte, 11, 461, 583
pénalisation
– ℓ1 , 411
– exacte, 380
– extérieure, 382, 393
– facteur de –, 380
– inexacte, 380
– logarithmique, 394
performance, 217
– relative, 217
permutation, 617
petit o, 634
pivot, 623, 624
pli d’une fonction convexe, 102
point
– admissible, 4, 511
– critical or stationary
– – regular, 451
– d’accumulation, 604
– d’activation, 361
– de Cauchy, 295
– de Newton, 295
– extrême, 29
Index
– moyennement optimal, 121
– Pareto optimal, 121
– proximal, 115
– stationnaire, 138, 147
– – régulier, 449
– strictement admissible, 523
point-selle, 417
Polak, 267, 268
polyèdre convexe, 23, 34
– enveloppe affine, 57
– forme standard d’un –, 35
– intérieur relatif, 57
– représentation duale d’un –, 35
– représentation primale d’un –, 35
– somme, 58
polyédricité
linéaire, 86
polynôme, 320
– annihilant une matrice, 256
– minimal, 256
– unitaire, 256
polytope, 35
Pompidou, v
Powell, 267, 297, 302, 311, 357
préconditionnement, 194
– de l’algorithme du gradient conjugué,
265–266
préconditionneur
– diagonal, 266
problème, voir aussi famille de problèmes,
problème d’optimisation
– NP, 190
– NP-ardu, 192
– NP-complet, 191
– (PE ), 135, 446, 449
– (PE ) convexe, 135
– (PEI ), 144, 407, 445
– (PEI ) convexe, 144
– (PG ), 165
– (PL ), 511
– (PL′ ), 512
– (PX ), 127
– barrière primal, 536
– d’identification de paramètres, 14
– d’inéquation variationnelle, 334
– d’interpolation linéaire, 500
– de calibration de modèles, 14
– de commande optimale, 15
– de complémentarité, 334
– de Lagrange, 415, 436, 443
689
– de moindres-carrés, 14, voir aussi fonction
– – non linéaire, 229, 238
– – sous-déterminé, 14
– – sur-déterminé, 14
– régression linéaire, 500
– du plus court chemin dans un graphe,
514
– du sac à dos quadratique, 573
– du transport, 514
– dual, 415, 422
– interne, 10, 11
– interne dual, 415
– interne primal, 415
– linéaire, 16
– (PSI ), 457
– polynomial, 190
– primal, 415, 421, 425
– quadratique, 13–16
– quadratique osculateur, 319
problème d’optimisation, 3
– borné, 4, 511
– linéaire, 511–531, 533–565
– – forme canonique d’un –, 512
– – forme standard d’un –, 511
– non borné, 4
– quadratique, 567–575
– réalisable, 4, 511
problème de moindres-carrés, 499–509
– linéaire, 499–505
– – avec région de confiance, 508
– – régularisé, 508
– – total, 508
– non linéaire, 505–507
– robuste, 507
problème quadratique osculateur, 448
produit scalaire, 608
– euclidien, 608
produit tensoriel, 338, 592, 599, 629
profil de performance, 218
projection, 43, 58, 605, 646
propriété
– de croissance quadratique, 163
– de Heine-Borel-Lebesgue, 604
proximal, voir opérateur, point
qualification des contraintes, 129, 149, 166,
531
– abstraites
– – (QC-R), de Robinson, 166, 183
– d’égalité, 136
– d’inégalité, 145, 151–155
690
Index
– – (QC-A), 151
– – (QC-IL), 151
– – (QC-MF), de Mangasarian-Fromovitz,
151, 153
– – (QC-MF), de Mangasarian-Fromovitz,
166
– – (QC-MFS), de Mangasarian-Fromovitz stricte, 156
– – (QC-S), de Slater, 151, 536, 589
quotient de Rayleigh, 181
rang, 616, 630
Rawls, 414
Rayleigh, 181
rayon de confiance, 280
rayon spectral, 616
rebroussement, 233
recherche linéaire, 225
– d’Armijo, 282, 366
– de Cauchy, 231
– de Curry, 231
– de Goldstein, 234
– de Wolfe, 234
– de Wolfe forte, 237, 268
– exacte, 231
– inexacte, 231
– non monotone, 250
redémarrage de Powell, 267
réduction, 191
Reeves, 267, 268
région de confiance, 280
règle
– du coût réduit le plus négatif, 526
régularisée de Moreau-Yosida, 117, 246,
432
relatif, voir frontière, intérieur
relation de polarisation, 611
relaxation
– de Shor, 588
– lagrangienne, 436
– SDP (semi-définie positive), 583
réseau, 513
résidu, 229, 270, 505, 562
Ribière, 267, 268
Riesz, 609
Robinson, voir qualification des contraintes abstraites (QC-R)
Rockafellar, 21, 61
Rolle, 639
rotation de Givens, 621
saut de dualité, voir dualité
schéma d’Euler implicite, 203, 331, 332
Schmidt, 614
Schur, 584
Schwarz, 608
segment, 22, 636
Seidel, 250
séparation de deux convexes, 45
série
– absolument convergente, 607
– convergente, 607
Shanno, 343
Sherman, 631
simplexe
– ordonné de Rn , 59
– unité de Rn , 23
simulateur, 215, 216
Slater, voir qualification des contraintes
d’inégalité (QC-S)
Sn
+
– cône dual du cône tangent, 180
– cône tangent, 180
Sn
++
solution, voir aussi existence de solution,
unicité de solution, minimum
– d’un problème quadratique osculateur
– – de norme minimale, 450
– – importune, 448, 450
– de norme minimale, 264, 500
– duale, 138, 415, 517
– – stable, 420
– primale, 138, 415, 517
– – stable, 420
– primale-duale, 138, 147
– primale-duale globale, 169
– strictement complémentaire, 518
somme
– d’un cône convexe fermé et d’un sousespace vectoriel, 58
– de deux cônes duaux, 54
– de deux convexes, 23
– – fermés, 34
– de deux ensembles, 606
– de deux polyèdres convexes, 57, 58
– de deux sous-espaces affines
– – projection sur une –, 58
– enveloppe affine d’une –, 56
– enveloppe conique d’une –, 56
– enveloppe convexe d’une –, 56
sommet d’un polyèdre convexe, 35
Index
– dégénéré, 515, 531
Sorensen, 301
sous-différentiabilité, 101, 105
sous-différentiel, 101
– caractérisation du –, 103
– constance du –, 125
– d’une fonction marginale, 113
– d’une pré-composition par une fonction
affine, 111
– d’une enveloppe supérieure, 114–115
– d’une somme, 110
– de f et f ∗∗ , 104
– de la distance à un convexe, 124
– et optimalité, 103
– fonction d’appui du –, 123
– propriétés géométrique et topologique
du –, 105
– représentation du –, 123
sous-espace affine, 23, 24, 608, 610
sous-espace vectoriel
– de Krylov, 254–258
– – saturation d’un –, 254
– orthogonal, 614
sous-espaces vectoriels
– somme de –, 613
– somme directe de –, 613
– supplémentaires, 135, 613, 631
sous-gradient, 101
sous-problème quadratique
– (RC), 280, 286, 311
– osculateur, voir problème quadratique
osculateur
stabilité d’un ensemble par rapport à des
perturbations, 137, 146
Stroustrup, vi
succès d’une itération, 282
suite
– admissible, 361
– convergente, 603
– de Cauchy, 607
– limite d’une –, 603
– minimisante, 6
sur-relaxation, 334
système
– fortement réalisable, 582
– quasi-réalisable, 582
système linéaire
– augmenté, 502, 562
691
– de Lyapunov, 595
– de Sylvester, 595
taux de convergence, 186, 187
terminaison finie, 544
– de l’algorithme proximal, 252
terminaison quadratique, 350
téorème
– d’Everett, 443
théorème, voir aussi lemme
– de Carathéodory, 27
– de l’alternative, 53
– – de Farkas, 59
– – de Gordan, 59
– – de Ville, 59
– de représentation de Riesz-Fréchet, 609
– de Rolle, 639
– de séparation, 46–48
– des accroissements finis, 636, 639
– des fonctions implicites, 195
topologie, 603
– d’un espace métrique, 605
– induite, 603
– séparée, 603
transposée, 616
Tucker, 147
Turing, voir machine
unicité de solution, 64
valeur, voir fonction valeur
valeur optimale, 4
valeur propre maximale, 124
valeur singulière d’une matrice, 181, 503,
629, voir aussi factorisation en valeurs
singulières (SVD)
valeur-selle, 417
variable
– active, 206
– d’écart, 35, 398, 512
– – duale, 517
– d’entrée, 206
– d’état, 457
– de commande, 15, 195, 457
– de sortie, 206
– d’état, 15, 195
– duale, 211
– indépendante, 206
variété, 134
vecteur
– dual, 124
– normal, 130
– tangent, 129
vecteurs
– affinement indépendants, 25
– orthogonaux, 614
Ville, 59
vitesse de convergence
– q-linéaire, 186
– q-quadratique, 186
– q-superlinéaire, 186
– r-linéaire, 187
– sous-quadratique, 493
voisinage, 603
Weierstrass, 6
Wilkinson, 226
Wittgenstein, v
Wolfe, 234, 237, 530
– contre-exemple de –, 361
Woodbury, 631
Yosida, voir régularisée
zéro, 314
Zoutendijk, 239
Index
693
novembre 2010.

18 Optimisation linéaire : algorithmes de points intérieurs

Transcription

Documents pareils

ECON-D-423 Principles of Static and Dynamic Optimization

Journées de l`optimisation 2014, Montréal, Québec, 5-7 mai

Résolution de problèmes blackbox avec LocalSolver

CNAM CSC109 : Méthode des éléments finis TP 4 Fig. 1 – Solution

Document 1941702

Se déplacer avec le SIAM

Document 4985079

Document 2455028

rue de siam 10834