chap2

Transcription

chap2
Chapitre 2
Fonctions convexes
En analyse convexe, on considère très souvent des fonctions prenant des valeurs
dans l'ensemble des réels auxquels on rajouter l'inni, i.e.
R = R ∪ {+∞}.
Un
avantage est de pouvoir inclure directement les contraintes dans la fonctionnelle
optimisée, c'est-à-dire remplacer
min f (x)
C
où
K est un ensemble convexe d'un espace vectoriel E par le problème sans contraintes
(
0 si x ∈ C
min f (x) + iC (x), où iC (x) =
E
+∞ sinon
Plus fondamentalement, des fonctions convexes prenant la valeur
+∞
apparaissent
de manière très naturelle lorsqu'on s'intéresse à la transformée de Legendre-Fenchel,
qui est unanalogue de la transformée de Fourier en analyse convexe.
R ∪ {±∞}
1 L'ensemble
est muni des règles de calcul intuitives suivantes :
∀a ∈ R, a + (+∞) = +∞
∀a > 0, a × (+∞) = +∞
∀a < 0, a × (+∞) = −∞
On fera en sorte de ne jamais faire apparaître de quantités indéterminées de la forme
0 × (+∞)
ou
(+∞) − (+∞)).
2.1 Dénition et propriétés élémentaires
Dénition 7. Soit E un espace vectoriel et f : E → R. On appelle
(i) domaine de f , noté dom(f ), le sous-ensemble de E où f prend des valeurs
nies :
dom(f ) = {x ∈ E, f (x) 6= +∞};
1. Par exemple, on verra que la transformée de Legendre-Fenchel d'une norme est une fonction
à valeurs dans
{0, +∞}.
12
CHAPITRE 2.
(ii)
épigraphe de f
f,
13
FONCTIONS CONVEXES
la partie de l'espace produit
E ×R
au-dessus du graphe de
i.e.
epi(f ) = {(x, t) ∈ E × R; t ≥ f (x)}.
Une fonction
f :E→R
Dénition 8.
est
On appelle
propre
ssi
dom(f ) 6= ∅.
fonction convexe
graphe est un sous-ensemble convexe de
Remarque 2.
On dit que
une fonction
f :E→R
dont l'épi-
E × R.
f : E → R ∪ {−∞} est concave si −f
est convexe, et tout ce
qu'on va dire s'applique aussi bien au fonctions concaves qu'aux fonctions convexes,
à ce changement de signe près.
Proposition 13. Une fonction f : E → R est convexe si et seulement si dom(f ) est
convexe et si pour tout x, y dans dom(f ) et tout α ∈ [0, 1],
f ((1 − α)x + αy) ≤ (1 − α)f (x) + αf (y)
Démonstration.
Soit
f
(2.1)
une fonction convexe. Alors,
dom(f ) = {x ∈ R | ∃t ∈ R, (x, t) ∈ epi(f )} = ΠE (epi(f ))
où
ΠE : E × R → R
est l'application ane
ΠE (x, t) = x.
Ainsi,
dom(f )
est convexe
comme image d'un convexe par une application ane. Ensuite, pour tout points
x, y ∈ E ,
les points
x0 := (x, f (x))
par convexité de l'épigraphe, pour
y 0 := (y, f (y)) appartiennent
tout α ∈ [0, 1], le point
et
à
epi(f ).
Ainsi,
z 0 = (1 − α)x0 + αy 0 = ((1 − α)x + αy, (1 − α)f (x) + αf (y))
est lui aussi dans l'épigraphe de
f,
ce qui se traduit par (2.1). La réciproque se
démontre de la même manière.
Cette proposition permet de déduire des opération préservant la convexité des
fonctions similaire aux opérations préservant la convexité des ensembles. Nous nous
contentons d'énoncer les plus importantes.
Proposition 14. (i) Si (fi )i∈I est une famille quelconque de fonctions convexes
sur E , alors la fonction x 7→ supi∈I fi (x) est également convexe.
(ii) Soit A : F → E une application ane, et f une fonction convexe sur E .
Alors, la fonction f ◦ A est convexe.
(iii) Si
PNf1 , . . . , fN sont des fonctions convexes et λ1 , . . . , λN ≥ 0, la fonction
i=1 λi fi est convexe.
Exemple 6.
(i) Soit
C
et seulement si
C
E , et iC : E → R sa fonction indica+∞ si x ∈
6 C . Alors, iC est convexe si
un sous-ensemble de
trice, dénie par iC (x)
=0
si
x∈C
est convexe.
et
CHAPITRE 2.
14
FONCTIONS CONVEXES
(ii) Toute norme
kk
sur
E
est convexe.
(iii) Toute forme linéaire (même discontinue) sur
E
est convexe.
(iv) Les sous-niveaux d'une fonction convexe sont convexes (cela se vérie facilement manuellement, mais on peut aussi utiliser
{f ≤ t0 } = ΠE (epi(f ) ∩ {(x, t) | t ≥ t0 })
où la projection
ΠE (x, t) = x est linéaire). La réciproque est fausse : il existe des
fonctions non convexes dont les sous-niveaux sont tous convexes. Par exemple,
les sous-niveaux de toute fonction monotone sur
R sont convexes.
x 7→ supp∈X kx − pk est convexe.
Si f est convexe et K est un ensemble convexe, la fonction g = f + ιK est
convexe (g(x) = f (x) si x ∈ K , g(x) = +∞ sinon). De plus, les deux problèmes
(v) Soit
(vi)
X
une partie bornée de
E.
La fonction
d'optimisation suivants sont équivalents
min f (x) ⇐⇒ min f (x) + ιC (x).
x∈C
x∈E
(vii) La composition de fonctions convexes n'est pas nécessairement convexe. Par
f, g : R → R, f (x) = exp(−x)
f ◦ g(x) = exp(−x2 ) n'est pas convexe.
exemple
et
g(x) = x2
sont convexes alors que
Dénition 9. Soient E un espace vectoriel normé. Une fonction convexe f
est strictement convexe si pour tout x 6= y ∈ dom(f ) et tout λ ∈]0, 1[,
: E 7→ R
f ((1 − λ)x + λy) < (1 − λ)f (x) + λf (y)
(2.2)
En exercice, on pourra démontrer le lemme suivant.
Lemme 15. Soit f : E → R atteignant son minimum m = minE f .
(i) Si f est convexe, alors {x ∈ E | f (x) = m} est convexe.
(ii) Si f est strictement convexe, alors {x ∈ E | f (x) = m} est un singleton.
2.2 Continuité et lipschitzité des fonctions convexes
Pour parler de continuité et a fortiori de Lipschitzité, on supposera dans cette
section que
E
est un espace vectoriel normé.
Dénition 10.
ouvert
Ω
de
E
Une fonction
si tout point de
f : Ω ⊆ E → R est localement lipschitzienne sur un
Ω admet un voisinage sur lequel f est lipschitizienne,
c'est-à-dire
∀x0 ∈ Ω, ∃δ > 0, ∃M ∈ R, ∀x, y ∈ B(x0 , δ), |f (x) − f (y)| ≤ M kx − yk .
Proposition 16. Soit f : E → R une fonction convexe sur un espace vectoriel
normé et Ω un ouvert de E . Si f est bornée supérieurement sur Ω, alors elle est
localement lipschitzienne sur cet ouvert.
CHAPITRE 2.
Remarque 3.
15
FONCTIONS CONVEXES
Comme on le verra, la démonstration permet d'estimer assez précisé-
M
ment la constante de Lipschitz
en fonction de la borne sur
f.
En revanche, la
constante de Lipschitz peut exploser au bord du domaine. Considérons par exemple
la fonction convexe
√
f : x ∈ [0, 1] 7→ − x.
Alors,
pas localement lipschitzienne au voisinage de
Remarque 4.
linéaire
f
limx→0,x6=0 f 0 (x) = −∞,
E
n'est
est continue en l'origine si et seulement si elle est globalement
l'origine). Pour l'autre il faut remarquer que si
f
=⇒
Alors, pour
x1 , x2 ∈ E ,
L-lipschitzienne
R = max(kx1 k , kx2 k),
|f (x1 ) − f (x2 )| =
et en posant
continue en
est continue en l'origine, alors elle
est bornée à son voisinage et (par la proposition)
Remarque 5.
f
On peut se servir de cette proposition pour montrer que toute forme
sur
lipschitzienne. Un des sens est évident (globalement lipschitzienne
B(0, r).
et
0.
sur une boule
LR r
R r
r
r f ( x1 ) − f ( x2 ) ≤
x1 − x2 = L kx1 − x2 k .
r
R
R
r R
R
L'hypothèse que
f
est majorée est cruciale ! Par exemple, si l'espace
est de dimension innie, on peut construire une application linéaire
f
E
non continue
E . (Par exemple, on peut considérer R[X] muni de la norme `1 des coecients,
1 n
0
et f : P ∈ R[X] 7→ P (1). Alors, Pn =
n X converge vers 0, tandis que f (Pn ) = 1.
Ainsi, f est linéaire et discontinue.) Alors, dom(f ) = E , c'est-à-dire que f est nie
partout, et pourtant f n'est continue en aucun point.
sur
Avant de démontrer la proposition 16, on va démontrer un résultat intermédiaire
pour une fonction convexe que l'on suppose bornée supérieurement et inférieurement.
Lemme 17. Soit f : E → R une fonction convexe telle que |f | ≤ M sur une boule
Alors, f est 2M
δ -lipschitzienne sur la boule B(x0 , δ).
B(x0 , 2δ).
Démonstration.
f (y)
Soit
x, y
deux points de la boule
B(x0 , δ).
f (x) et
[x, y] dans la
B(x0 , 2δ). Posons α = kx − yk
Pour comparer
et montrer la propriété de lipschitzité, on va prolonger le segment
y et utiliser la borne sur f sur
z := y + αδ (y − x). Le point z construit
B(x0 , 2δ) car
direction de
la boule
et
de cette manière appartient à la boule
δ
ky − xk ≤ 2δ.
α
En utilisant la dénition de z , on peut réécrire le point y comme combinaison convexe
de x et z . La relation (1 + δ/α)y = (δ/α)x + z implique que
kz − x0 k ≤ kz − yk +
y=
δ/α
1
x+
z,
1 + δ/α
1 + δ/α
où la somme des deux coecients vaut
Ainsi, par convexité de
f,
δ/α
1
f (x) +
f (z)
1 + δ/α
1 + δ/α
−1
1
f (y) − f (x) ≤
f (x) +
f (z)
1 + δ/α
1 + δ/α
f (y) ≤
i.e.
1.
CHAPITRE 2.
On peut maitenant utiliser la borne sur
f (y) − f (x) ≤
En inversant les rôles de
Lipschitz de
16
FONCTIONS CONVEXES
x
et
y
|f |
:
2M
2M
2M
≤
α=
kx − yk
1 + δ/α
δ
δ
on nit de démontrer la borne sur la constante de
f.
Démonstration de la Proposition 16.
x0 un point de l'ouvert Ω et δ > 0 tel que
B(x0 , 2δ) ⊆ Ω. Par hypothèse, la fonction f qu'on considère est bornée supérieurement, i.e. f ≤ M0 sur la boule B(x0 , 2δ). Pour tout point x dans la boule B(x0 , δ),
le point 2x0 − x est aussi dans la boule B(x0 , 2δ), de sorte que
Soit
1
1
f (x0 ) ≤ (f (x) + f (2x0 − x)) ≤ (f (x) + M0 ).
2
2
f (x) ≥ 2f (x0 )−M0 , et la fonction est donc bornée inférieurement sur B(x0 , δ).
On peut donc appliquer le lemme, et en déduire que f est lipschitzienne sur la
boule B(x0 , δ/2). Ceci étant vrai pour tout x0 , on en déduit que f est localement
Lipschitzienne sur Ω.
Ainsi,
Le résultat suivant montre que si
f
est bornée au voisinage d'un point, alors elle
automatiquement continue sur l'intérieur de son domaine. La convexité permet de
partir d'une hypothèse de régularité très faible (f bornée au voisinage d'un point)
et d'en déduire un résultat de régularité très fort (f localement lipschitzienne sur
l'intérieur de son domaine).
Proposition 18. Soit f : E → R une fonction convexe sur un espace vectoriel normé
un ouvert sur lequel f est borné, alors f est localement Lipschitz sur
E . S'il existe
int(dom(f )).
Démonstration.
Soit
B(x, δ)
une boule sur laquelle
hypothèse pour démontrer que
f
|f | ≤ M .
On va utiliser cette
est localement majorée dans l'intérieur de son
domaine, puis conclure avec la proposition précédente. Soit
int(dom(f )). L'ensemble Ω étant ouvert, il existe t > 0
z := y + t(y − x) soit dans Ω. Par construction, le point y
[x, z]. Plus précisément, comme (1 + t)y = z + tx on a
y
un point de
appartient au segment
t
1
x+
z
1+t
1+t
= (1 − α)x + αz
y=
avec
α = 1/(1 + t).
Ω =
petit tel que le point
(2.3)
(2.4)
Ainsi, on a
(1 − α)B(x, δ) + z = B(y, (1 − α)δ)
Montrons que
f ≤ max(M, f (z))
wy = (1 − α)wx + αz .
B := B(y, (1 − α)δ). Par dénition
wy ∈ B , il existe wx ∈ B(x, δ) tel que
sur la boule
de la somme de Minkowski, pour tout point
D'où
f (wy ) ≤ (1 − α)f (wx ) + αf (z) ≤ max(M, f (z)).
CHAPITRE 2.
17
FONCTIONS CONVEXES
La fonction est donc bornée supérieurement au voisinage de
précédente,
y ∈ Ω,
f
est donc lipschitzienne au voisinage de
on en conclut que
f
y.
y.
Par la proposition
Ceci étant vrai pour tout
est localement lipschtzienne sur
Ω.
Corollaire 19. Soit f : E → R une fonction convexe sur un espace vectoriel normé E . S'il existe un point x0 ∈ dom(f ) où f est continue, alors f est
localement Lipschitz sur int(dom(f )).
2.3 Dérivées directionnelles
Dans cette section, on utilise les propriétés algébriques, c'est-à-dire sans topologie, des dérivées directionnelles d'une fonction convexe. L'espace
E
est donc un
espace vectoriel quelconque, qui n'est pas nécessairement normé. Comme on utilise
uniquement la structure linéaire de l'espace, on ne doit pas s'attendre à pouvoir
en déduire des informations sur la régularité (même la continuité !) des fonctions
considérées.
Dénition 11.
du domaine de
E un espace vectoriel, f : E → R une fonction, x
v ∈ E une direction. On pose, si la limite existe,
Soit
f
et
f + (x; v) = lim
ε→0+
un point
f (x + εv) − f (x)
ε
(2.5)
Proposition 20. Soit f : E → R une fonction convexe, et x ∈ dom(f ). Alors,
la dérivée directionnelle v ∈ E 7→ f + (x; v) ∈ R ∪ {±∞} est bien dénie et de
plus,
f (x + εv) − f (x)
ε>0
ε
f + (x; v) = inf
Remarque 6.
La limite dénissant
f + (x; ±)
peut prendre les valeurs
(2.6)
±∞.
(i) Le fait de pouvoir remplacer la limite (2.5) par un inmum (2.6) implique que
f + (x; v) = +∞
si et seulement si la demi-droite
{x + tv | t > 0}
n'intersecte
f . Par contraposée, si x est dans l'intérieur du domaine de f
f , cf TD), alors f + (x; v) < +∞.
+
Il est facile de construire des exemples de fonctions tels que f (x; v) = −∞. Par
√
+
0
exemple f (x) = − x, x = 0 et v = 1. Alors f (x; v) = limt→0 −f (t) = −∞.
pas le domaine de
(ou dans l'intérieur algébrique du domaine de
(ii)
Lemme 21. La fonction ε 7→
Démonstration.
appartient à
Soient
dom(f )
1
ε (f (x
+ εv) − f (x))
est croissante.
ε2 ≥ ε1 ≥ 0, et supposons de plus que le point x + ε2 v
f (x + ε2 v) = +∞ et il n'y a rien à démontrer). Par
(sinon
CHAPITRE 2.
hypothèse, le point
f
18
FONCTIONS CONVEXES
x + ε1
appartient au segment
[x, x + ε2 ]
et donc au domaine de
par convexité de celui-ci. Plus précisément on a :
x + ε1 v = (1 − ε1 /ε2 )x + ε1 /ε2 (x + ε2 v),
de sorte qu'en utilisant la convexité de
f
on obtient
f (x + ε1 v) ≤ (1 − ε1 /ε2 )f (x) + ε1 /ε2 f (x + ε2 v).
Ainsi,
f (x + ε2 v) − f (x)
f (x + ε1 v) − f (x)
≤
.
ε1
ε2
Démonstration de la proposition 20.
Le ratio
+ εv) − f (x))
étant décroissant
R ∪ {±∞} donnée par (2.6). Si f + (x; v) <
+∞, alors il existe ε tel que f (x + εd) < +∞, auquel cas f est nie sur [x, x + ε] par
lorsque
ε→
0+ , il admet une limite dans
1
ε (f (x
convexité.
Proposition 22. Soit f : E → R une fonction convexe,et x ∈ dom(f ). Alors,
(i) La fonction g : v 7→ f + (x, v) est positivement 1-homogène (g(λv) = λg(v)
pour λ > 0) et sous-linéaire (g(v + w) ≤ g(v) + g(w)).
(ii) Propriété de monotonie : pour tout x, y ∈ dom(f ),
f + (x; y − x) ≤ f + (y; y − x)
Démonstration.
(2.7)
g = f + (x, .) est 1-homogène. Soient u, v
dans E , et montrons que g(u + v) ≤ g(u) + g(v). On peut supposer que que pour
ε > 0 assez petit, x + εu et x + εv appartiennent à dom(f ), sinon il n'y a rien à
(i) Il est facile de voir que
montrer. Alors,
x + ε(u + v) =
x + 2εu x + 2εv
+
2
2
et, par convexité,
1
1
1
(f (x + ε(u + v)) − f (x)) ≤ (f (x + 2εu) − f (x)) + (f (x + 2εv) − f (x)).
ε
2ε
2ε
En passant à la limite on obient l'inégalité voulue.
(ii) Cette propriété correspond à la croissance des pentes pour les fonctions convexes
sur un segment de
R.
Proposition 23. Soit f : E → R convexe, et x ∈ dom(f ). De plus, la fonction
est linéaire sur E si et seulement si
v ∈ E 7→ f + (x; v)
∀v ∈ E, f + (x; v) < +∞
∀v ∈ E, f + (x; v) = −f + (x; −v).
CHAPITRE 2.
Remarque 7.
f
v 7→ f + (x; v) peut
forme linéaire f sur E ,
La fonction
En eet, pour toute
choisir
est linéaire
non continue
dérivée directionnelle
Exemple 7.
Soit
19
FONCTIONS CONVEXES
sur
R,
f + (x, v)
≥
alors
f : E → R
.
−f + (x, −v)
Démonstration.
Il sut donc de
qui est également linéaire et non continue.
f + (0; 1) = 1
Ce corollaire se déduit de la sous-linéarité de
Lemme 24. Soit
f + (x; v) = f (v).
en dimension innie pour obtenir un exemple de
v 7→ f + (x; v)
f (x) = |x|
tout à fait être linéaire et discontinue !
on a
et
f + (0; −1) = 1 6= −f + (0, 1).
f + (x; ·) et des deux lemmes suivants.
une fonction convexe, et x ∈ dom(f ). Alors,
f + (x, v) < +∞ ou f + (x, −v) < +∞ car sinon
l'inégalité est triviale. Alors, x − εv et x + εv appartiennent à dom(f ) pour ε > 0
assez petit. Par la convexité de f ,
x + εv x − εv
1
1
f (x) = f
+
≤ f (x + εv) + f (x − εv)
2
2
2
2
On peut supposer
Ainsi,
f (x + εv) − f (x)
f (x − εv) − f (x)
≥−
,
ε
ε
ce qui donne résultat par passage à la limite.
Lemme 25. Une fonction sous-linéaire g : E → R est linéaire si et seulement
si elle est partout nie et si g(v) = −g(−v) pour tout v dans E .
Démonstration.
Par sous-linéarité de
g,
g(v + w) ≤ g(v) + g(w)
g(−(v + w)) ≤ g(−v) + g(−w) = −g(v) − g(w),
où l'on a utilisé l'hypothèse pour la dernière égalité. Ainsi,
g(v) + g(w) ≤ −g(−(v + w)) = g(v + w) ≤ g(v) + g(w),
et toutes les inégalités doivent donc être des égalités. En particulier, on obtient
l'additivité de
g
g : g(v + w) = g(v) + g(w). Comme on sait de plus que g(λv) = λg(v),
est linéaire.
On conclut cette partie par une caractérisation de la convexité utilisant unique-
ment la notion de dérivée directionnelle.
Proposition 26. Soit f : X ⊆ E → R une fonction sur un ouvert convexe
suppose que pour tout x ∈ X , l'application dérivée directionnelle
1
Dx f : v ∈ E 7→ lim (f (x + εv) − v)
ε→0 ε
est bien dénie et linéaire. Alors, les propriétés suivantes sont équivalentes :
X.
On
CHAPITRE 2.
20
FONCTIONS CONVEXES
(i) f est convexe ;
(ii) pour tout x, y ∈ X , f (y) ≥ f (x) + Dx f (y − x) ;
(iii) pour tout x, y ∈ X , (Dx f − Dy f )(x − y) ≥ 0.
Démonstration.
(i)
=⇒
(ii) : Comme la fonction
f
est convexe,
1
(f (x + t(y − x)) − f (x))
t→0+ t
1
= lim (f ((1 − t)x + ty) − f (x))
+
t→0 t
1
≤ lim ((1 − t)f (x) + tf (y) − f (x)) = f (y) − f (x)
+
t→0 t
Dx f (y − x) = lim
(ii)
=⇒
(iii) : Il sut de sommer les inégalités
f (y) ≥ f (x) + Dx f · (y − x)
f (x) ≥ f (y) + Dy f · (x − y)
=⇒ (i) : Soient x, y dans X et φ(λ) = f (xλ ) − (1 − λ)f (x) − λf (y), où on
xλ := (1 − λ)x + λy . La fonction φ est diérentiable en tout λ ∈ [0, 1] et
φ(0) = φ(1) = 0. Montrer que f est convexe sur le segment [x, y] revient à montrer
que φ(λ) ≤ 0 sur [0, 1]. Supposons le contraire, et considérons λ0 un point du segment
0
ouvert ]0, 1[ où φ atteint son maximum, de sorte que φ (λ0 ) = 0 et φ(λ0 ) > 0. Pour
tout λ ∈ [0, 1], on a :
(iii)
a posé
φ0 (λ) − φ0 (λ0 ) = (Dxλ f − Dxλ0 f ) · (y − x)
De plus, si
λ 6= λ0 ,
y−x=
1
1
[((1 − λ)x + λy) − ((1 − λ0 )x + λ0 y)] =
(xλ − xλ0 )
λ − λ0
λ − λ0
λ > λ0 , alors φ0 (λ) ≥ φ0 (λ0 ) = 0.
La fonction φ devrait donc être croissante croissante sur l'intervalle [λ0 , 1[, et en
particulier φ(1) ≥ φ(λ0 ). Ceci contredit l'inégalité φ(λ0 ) > 0 = φ(1). Par l'absurde,
on en déduit que φ ≤ 0, puis que f est convexe sur le segment [x, y] et enn qu'elle
est convexe sur l'ouvert X .
Ainsi, en utilisant l'hypothèse (iii) on obtient que si
2.4 Diérentiabilité au sens de Gâteaux et de Fréchet
Dénition 12.
Soient
E
un espaces vectoriel normé. Une fonction
x ∈ dom(f ) si elle admet
toutes les directions v ∈ E
d Dx f (v) :=
f (x + tv) ∈ R,
dt t=0
est dite Gâteaux-diérentiable en
tionnelle en
x
dans
f :E→R
une dérivée direc-
CHAPITRE 2.
et si l'application
Remarque 8.
21
FONCTIONS CONVEXES
v 7→ Dx f (v)
est linéaire continue sur
E.
La diérentiabilité au sens de Gâteaux est une notion assez faible. Par
f : R2 → R dénie par
(
1 si x1 6= 0 et x2 = x21
f (x1 , x2 ) =
0 sinon
exemple, considérons la fonction
Les dérivées directionnelles de
f
en
(0, 0) sont toutes nulles, de
D(0,0) f = 0. Cependant, la
sorte que
Gâteaux-diérentiable en ce point avec
même pas continue en
f
f
est
n'est
(0, 0) !
Proposition 27. Soit
Alors,
f
fonction
f : E → R
une fonction convexe continue en x ∈ E .
est Gâteaux-diérentiable en x ⇐⇒ v ∈ E 7→ f + (x; v) est linéaire
⇐⇒ ∀v ∈ E, f + (x; v) = −f + (x; −v)
Dans ce cas, on a Dx f = f + (x; ·).
On sait déjà que l'application
v 7→ f + (x; v)
est linéaire sous la deuxième hypo-
thèse, il sut donc d'appliquer le lemme suivant.
Lemme 28. Soit f : E → R une fonction convexe continue en x ∈ E . Alors
l'application v ∈ E 7→ f + (x, v) est continue.
Démonstration.
de
x
et donc
Comme f est continue en x, elle est localement bornée
M -Lipschitz dans un voisinage de x. En particulier,
au voisinage
f (x0 + εv) − f (x0 ) ≤ M ε kvk ,
d'où
g(v) := f + (x; v) ≤ M kvk.
Par sous-additivité de la fonction
g,
pour
v, h ∈ E ,
g(v) − g(h) ≤ g(v + h) ≤ g(v) + g(h),
on en déduit la continuité de
g : g(v) − M khk ≤ g(v + h) ≤ g(v) + M khk.
Dénition 13. Une fonction f
si elle est
: E → R est dite Fréchet-diérentiable en x ∈ dom(f )
Gâteaux-diérentiable en x et si
lim
v→0,v6=0
ou de manière plus compacte,
|f (x + v) − f (x) − Dx f (v)|
=0
kvk
f (x + v) = f (x) + Dx f (v) + o(kvk).
(2.8)
CHAPITRE 2.
Remarque 9.
22
FONCTIONS CONVEXES
La diérentiabilité au sens de Fréchet est la notion habituelle de dié-
rentiabilité. Les implications suivantes sont vraies (et immédiates) : Fréchet diérentiabilité
=⇒ Gâteaux-diérentiabilité =⇒ linéarité de l'application v 7→ f + (x; v). En
revanche, les implications réciproques sont fausses sans hypothèses supplémentaires.
Remarque
.
10
La Fréchet-diérentiabilité implique évidemment la continuité. Ainsi,
f : R2 → R considérée dans l'exemple précédent, qui est Gâteauxdiérentiable en (0, 0) mais discontinue en ce point, n'est pas Fréchet-diérentiable.
la fonction
2.5 Théorèmes de diérentiabilité presque partout
Motivation.
∗
et x
∈ E,
Soit
H
un espace de Hilbert. Étant donné un compact convexe
on s'intéresse au problème de programmation linéaire suivant :
maxhx∗ |xi
(2.9)
x∈K
On note
K⊆E
f : x∗ ∈ E → R
la fonction valeur du problème de programmation linéaire,
qui est convexe comme maximum de fonctions linéaires. De plus, si
du problème (2.9), c'est-à-dire
x∈K
∗
et f (x )
=
x est une solution
hx∗ |xi, on a
1
f + (x∗ , v ∗ ) = lim (f + (x∗ + εv ∗ ) − f (x∗ ))
ε→0 ε
1
≥ lim (hx∗ + v ∗ |xi − hx∗ |xi) ≥ hv ∗ |xi
ε→0 ε
On s'intéresse maintenant à l'unicité du maximiseur de (2.9). Supposons qu'il existe
x 6= y ∈ K
tel que
f (x∗ ) = hx∗ |xi = hx∗ |yi.
Alors, par le raisonnement précédent,
f + (x∗ , v ∗ ) ≥ max(hv ∗ |xi, hv ∗ |yi).
v ∗ ∈ E ∗ 7→ f + (x∗ ; v ∗ ) ne peut alors pas
diérentiable en x. Étudier la diérentiabilité de f
f
L'application
être linéaire, et
pas
∗
en x nous apprend donc des
n'est donc
choses sur l'unicité de la solution au problème de programmation linéaire (2.9).
2.5.1 Diérentiabilité des fonctions convexes sur R
Théorème 29. Soit f : R → R une fonction convexe, et I = int(dom(f )). Alors,
l'ensemble des points de I où f n'est pas dérivable est au plus dénombrable.
Démonstration.
fd0 (x) = f + (x; 1) et fg0 (x) = −f + (x, −1) les dérivées à droite et
gauche. En utilisant la croissance des pentes d'une fonction convexe sur R, on peut
montrer que ces fonctions sont croissantes (exercice). Pour tout x ≤ x0 dans I , on a
Soit
fd0 (x) = inf
y>x
f (y) − f (x)
f (x0 ) − f (x)
≤
≤ fg0 (x0 ),
y−x
x0 − x
ce qui implique l'inégalité
lim fd0 (x) ≤ fg0 (x0 ) ≤ fd0 (x0 )
x→x−
0
CHAPITRE 2.
La fonction
f
23
FONCTIONS CONVEXES
est dérivable en
x0
si et seulement si
fg0 (x0 ) = fd0 (x0 ).
x0 :
Ainsi, si
f
n'est
0
pas diérentiable en x0 , la fonction fd a un saut en
lim fd0 (x) < fd0 (x0 ).
x→x−
0
On conclut en utilisant le fait qu'une fonction croissante ne peut avoir qu'un nombre
dénombrable de sauts.
Remarque 11.
convexe
f
Ce théorème est faux en dimension plus grande. Considérer la fonction
R2 dénie par f (x1 , x2 ) = |x1 | :
{0} × R, qui est indénombrable.
sur
sur la droite
cette fonction n'est pas diérentiable
2.5.2 Gâteaux-diérentiabilité des fonctions convexes sur un
espace de Banach séparable
On rappelle qu'un espace de Banach
E
est dit séparable si il contient un ensemble
dénombrable dense.
Théorème 30 (Mazur). Soit E un espace de Banach séparable, Ω ⊆ E un ouvert convexe et f : Ω → R une fonction convexe continue. Alors, f est Gâteauxdiérentiable sur un sous-ensemble dense de Ω.
Pour démontrer ce théorème on considère une une suite
(vn )n≥0
dense dans
E
et
on introduit les ensembles
Am,n = {x ∈ Ω | f + (x, vn ) + f + (x, −vn ) ≥ 1/m},
A=
[
Am,n
(2.10)
m,n≥1
Le plan de la démonstration est le suivant : (a)
l'ensemble
Ω\A
(b) que chacun des
Am,n
f
est Gâteaux-diérentiable sur
est fermé et (c) que chacun des
Am,n
est
d'intérieur vide. Par théorème de Baire appliqué à un ouvert dans un espace complet
?
(cf [ , p. 83]), on sait alors que
Ω\A
A est d'intérieur vide (ou de manière équivalente que
est dense).
Proposition 31. La fonction f est Gâteaux-diérentiable sur l'ensemble Ω \ A.
Démonstration.
f
Comme
f
est continue sur
n'est pas G.-diérentiable en
Ω,
par la proposition 27,
x ∈ Ω =⇒ ∃v ∈ E, f + (x, v) + f + (x, −v) > 0
=⇒ ∃v ∈ E, ∃m > 1, f + (x, v) + f + (x, −v) > 2/m
=⇒ ∃m, n ≥ 1, f + (x, vn ) + f + (x, −vn ) > 1/m
=⇒ x ∈ A,
où l'on a utilisé la continuité de l'application
v 7→ f + (x, v).
Proposition 32. L'ensemble Am,n déni par
(2.10)
est fermé dans E .
Cette proposition est une conséquence immédiate du lemme suivant donnant la
semicontinuité supérieure de
x 7→ g + (x, v).
CHAPITRE 2.
24
FONCTIONS CONVEXES
Lemme 33. Soit g : E → R une fonction convexe continue en un point x de E , et
soit (xk ) une suite qui converge vers x. Alors, g+ (x, v) ≥ lim supk→∞ g+ (xk , v).
Démonstration.
sinage de
x.
Comme
g
est continue en
x,
L-lipschitzienne dans un voi(xk ) reste dans ce
g et xk → x, on a
elle est
Sans perte de généralité, on suppose que la suite
voisinage. Soit
ε > 0.
En utilisant la lipschitzité de
1
1
(g(x + εv) − f (x)) = (g(xk + εv) − g(xk ) − 2L kx − xk k)
ε
ε
2L kx − xk k
≥ g + (xk , v) −
ε
+
≥ lim sup g (xk , v).
k→∞
On en déduit le lemme en passant à l'inmum à gauche.
Proposition 34. L'ensemble Am,n déni par
Démonstration.
est d'intérieur vide.
Am,n
xt := x + tvn
On raisonne par l'absurde, et l'on suppose que l'intérieur de
x. Alors, il existe r > 0
g : t ∈ [0, r] 7→ f (xt ). Alors,
contient un point
et
(2.10)
tel que
B(x, r) ⊆ Am,n .
Soit
∀t ∈ [0, r], −f + (xt , −vn ) + 1/m ≤ f + (xt , vn )
=⇒ ∀t ∈ [0, r], g
n'est pas diérentiable en
t
Ceci contredit le théorème (29), qui arme que l'ensemble de non-diérentiabilité
de
g
est au plus dénombrable.
2.5.3 Fréchet-diérentiabilité presque partout des fonctions
convexes en dimension nie
Le comportement des fonctions convexes en dimension nie est beaucoup plus
simple qu'en dimension innie. Soit
point de continuité de
f
f.
f : Rd → R
une fonction convexe et
x
est un
On va montrer la chaine d'implication suivante :
admet des dérivées partielles
=⇒ l'application v 7→
∂f
∂ei (x) 1≤i≤d
f + (x; v) est linéaire
=⇒ f
est Gâteaux-diérentiable en
=⇒ f
est Fréchet-diérentiable en
x
x
On en déduira le théorème principal de ce chapitre, armant qu'une fonction convexe
f : Rd → R
est diérentiable en presque tout point de son domaine.
Remarque 12.
Dans la suite, on fera souvent l'hypothèse que le domaine des fonctions
considérées est d'intérieur non vide. Pour traiter le cas général, il sut de considérer
la restriction de
f
à l'enveloppe ane de
dom(f ).
CHAPITRE 2.
25
FONCTIONS CONVEXES
Proposition 35. Soit E un espace de dimension nie et f : E → R une fonction convexe. La restriction de f à l'intérieur relatif de dom(f ) est localement
Lipschitz.
Démonstration de la proposition 35.
restreindre
f
E = Rn . Quitte à
que Ω = int(dom(f ))
On suppose également que
à l'enveloppe ane de son domaine, on suppose
Ω contient l'origine. Il existe donc
X = {(±r, . . . , ±r)}, de sorte que
est non vide, et quitte à translater, on suppose que
r > 0 tel que Ω contienne le cube [−r, r]n .
[−r, r]n = conv(X) (exercice). On pose
M=
Soit
max f (ε1 r, . . . , εn r).
εi ∈{±1}n
x ∈ [−r, r]n . Comme P
[−r, r]n = conv(X)
P , il existe k ≥ 0, x1 , . . . , xk ∈ X ,
λ1 , . . . , λk ≥ 0 de sorte que i λi = 1 et x = i λi xi . Alors,
Soit
f (x) ≤
k
X
λi f (xi ) ≤
i=1
Ainsi,
f
k
X
λi M = M.
i=1
est localement bornée en un point, et par proposition 18 elle est localement
lipschitzienne sur l'intérieur de son domaine.
Proposition 36. Soit E un espace vectoriel de dimension nie et f : E → R une
fonction convexe. Si f est Gâteaux-diérentiable en un point x de int(dom(f )), alors
f est Fréchet-diérentiable en ce point.
Cette proposition est en fait une conséquence du lemme suivant, et du fait que
f
est localement lipschitzienne au voisinage de
x.
Lemme 37. Soit f : B(x, r) → R, dim(E) < +∞, une fonction M -Lipschitz. Si f
est Gâteaux-diérentiable en x, alors elle est également Fréchet-diérentiable en x.
Démonstration.
ε > 0. Par compacité de la sphère unité S de E , il existe
(vi )1≤i≤N de S telle que S ⊆ ∪i B(vi , ε). Par Gâteauxf en x, pour tout ε > 0 et tout i, il existe δi tel que
Soit
une famille de vecteurs
diérentiabilité de
∀t ∈ [−δi , δi ], kf (x + tvi ) − (f (x) + tDx f (vi ))k ≤ ε |t|
Soit
δ := mini δi > 0. Par construction des (vi ), pour tout vecteur v de S , il existe i
kvi − vk ≤ ε. Alors, en utilisant le caractère Lipschitz de f et de Dx f ,
tel que
kf (x + tvi ) − f (x + tv)k ≤ M |t| ε
kDx f (vi ) − Dx f (x + tv)k ≤ M |t| ε
Ainsi, pour tout
v∈S
et
t ≤ δ,
kf (x + tv) − (f (x) + tDx f (v))k ≤ kf (x + tvi ) − (f (x) + tDx f (vi ))k + 2M ε |t|
≤ (2M + 1)ε |t|
CHAPITRE 2.
26
FONCTIONS CONVEXES
v ∈ E , kvk ≤ δ ,
De manière équivalente, pour tout
kf (x + v) − (f (x) + Dx f (v))k ≤ (2M + 1)ε kvk ,
et la fonction
f
est donc bien Fréchet-diérentiable en
x.
Proposition 38. Soit E un espace vectoriel de dimension nie, et (ei ) une base
de E et f : E → R une fonction convexe. Alors f est Gâteaux-diérentiable en
x ∈ int(dom(f )) si et seulement si elle admet des dérivées partielles en x :
Lemme 39. Soit
f (x + tei ) − f (x)
∂f
.
(x) = lim
t→0
∂ei
t
g : E → R une fonction sous-linéaire. Alors,
l'ensemble
V = {v ∈ E | f + (x; v) = −f + (x; −v)}
est un sous-espace vectoriel de E .
Démonstration.
Par sous-linéarité,
−p(−u) ≤ p(u). Par construction,
scalaire. Soient v, w ∈ V . On a
0 = p(u + (−u)) ≤ p(u) + p(−u), de sorte que
V est stable par multiplication par un
l'ensemble
g(v + w) ≤ g(v) + g(w) = −g(−v) + −g(−w) ≤ −g(−v − w) ≤ g(v + w).
Ainsi,
v+w ∈V
et
V
est bien un sous-espace vectoriel de
E.
Démonstration de la proposition 38.
La fonction f est localement Lipschitz au voisig = f + (x; ·) est sous-linéaire. Soit V := {v ∈ E | g(v) = −g(−v)}. Par
le lemme précédent, V est un sous-espace vectoriel de E , et par hypothèse ei ∈ V
+
pour tout i. Ainsi, V = E et f (x; ·) est linéaire.
nage de
x,
et
Théorème 40. Soit E un espace vectoriel de dimension nie et f : E → R
une fonction convexe. Alors, f est Fréchet-diérentiable en presque tout point de
int(dom(f )).
Démonstration.
Soit
A
l'ensemble des points de
Ω := int(dom(f )) où la fonction f
A est contenu dans
n'est pas Fréchet-diérentiable. Par la proposition 38, l'ensemble
l'intersection des ensembles
x∈Ω|
Ai :=
Ainsi, pour montrer que
Ai
A
∂f
∂ei
n'existe pas en
x .
a une mesure nulle, il sut de démontrer que chacun des
a une mesure nulle. Sans perte de généralité, on suppose que
on considère
φ
An .
Z
φ(x)dx =
la fonction indicatrice de
Z
λ(An ) =
Rn
Or, pour tout
y ∈ Rn−1 , t 7→ φ(y, t)
E = Rn
Rn−1
i = n,
et
Z
φ(y, xn )dxn dy
R
est la fonction indicatrice du lieu
diérentiabilité de la fonction convexe
et
Par thèorème de Tonelli,
t ∈ R 7→ f (y, t).
dénombrable et donc de mesure de Lebesgue nulle.
By
de non-
Par le theoreme 29,
By
est