Orthogonalité, Matrices symétriques réelles.

Transcription

Orthogonalité, Matrices symétriques réelles.
Université Nice Sophia-Antipolis
2012-13
SL2SF
Algèbre 2
Espaces euclidiens, orthogonalité, longueur.
Moindres carrés.
On travaille avec le corps des réels, noté R. Pour tout entier naturel n, on considère l’ensemble
des n-uplets de réels que l’on désigne par Rn : ainsi, un élément ~x de Rn est une famille de
réels (x1 , x2 , . . . , xn ). Noter que R0 ne contient qu’un élément, la famille vide, que l’on note 0.
L’ensemble R1 se ramène à R.
On appelle souvent ~x un vecteur en référence à la structure d’espace vectoriel sur Rn . (Voir 10.1
pour la définition de cette structure).
7. Produit scalaire dans Rn .
Étant donnés deux vecteurs ~x et ~y de Rn , on considère le nombre réel
n
X
x1 y1 + . . . + xn yn =
x i yi
i=1
que l’on appelle produit scalaire de ~x et ~y et que l’on note h~x | ~y i. On vérifie très facilement les
propriétés suivantes : pour tous ~x, ~u, ~v , ~y de Rn , pour tout λ scalaire réel, on a
(1) Le produit scalaire est bilinéaire
h~u + ~v | ~y i
h~x | ~u + ~v i
hλ~x | ~y i
h~x | λ~y i
=
=
=
=
h~u | ~y i + h~v | ~y i
h~x | ~ui + h~x | ~v i
λh~x | ~y i
λh~x | ~y i
(2) Le produit scalaire est symétrique.
h~x | ~y i = h~y | ~xi
(3) Le produit scalaire est défini positif.
h~x | ~xi ≥ 0 et
h~x | ~xi = 0 =⇒ ~x = 0.
La troisième propriété permet de définir la norme euclidienne d’un vecteur (on peut dire aussi sa
longueur ) par la formule
p
k~xk := h~x | ~xi
Cette même propriété montre que la norme d’un vecteur est nulle si et seulement si le vecteur est
nul.
Pour tout λ réel on a :
kλ~xk = |λ| k~xk.
7.1. Théorème (Inégalité de Cauchy-Schwarz). : Pour ~x et ~y vecteurs de Rn on a
|h~x | ~y i| ≤ k~xkk~y k
avec égalité si et seulement si ~x et ~y sont colinéaires.
26
Démonstration. Considérons deux vecteurs ~x et ~y de Rn . Si ~x est le vecteur nul, le théorème est
vrai. Supposons donc ~x 6= 0 et, pour λ réel, considérons la fonction
ϕ : R −→ R
λ = kλ~x + ~y k2 .
En utilisant la bilinéarité et la symétrie du produit scalaire on trouve
ϕ(λ) = hλ~x + ~y | λ~x + ~y i = λ2 k~xk2 + 2λh~x | ~y i + k~y k2 .
Comme le produit scalaire est défini positif, la fonction ϕ est toujours positive ou nulle. Comme
c’est une fonction polynôme du second degré, son discriminant 4h~x | ~y i2 − 4k~xk2 k~y k2 est négatif
ou nul. On a donc
h~x | ~y i2 ≤ k~xk2 k~y k2
et l’inégalité demandée.
S’il y a égalité, c’est que le discriminant s’annule. C’est le seul cas où ϕ a une racine (double) λ0 .
Dire que ϕ(λ0 ) = 0, c’est dire que kλ0~x + ~y k2 = 0, donc (produit scalaire défini positif) que le
vecteur λ0~x + ~y est nul, soit encore que ~y est proportionnel à ~x.
Réciproquement, si ~x et ~y sont colinéaires et que ~x n’est pas nul, il existe un λ0 tel que le vecteur
λ0~x + ~y est nul. On a alors
|h~x | ~y i| = |h~x | −λ0~xi| = | − λ0 |k~xk2 = k~xkk~y k.
7.2. Corollaire (Inégalité du triangle). Pour ~x et ~y vecteurs de Rn , on a :
k~x + ~y k ≤ k~xk + k~y k
avec égalité si et seulement si l’un des vecteurs est nul ou si’ils sont proportionnels avec un coefficient de proportionnalité positif.
Démonstration. On calcule
k~x + ~y k2 = h~x + ~y | ~x + ~y i = k~xk2 + 2h~x | ~y i + k~y k2 .
En utilisant l’inégalité de Cauchy-Schwarz, on obtient que
h~x | ~y i ≤ |h~x | ~y i| ≤ k~xkk~y k
et donc la majoration
k~x + ~y k2 ≤ k~xk2 + 2k~xkk~y k + k~y k2 = (k~xk + k~y k)2
qui est celle recherchée. Pour avoir égalité il est nécessaire et suffisant que
h~x | ~y i = k~xkk~y k.
En particulier on est dans le cas où l’inégalité de Cauchy-Schwarz est une égalité, les deux vecteurs
sont donc colinéaires avec un coefficient de proportionnalité positif (voir la preuve de 7.1).
27
7.3. Commentaire. On remarque que les preuves de l’inégalité de Cauchy-Schwarz et de ses
conséquences utilisent seulement les trois propriétés énoncées d’abord pour le produit scalaire :
bilinéarité, symétrie et positivité et non la formule explicite qui définit le produit scalaire (le
vérifier).
Encouragé par ce constat, on va désormais appeler produit scalaire sur un espace vectoriel E
sur le corps R toute application bilinéaire
φ : E × E −→ R
(~x, ~y ) 7−→ φ(~x, ~y )
qui est bilinéaire, symétrique et définie positive. Pour une telle application, il y un analogue de
l’inégalité de Cauchy-Schwarz et de ses conséquences. Par exemple, l’inégalité de Cauchy-Schwarz
pour φ s’énonce ainsi :
Pour ~x et ~y vecteurs de E on a
p
p
|φ(~x, ~y )| ≤ φ(~x, ~x) φ(~y , ~y )
avec égalité si et seulement si ~x et ~y sont colinéaires.
On définit également une norme associée à φ sur E : pour tout vecteur ~x de E,
p
k~xkφ := φ(~x, ~x)
(voir ici les énoncés généraux pour les produits scalaires 10.9, les normes 10.10 et l’inégalité du
triangle 3).
7.4. Exemples d’espaces vectoriels euclidiens. . On peut considérer l’exemple suivant d’application :
φ : Rn × Rn −→ R
(~x, ~y ) 7−→ 2x1 y1 + x2 y2 + . . . + xn yn
qui est un produit scalaire sur Rn (le vérifier). Si n ≥ 2, on a φ((1, 1, 0, . . . , 0), (1, −1, 0, . . . , 0)) = 1,
alors que le produit scalaire usuel de ces deux vecteurs est nul. Il y a donc, en général, plusieurs
produits scalaires sur un même espace vectoriel réel.
Sous-espaces vectoriels d’un espace vectoriel réel. Si F est un sous-espace vectoriel d’un
espace vectoriel euclidien E (donc muni d’un produit scalaire φ), la restriction de φ à F × F induit
un produit scalaire sur F . Autrement dit, pour calculer le produit scalaire de deux vecteurs de F ,
on calcule leur produit scalaire dans E.
Dans la suite on considèrera donc un espace vectoriel E muni d’un produit scalaire que nous
noterons h | i. L’exemple privilégié, que l’on doit garder en tête, est celui de Rn muni du produit
scalaire usuel.
Polynômes orthogonaux. C’est un autre exemple très important et très utilisé dans les applications. Voir Feuille 4, Exercice 4.
8. Orthogonalité
8.1. Définition. On dira que deux vecteurs ~x et ~y de Rn sont orthogonaux si leur produit scalaire
est nul.
Remarquer que le vecteur nul est orthogonal à tout autre vecteur.
Le calcul de k~x + ~y k2 ci-dessus (7.2) prouve le résultat suivant :
28
8.2. Théorème (Pythagore). Deux vecteurs ~x et ~y de Rn sont orthogonaux si et seulement si
k~x + ~y k2 = k~xk2 + k~y k2 .
8.3. Théorème. Une famille libre de vecteurs de E qui sont tous non nuls et orthogonaux deux à
deux est une famille libre.
Démonstration. On rappelle qu’une famille (~v1 , ~v2 , . . . , ~vd ) est libre si toute combinaison linéaire
λ1~v1 + λ2~v2 + . . . + λd~vd qui donne le vecteur nul est la combinaison linéaire triviale : celle où tous
les scalaires λ1 , λ2 , . . . , λd sont nuls.
Considérons donc des réels (λ1 , λ2 , . . . , λd ) et la combinaison linéaire
λ1~v1 + λ2~v2 + . . . + λd~vd =
d
X
λi~vi .
i=1
Supposons que le résultat est le vecteur nul et faisons le produit scalaire par le vecteur ~vi pour i
de 1 à d. On obtient, en utilisant la bilinéarité du produit scalaire
0 = h~vi | λ1~v1 + λ2~v2 + . . . + λd~vd i = λ1 h~vi | ~v1 i + . . . + λd h~vi | ~vd i.
Comme le vecteur ~vi est orthogonal à tous les autres, on en déduit
0 = h~vi | λ1~v1 + λ2~v2 + . . . + λd~vd i = λi h~vi | ~vi i = λi k~vi k2 .
Mais ~vi n’est pas le vecteur nul, donc sa longueur n’est pas nulle. C’est donc que λi = 0.
8.4. Définition. Une famille finie (~v1 , ~v2 , . . . , ~vd ) de vecteurs de E qui sont tous non nuls et
orthogonaux deux à deux (et qui est donc libre d’après le théorème) est appelée famille orthogonale. Si de plus les vecteurs de la famille sont tous de norme 1, on dit alors que la famille est
orthonormée (on dit parfois orthonormale). On abrège base orthonormée en b.o.n.
8.5. Définition. On dira qu’un vecteur ~v de E est orthogonal à une partie A de E s’il est
orthogonal à tous les vecteurs de A. On définit l’orthogonal A⊥ comme l’ensemble des vecteurs de
E orthogonaux à A. Un vecteur ~v de E est dit orthogonal à A si
∀~y ∈ A h~v | ~y i = 0.
8.6. Lemme. On considère un espace vectoriel E et une partie A de E. Alors A⊥ est un sousespace vectoriel de E, même si A n’en est pas un.
L’intersection A ∩ A⊥ contient au plus le vecteur nul.
Si F est un sous-espace vectoriel de E, un vecteur ~v de E est orthogonal à F si et seulement s’il
est orthogonal à une partie génératrice de F (par exemple une base de F ).
Démonstration. Exercice.
9. Algorithme de Gram-Schmidt
C’est l’outil essentiel.
9.1. Théorème. On considère un espace vectoriel E et une famille libre (~v1 , . . . , ~vp ). Il existe
une famille orthonormée (~e1 , . . . , ~ep ) de E telle que, pour tout j de 1 à p,
Vect(~v1 , . . . , ~vj ) = Vect(~e1 , . . . , ~ej ).
Voir la définition de sous-espace vectoriel et du symbole Vect( ) ici 10.3.
29
Démonstration. La preuve se fait par récurrence sur p. Pour p = 0, on ne fait rien. Considérons
alors un entier p > 0 et une famille libre (~v1 , . . . , ~vp ). Par hypothèse de récurrence, on sait trouver
une famille orthonormée (~e1 , . . . , ~ep−1 ) telle que, pour tout j de 1 à p − 1, Vect(~v1 , . . . , ~vj ) =
Vect(~e1 , . . . , ~ej ). On considère alors le vecteur
~εp = ~vp −
p−1
X
h~ej | ~vp i~ej .
j=1
Il a deux propriétés importantes
(1) Il est non nul.
Sinon, ~vp serait combinaison linéaire de ~e1 , . . . , ~ep−1 , donc dans Vect(~e1 , . . . , ~ep−1 ) qui
est égal, toujours par hypothèse de récurrence, à Vect(~v1 , . . . , ~vp−1 ). On aurait donc ~vp
combinaison linéaire de (~v1 , . . . , ~vp−1 ), ce qui est impossible puisque la famille (~v1 , . . . , ~vp )
est libre.
(2) Il est orthogonal à ~ei pour i de 1 à p − 1.
En effet, on a
p−1
X
h~ei | ~εp i = h~ei | ~vp i −
h~ej | ~vp ih~ei | ~ej i
j=1
et le produit scalaire h~ei | ~ej i vaut 0 si i 6= j et 1 si i = j. On en conclut que h~ei | ~εp i = 0
pour i de 1 à p − 1.
Pour terminer la construction de la famille orthonormée (~e1 , . . . , ~ep ), il suffit de prendre
~ep =
1
~εp .
k~εp k
Les conséquences du résultat précédent sont importantes. On considère un espace vectoriel euclidien E, c’est-à-dire un espace vectoriel sur R muni d’un produit scalaire euclidien et un sous-espace
vectoriel F de dimension finie p dans E.
(1) Bases orthonormées. Le sous-espace F , qui est de dimension finie, a au moins une b.o.n.
(2) Projection orthogonale. Si ~x est un vecteur de E et (~e1 , . . . ~ep ) une b.o.n. de F , alors le
vecteur
p
X
~v :=
h~ej | ~xi~ej
j=1
est dans F et la différence ~x − ~v est orthogonale à F . C’est le seul vecteur qui a cette
propriété. On appelle ~v la projection orthogonale de ~x sur F et on la note pr⊥
x). On
F (~
définit ainsi une application de E dans E qui est linéaire. Voir Feuille 5. Exercice 2.
(3) Supplémentaire orthogonal. Si E est lui-même de dimension finie n et F un sousespace vectoriel de dimension p dans E, alors F ⊥ est un sous-espace vectoriel de dimension
finie n − p et tout vecteur ~x de E se décompose de manière unique en
~x = pr⊥
x) + pr⊥
x).
F (~
F ⊥ (~
Autrement dit, si on connaı̂t l’une des deux projections orthogonales, on déduit l’autre par
différence. On appelle F ⊥ le supplémentaire orthogonal de F dans E.
30
(4) Optimisation. À cause du théorème de Pythagore, la projection orthogonale sur F a la
propriété caractéristique suivante : pour tout vecteur ~y de F ,
k~x − pr⊥
x)k ≤ k~x − ~y k
F (~
avec égalité seulement si ~y = pr⊥
x).
F (~
Autrement dit, la fonction ~y 7−→ k~x−~y k, définie sur F , a un minimum unique qui est atteint
pour ~y = pr⊥
x). Ceci est un moyen efficace de résoudre certains problèmes d’optimisation
F (~
qui se ramènent ainsi à un calcul de projection orthogonale.
(5) Moindres carrés. Voir Feuille 5. Exercice 5.
Université Nice Sophia-Antipolis
2012-13
SL2SF
Algèbre 2
Matrices symétriques réelles.
10. Calcul matriciel
10.1. Application bilinéaire symétrique associée à une matrice symétrique. On considère
une matrice symétrique A dans Mn (R). On appelle B la base canonique (e1 , . . . , en ) de Rn .
(1) À une telle matrice est associée une application linéaire f de Rn dans Rn . Si ~x est un
vecteur de Rn , on note X la matrice colonne de ses coordonnées dans la base canonique
B. Le produit de matrices AX est une matrice colonne qui est la matrice dans la base
canonique B d’un vecteur ~y de Rn . Ce vecteur est l’image de ~x par f .
(2) À une telle matrice est associée une application bilinéaire symétrique de Rn × Rn dans R.
On considère deux vecteurs ~x et ~y de Rn de matrices respectives X et Y dans la base B.
Le produit de matrices t Y A X est une matrice 1 × 1, c’est-à-dire un réel. Remarquons que
ce réel est le produit scalaire h~y | f (~x)i. On notera φ l’application
φ : Rn × Rn −→ R
(~x, ~y ) 7−→ h~y | f (~x)i.
On note que, puisque A est symétrique,
t
Y A X = tX tA Y = tXA Y.
On a donc φ(~x, ~y ) = φ(~y , ~x), soit encore h~y | f (~x)i = hf (~y ) | ~xi.
Espace vectoriel euclidien E
~x
~y
f : E −→ E
~y = f (~x)
h~x | ~y i = h~y | ~xi
h~y | f (~x)i = hf (~x) | ~y i
Dans la base B
X
Y
A matrice carrée n × n
Y = AX
t
Y X = tXY
t
Y A X = t(AX)Y = tX tA Y
11. Formes bilinéaires symétriques
Dans cette section on étudie les applications bilinéaires symétriques
φ : E × E −→ R
(~u, ~v ) 7−→ φ(~u, ~v ).
où E est un espace vectoriel sur R. Comme l’espace d’arrivée est R on appelle une telle application
forme bilinéaire symétrique.
11.1. Lemme. On considère une application bilinéaire φ comme ci-dessus qui est de plus positive,
c’est-à-dire
∀~v ∈ E φ(~v , ~v ) ≥ 0.
L’ensemble des vecteurs ~v de E tels que φ(~v , ~v ) = 0 est un sous-espace vectoriel de E. C’est
aussi le sous-ensemble
{~v ∈ E | ∀w
~ ∈ E φ(~v , w)
~ = 0}
32
Démonstration. On considère un vecteur ~v tel que φ(~v , ~v ) = 0, un vecteur w
~ de E et un scalaire
réel λ. On calcule φ(~v + λw,
~ ~v + λw),
~ positif ou nul par hypothèse, en utilisant la bilinéarité :
0 ≤ φ(~v + λw,
~ ~v + λw)
~ = φ(~v , ~v ) + λ2 φ(w,
~ w)
~ + 2λφ(~v , w)
~ = λ2 φ(w,
~ w)
~ + 2λφ(~v , w).
~
On en déduit que la fonction λ 7−→ λ2 φ(w,
~ w)
~ + 2λφ(~v , w)
~ ne prend aucune valeur négative, ce
qui n’est possible que lorsque φ(~v , w)
~ = 0.
On vérifie ensuite que l’ensemble
{~v ∈ E | ∀w
~ ∈E
φ(~v , w)
~ = 0}
est un sous-espace vectoriel de E. C’est une conséquence de la linéarité de φ par rapport à son
premier argument.
Remarque. En particulier, une forme bilinéaire positive φ est un produit scalaire si et seulement
si l’une des deux propriétés suivantes est satisfaite
(1) l’ensemble {~v ∈ E | φ(~v , ~v ) = 0} est réduit au vecteur nul.
(2) le sous-espace vectoriel {~v ∈ E | ∀w
~ ∈E
φ(~v , w)
~ = 0} est réduit au vecteur nul.
11.2. Théorème. On considère un entier naturel n, un espace vectoriel euclidien E de dimension
finie n et une forme bilinéaire symétrique φ sur E. Il existe une base orthonormée (~v1 , . . . , ~vn )
de vecteurs de E, et une famille de réels (λ1 , . . . , λn ) telles que
(1) Pour i de 1 à n, φ(~vi , ~vi ) = λi .
(2) Pour i et j de 1 à n, i 6= j, φ(~vi , ~vj ) = 0.
P
P
~ i , alors
~ = ni=1 βi w
(3) Si ~v = ni=1 αi~vi et w
φ(~v , w)
~ =
n
X
λi α i βi .
i=1
En particulier,
φ(~v , ~v ) =
n
X
λi (αi )2 .
i=1
L’assertion (3) est équivalente aux deux premières, compte tenu de la bilinéarité de φ.
Démonstration. La démonstration se fait par récurrence sur l’entier n. Pour n = 0 il n’y a rien à
faire (une famille à 0 éléments est vide). On considère alors un entier n > 0, une forme bilinéaire
symétrique φ sur un espace euclidien E de dimension n et on fait l’hypothèse que le théorème est
vrai pour toute forme bilinéaire symétrique sur un espace de dimension strictement inférieure à n.
À l’aide de φ, on construit une application
h : Rn −→ R
~x 7−→ h(~x) := φ(~x, ~x).
La sphère unité de Rn est un ensemble fermé et borné de Rn , donc compact. La fonction h
est continue parce que polynomiale. Un théorème important d’analyse affirme que toute fonction
continue sur un compact est bornée et atteint ses bornes sur ce compact. La fonction h est donc
bornée sur la sphère unité et il existe un vecteur v0 de norme 1, tel que tout vecteur v de norme
1 a une image h(v) majorée par h(v0 ). On désigne h(v0 ) par λ0 .
33
On considère alors l’application
ψ : Rn × Rn −→ R
(~u, ~v ) 7−→ λ0 h~u | ~v i − φ(~u, ~v ).
C’est encore une forme bilinéaire symétrique parce que φ et le produit scalaire sont toutes deux
des formes bilinéaires symétriques. D’autre part, ψ est positive. En effet, si v est nul ψ(0, 0) = 0
et sinon
~v
ψ(~v , ~v ) = k~v k2 (λ0 − h(
) ≥ 0.
k~v k
puisque k~~vvk est un vecteur de norme 1.
Le lemme 11.1 montre que
(1) L’ensemble des vecteurs ~v de E tels que h(~v ) = λ0 k~v k2 est un sous-espace vectoriel F0 de
E, non reduit à 0 puisqu’il contient ~v0 .
(2) Un vecteur ~v est dans F0 si et seulement si pour tout w de E, ψ(v, w) = 0.
On a donc montré :
∀~v ∈ F0 ∀w
~ ∈E
φ(w,
~ ~v ) = λ0 hw
~ | ~v i
En particulier, si w
~ est orthogonal à F0 , on voit que
∀~v ∈ F0
φ(w,
~ ~v ) = 0.
Tout vecteur ~v de E se décompose de manière unique en ~v 0 + ~v 00 avec ~v 0 ∈ F0 et ~v 00 ∈ F0⊥ . On
calcule φ(~v , w)
~ :
φ(~v , w)
~ = φ(~v 0 + ~v 00 , w
~0 + w
~ 00 ) = φ(~v 0 , w
~ 0 ) + φ(~v 0 , w
~ 00 ) + φ(~v 00 , w
~ 0 ) + φ(~v 00 , w
~ 00 )
= φ(~v 0 , w
~ 0 ) + φ(~v 00 , w
~ 00 ) = λ0 h~v 0 | w
~ 0 i + φ(~v 00 , w
~ 00 ).
Il suffit donc de connaı̂tre la valeur de φ sur un couple de vecteurs de F0⊥ pour connaı̂tre φ. Or F0⊥
est un espace vectoriel euclidien de dimension strictement inférieure à n. On peut lui appliquer
l’hypothèse de récurrence : il existe une base orthonormée de F0⊥ vérifiant les conclusions du
théorème. En prenant une base orthormée de F0 et en la concaténant avec celle obtenue pour F0⊥ ,
on obtient une base orthonormée de E vérifiant les conclusions du théorème.
11.2.1. Exemple. On considère la matrice symétrique
7 2
A :=
.
2 4
On lui associe la forme bilinéaire symétrique
φ : R2 × R2 −→ R
((u1 , u2 ), (v1 , v2 )) 7−→
u1 u2
7 2
2 4
v1
v2
= 7u1 v1 + 4u2 v2 + 2u1 v2 + 2u2 v1 .
L’application h est alors
h : R2 −→ R
(x1 , x2 ) 7−→ 7x21 + 4x22 + 4x1 x2 .
34
Le cercle unité est l’ensemble des vecteurs de norme 1, autrement dit l’ensemble des vecteurs
(cos θ, sin θ) pour θ réel. Pour trouver le maximum de h sur le cercle, on étudie la fonction
R −→ R
3
3
cos 2θ + + 2 sin 2θ.
2
2
4
La dérivée vaut −3 sin 2θ + 4 cos 2θ et s’annule si et seulement si tan 2θ = 3 soit encore tan θ = 12
ou tan θ = −2. On vérifie que la deuxième valeur correspond à un maximum pour h. Le vecteur
2 1
~u = ( √ , √ )
5 5
est de norme 1 et rend la fonction h maximum. On trouve φ(~u, ~u) = h(~u) = 8. Le vecteur
1 −2
~v = ( √ , √ )
5 5
est de norme 1 et rend la fonction h minimum. On trouve φ(~v , ~v ) = h(~v ) = 3. La famille (~u, ~v ) est
orthonormée et on a φ(~u, ~v ) = 0.
On vérifie également les relations :
θ 7−→ h(cos θ, sin θ) = 7 cos2 θ + 4 sin2 θ + 4 sin θ cos θ = 4 +
f (~u) = 8~u et f (~v ) = 3~v .
11.2.2. Exemple. On considère dans Rn , muni de son produit scalaire usuel, une famille de
vecteurs (w
~ 1, . . . , w
~ d ) et on veut résoudre le problème suivant :
Quelle est la droite vectorielle qui est la plus proche de la famille (w
~ 1, . . . , w
~ d) ?
On quantifie la question de la manière suivante :
Trouver une droite vectorielle ∆ de Rn telle que la somme suivante soit minimale
Σ(∆) :=
d
X
kw
~ i − pr∆ (w
~ i )k2 .
j=1
La différence w
~ i − pr∆ (w
~ i ) est orthogonale à ∆ par définition de la projection orthogonale. Le
théorème de Pythagore montre alors la relation :
Σ(∆) :=
d
X
kw
~ j k2 − kpr∆ (w
~ j )k2 .
j=1
Considérons un vecteur unitaire ~u qui dirige ∆. La somme Σ s’écrit :
Σ(∆) :=
d
X
2
kw
~jk −
j=1
d
X
hw
~ j | ~ui2
j=1
La somme Σ(∆) est une différence de deux termes. Le premier terme est indépendant de ∆ et
P
ne dépend que de la famille de vecteurs. Le deuxième dj=1 hw
~ j | ~ui2 est une forme quadratique
associée à la forme bilinéaire symétrique
φ(~u, ~v ) =
d
X
hw
~ j | ~uihw
~ j | ~v i
j=1
Dans les notations du théorème, il s’agit de trouver le maximum de la fonction h(~u) = φ(~u, ~u)
lorsque ~u est de norme 1 pour en déduire le minimum de Σ(∆). C’est donc exactement le problème
étudié dans la preuve du théorème.
35
Cet exemple est très utilisé en statistiques (analyse de données) ou en mécanique (axes principaux
de rotation d’un solide).
12. Réduction des matrices symétriques réelles
On considère un entier n et une matrice symétrique réelle A. On considère la forme bilinéaire
symétrique φ associée (voir 10.1). On veut calculer une base orthonormée (~v1 , . . . , ~vn ) et la famille
de réels (λ1 , . . . , λn ) dont le théorème 11.2 affirme l’existence.
Ces deux familles ont les propriétés suivantes
(1) Pour i de 1 à n, h~vi | f (~vi )i = φ(~vi , ~vi ) = λi .
(2) Pour i et j de 1 à n, i 6= j, h~vj | f (~vi )i = φ(~vi , ~vj ) = 0.
Considérons le vecteur f (~vi ) : on connait son produit scalaire avec tous les vecteurs de la base
orthonormée (~v1 , . . . , ~vn ). Il vaut donc λi~vi , autrement dit :
vi est un vecteur non nul du noyau de f − λi Id.
12.1. Définition. On appelle valeur propre de f un réel λ tel que le noyau ker(f − λId) n’est
pas réduit au vecteur nul. Un vecteur non nul de ker(f − λId) est appelé vecteur propre associé
à la valeur propre λ.
Lorsque λ est une valeur propre de f , le sous-espace vectoriel ker(f − λId) est le sous-espace
propre de f associé à la valeur propre λ.
Il s’agit donc de calculer les valeurs propres et les vecteurs propres de f à partir de la matrice A
de f . On désigne par In la matrice identité n × n.
12.2. Théorème. On considère un réel λ et une application linéaire f : Rn −→ Rn de matrice A
dans la base B. Les propriétés suivantes sont équivalentes
(1) Le noyau ker(f − λId) n’est pas réduit au vecteur nul (λ est valeur propre de f ).
(2) Le rang de la matrice A − λIn est strictement inférieur à n.
(3) det(A − λIn ) = 0.
La preuve est une application directe des propriétés du rang et du déterminant.
12.2.1. Exemple. On reprend l’exemple 11.2.1. On considère la matrice symétrique
7 2
.
A :=
2 4
et le déterminant det(A − λI2 ) qui vaut λ2 − 11λ + 24. Les valeurs propres sont les racines de ce
polynôme du second degré, 8 et 3.
Les vecteurs propres associés à la valeur propre 8 sont éléments du noyau de f − 8Id, c’est-à-dire
les solutions du système linéaire sans second membre de matrice A − 8I2
−v1 + 2v2 = 0
.
2v1 − 4v2 = 0
Les deux équations sont proportionnelles et le système est de rang 1 (est-ce surprenant ?). L’ensemble des solutions est√une droite
vectorielle dirigée par le vecteur (2, 1). Un vecteur directeur
√
de norme 1 est ~u := (2/ 5, 1/ 5).
On opère
√ de même
√ pour la valeur propre 3 pour trouver un vecteur propre de norme 1 associé
~v := (1/ 5, −2/ 5).
On constate que la famille (~u, ~v ) est orthonormée.
36
12.3. Théorème. On considère une matrice symétrique A et l’application linéaire associée f :
Rn −→ Rn . Deux vecteurs propres ~u et ~v de f , associés à des valeurs propres différentes λ et µ
sont orthogonaux.
Démonstration. On considère le produit scalaire h~u | f (~v )i. Comme ~v est un vecteur propre associé
à la valeur propre µ on a
h~u | f (~v )i = h~u | µ~v i = µh~u | ~v i.
Comme A est symétrique on a aussi
h~u | f (~v )i = hf (~u) | ~v i
et comme ~u est un vecteur propre associé à la valeur propre λ on a
hf (~u) | ~v i = hλ~u | ~v i = λh~u | ~v i.
Au final, on obtient (λ − µ)h~u | ~v i = 0 qui implique h~u | ~v i = 0 puisque λ 6= µ.
12.4. Théorème (Matrices orthogonales). On considère un entier n et une matrice P de Mn (R).
Les propriétés suivantes sont équivalentes :
– 1. tP P = In (on dit que P est orthogonale).
– 2. La famille des vecteurs colonnes de P est orthonormée.
– 3. P tP = In
– 4. La famille des vecteurs lignes de P est orthonormée.
On considère l’application linéaire g qui a pour matrice P dans la base canonique B de Rn . Les
propriétés suivantes sont équivalentes aux 4 précédentes :
– 5. Pour toute b.o.n. (~v1 , . . . , ~vn ) de Rn , la famille des images (g(~v1 ), . . . , g(~vn )) est orthonormée.
– 6. Il existe une b.o.n. (~v1 , . . . , ~vn ) de Rn telle que la famille des images (g(~v1 ), . . . , g(~vn )) est
orthonormée.
Démonstration. L’équivalence entre les 2 premières propriétés est une conséquence des règles de
calcul d’un produit de matrices. Il en est de même pour l’équivalence entre les propriétés 3 et 4.
La propriété 5 implique clairement la 6. La propriété 2 signifie que 6 est vraie pour la base B. La
propriété 3 signifie que tP est aussi orthogonale.
Remarquons d’abord qu’une matrice orthogonale P est inversible. Notons (~v1 , . . . , ~vn ) la famille
de ses vecteurs colonnes. C’est une b.o.n. Désignons par R la matrice des coordonnées dans la base
(~v1 , . . . , ~vn ) des vecteurs (~e1 , . . . , ~en ) de la base canonique. On a P R = RP = In (le vérifier). On
en conclut que tP = R et que P tP = In (propriété 3). Les 4 premières propriétés sont équivalentes.
Montrons que la propriété 1 implique la propriété 5. On considère une famille orthonormée
(~v1 , . . . , ~vn ) de vecteurs de Rn . On désigne par Q la matrice des vecteurs (~v1 , . . . , ~vn ) dans la
base B. Elle est donc orthogonale. La matrice produit P Q est la matrice des coordonnées de la
famille (g(~v1 ), . . . , g(~vn )). Calculons
t
(P Q)P Q = tQ tP P Q = tQQ = In
ce qui prouve que P Q est orthogonale, donc que la famille (g(~v1 ), . . . , g(~vn )) est orthonormée.
Montrons ensuite que la propriété 6 implique la propriété 1. Si la propriété 6 est vraie il existe
une matrice orthogonale Q telle que P Q est orthogonale. On a alors
In = P Q t (P Q) = P Q tQ tP = P tP.
Remarque La multiplication des matrices induit sur l’ensemble des matrices n × n orthogonales
une structure de groupe. On note ce groupe O(n, R).
37
12.5. Théorème. On considère un entier n et une matrice symétrique réelle A de Mn (R). Il
existe une matrice orthogonale P telle que la matrice tP AP est diagonale.
Démonstration. On considère une b.o.n (~v1 , . . . , ~vn ) obtenue à partir du théorème 11.2 et la matrice
P des coordonnées des vecteurs (~v1 , . . . , ~vn ) dans la base canonique B. Désignons par Vi la matrice
colonne des coordonnées de ~vi dans B. Comme f (~vi ) = λi~vi , on a AVi = λi Vi . Mais Vi est aussi la
i-ème colonne de P . En résumé
AP = P D
où D est la matrice diagonale Diag(λ1 , . . . , λn ). On conclut en utilisant le fait que P −1 = tP . 38
10. Définitions, commentaires
10.1. Espace vectoriel. On se donne un corps K et un ensemble E muni d’une addition notée
+. On dit que E a une structure d’espace vectoriel sur K si
(1) E est un groupe abélien pour la loi +. On note 0 l’élément neutre de cette loi.
(2) Il existe une action de K sur E (appelée multiplication par un scalaire). Pour tout élément
λ de K, et tout vecteur x de E, λx est un élément de E. Cette multiplication a les propriétés
suivantes
– pour x dans E on a 1x = x.
– pour α et β dans K, et x dans E on a (α + β)x = αx + βx.
– pour α et β dans K, et x dans E on a α(βx) = (αβ)x.
(3) pour α dans K, x et y dans E, on a α(x + y) = αx + αy.
10.2. Sous-espace vectoriel. On considère un espace vectoriel E sur un corps K et un sousensemble F de E. On dit que F est un sous-espace vectoriel de E si F contient 0 et stable par
combinaison linéaire.
10.3. Sous-espace vectoriel engendré. On considère un espace vectoriel E sur un corps K et
une famille (v1 , . . . , vp ) de p vecteurs de E. Le sous-espace vectoriel engendré par la famille
(v1 , . . . , vp ) est l’ensemble de toutes les combinaisons linéaires :
λ1 v1 + . . . + λp vp
pour λ1 , . . . , λp scalaires de K. Vérifier que c’est bien un sous-espace vectoriel de E. On le note
Vect(v1 , . . . , vj ).
On convient que la famille vide engendre le sous-espace réduit à 0.
10.4. Bases, dimension. On se donne un espace vectoriel E sur un corps K. Une famille B :=
(ei )i∈I de vecteurs de E est une base de E si tout vecteur x de E se décompose de manière unique
comme combinaison linéaire finie d’éléments de B.
Lorsque E, espace vectoriel sur K, peut être engendré par un ensemble fini, alors il possède une
base finie et toutes ses bases ont le même nombre d’éléments. Ce nombre est appelé dimension
de E. Lorsque E n’a aucune base finie, on dit que E est de dimension infinie. L’espace vectoriel
K[X] des polynômes à coefficients dans K est dans ce dernier cas.
On considère E espace vectoriel de dimension finie n sur K, avec une base B := (e1 , . . . , en ). Tout
vecteur x de E a une décomposition unique
n
X
x = α1 e1 + α2 e2 + . . . + αn en =
αi e i .
i=1
Par exemple, la seule façon d’écrire le vecteur nul est de prendre tous les coefficients égaux à 0.
10.5. Théorème de la base incomplète : On se donne un espace vectoriel E sur un corps K
et une famille libre de vecteurs de E. On peut compléter cette famille en une base de E.
10.6. Application linéaire. On travaille sur un corps K. On se donne deux espaces vectoriels
E et F sur K et une application f : E −→ F . On dit que f est K-linéaire (linéaire s’il n’y a pas
d’ambiguı̈té) si
(1) f est compatible avec l’addition : pour x et y vecteurs de E
f (x + y) = f (x) + f (y).
39
(2) f est compatible avec la multiplication par un scalaire : pour x vecteur de E et λ scalaire
f (λx) = λf (x).
On appelle noyau de f , l’ensemble des solutions dans E de l’équation f (x) = 0. On le note
ker f :
ker f := {x ∈ E | f (x) = 0}.
C’est un sous-espace vectoriel de E.
On appelle image de f et on note f (E), le sous-ensemble des vecteurs de F qui ont au moins un
antécédent :
f (E) := {y ∈ F | ∃x ∈ E, y = f (x)}.
C’est un sous-espace vectoriel de E.
10.7. Image inverse. On se donne une application f : E −→ E. L’image inverse d’une partie G
de F est l’ensemble des antécédents des éléments de G, c’est-à-dire
f −1 (G) := {x ∈ E | f (x) ∈ G}.
On voit que f −1 (G) est une partie de E et non un élément.
On considère alors E et F , espaces vectoriels sur K et f une application linéaire de E dans
F . Lorsque G est réduit à l’élément 0 de F , l’image inverse f −1 (0) qui est alors le noyau de f ,
contient en général plus d’un élément de E. On voit donc que écrire f −1 (0) ne suppose pas que f
est bijective, ou que l’application inverse de f existe.
10.8. Polynômes, racines. On considère un corps K et un polynôme P à coefficients dans K
de degré d. Un tel polynôme a une écriture unique
P (T ) = ad T d + ad−1 T d−1 + . . . + a0 avec ad 6= 0.
On dit qu’un scalaire λ de K est une racine de P si P (λ) = 0 dans K, autrement dit si
P (λ) = ad λd + ad−1 λd−1 + . . . + a0 = 0.
Un théorème classique est le suivant : λ est racine de P si et seulement si T − λ divise P (T ) dans
K[T ].
On désigne par r un entier. On dit que λ est racine de multiplicité r de P si et seulement si
(T − λ)r divise P (T ) dans K[T ] et (T − λ)r+1 ne divise pas P (T ) dans K[T ].
On dit qu’un polynôme de K[T ] est scindé dans K[T ] s’il est produit dans K[T ] de facteurs de
degré 1.
Le théorème de d’Alembert-Gauss affirme que : un polynôme de degré d de C[T ] est scindé
dans C[T ]. C’est-à-dire : il existe des entiers m1 , . . . , mk tels que m1 +. . .+mk = d et des complexes
distincts deux à deux λ1 , . . . , λk , racines de P de multiplicités respectives m1 , . . . , mk . On a donc
k
Y
P (T ) = ad (T − λi )mi .
i=1
En particulier, un polynôme de degré non nul a au moins une racine complexe.
40
10.9. Produit scalaire euclidien. On considère un espace vectoriel E sur le corps des réels R.
et une application
E × E −→ R
(x, y) 7−→ hx | yi
qui, pour mériter le nom de produit scalaire euclidien, doit vérifier les propriétés suivantes : pour
tous x et y de E, pour tout λ scalaire réel, on a
(1) Elle est bilinéaire
hx0 + x00 | yi
hx | y 0 + y 00 i
hλx | yi
hx | λyi
=
=
=
=
hx0 | yi + hx00 | yi
hx | y 0 i + hx | y 00 i
λhx | yi
λhx | yi
(2) Elle est symétrique.
hx | yi = hy | xi
(3) Elle est définie positive.
hx | xi ≥ 0 et
hx | xi = 0 =⇒ x = 0.
10.10. Norme. On considère un espace vectoriel E sur R. Une application
E −→ R+
x 7−→ kxk
est une norme si elle vérifie les axiomes suivants :
(1) Homogénéité : pour λ scalaire et x vecteur,
kλxk = |λ|kxk
(2) Positivité stricte : pour x dans E, kxk ≥ 0 et kxk = 0 =⇒ x = 0.
(3) Inégalité triangulaire : pour tous x et y vecteurs de E,
kx + yk ≤ kxk + kyk.
Un produit scalaire euclidien (voir 10.9) définit une norme, dite euclidienne. Pour x vecteur de E,
on pose
p
kxk := hx | xi.
Il existe cependant des normes qui ne proviennent pas d’un produit scalaire : par exemple sur
l’espace vectoriel R2 on considère l’application
R2 −→ R+
(x1 , x2 ) 7−→ sup |x1 |, |x2 |
est une norme (le vérifier).

Documents pareils