Matrices symétriques réelles.

Transcription

Matrices symétriques réelles.
Université de Nice
2009-10
SL2M
Algèbre 2
Matrices symétriques réelles.
4. Calcul matriciel
4.1. Application bilinéaire symétrique associée à une matrice symétrique. On considère
une matrice symétrique A dans Mn (R). On appelle B la base canonique (e1 , . . . , en ) de Rn .
(1) À une telle matrice est associée une application linéaire f de Rn dans Rn . Si ~x est un
vecteur de Rn , on note X la matrice colonne de ses coordonnées dans la base canonique
B. Le produit de matrices AX est une matrice colonne qui est la matrice dans la base
canonique B d’un vecteur ~y de Rn . Ce vecteur est l’image de ~x par f .
(2) À une telle matrice est associée une application bilinéaire symétrique de Rn × Rn dans R.
On considère deux vecteurs ~x et ~y de Rn de matrices respectives X et Y dans la base B.
Le produit de matrices t Y A X est une matrice 1 × 1, c’est-à-dire un réel. Remarquons que
ce réel est le produit scalaire h~y | f (~x)i. On notera φ l’application
φ : Rn × Rn −→ R
(~x, ~y ) 7−→ h~y | f (~x)i.
On note que, puisque A est symétrique,
t
Y A X = tX tA Y = tXA Y.
On a donc φ(~x, ~y ) = φ(~y , ~x), soit encore h~y | f (~x)i = hf (~y ) | ~xi.
Espace vectoriel euclidien E
~x
~y
f : E −→ E
~y = f (~x)
h~x | ~y i = h~y | ~xi
h~y | f (~x)i = hf (~x) | ~y i
Dans la base B
X
Y
A matrice carrée n × n
Y = AX
t
Y X = tXY
t
Y A X = t(AX)Y = tX tA Y
5. Formes bilinéaires symétriques
Dans cette section on étudie les applications bilinéaires symétriques
φ : E × E −→ R
(~u, ~v ) 7−→ φ(~u, ~v ).
où E est un espace vectoriel sur R. Comme l’espace d’arrivée est R on appelle une telle application
forme bilinéaire symétrique.
5.1. Lemme. On considère une application bilinéaire φ comme ci-dessus qui est de plus positive,
c’est-à-dire
∀~v ∈ E φ(~v , ~v ) ≥ 0.
L’ensemble des vecteurs ~v de E tels que φ(~v , ~v ) = 0 est un sous-espace vectoriel de E. C’est
aussi le sous-ensemble
{~v ∈ E | ∀w
~ ∈ E φ(~v , w)
~ = 0}
8
Démonstration. On considère un vecteur ~v tel que φ(~v , ~v ) = 0, un vecteur w
~ de E et un scalaire
réel λ. On calcule φ(~v + λw,
~ ~v + λw),
~ positif ou nul par hypothèse, en utilisant la bilinéarité :
0 ≤ φ(~v + λw,
~ ~v + λw)
~ = φ(~v , ~v ) + λ2 φ(w,
~ w)
~ + 2λφ(~v , w)
~ = λ2 φ(w,
~ w)
~ + 2λφ(~v , w).
~
On en déduit que la fonction λ 7−→ λ2 φ(w,
~ w)
~ + 2λφ(~v , w)
~ ne prend aucune valeur négative, ce
qui n’est possible que lorsque φ(~v , w)
~ = 0.
On vérifie ensuite que l’ensemble
{~v ∈ E | ∀w
~ ∈E
φ(~v , w)
~ = 0}
est un sous-espace vectoriel de E. C’est une conséquence de la linéarité de φ par rapport à son
premier argument.
Remarque. En particulier, une forme bilinéaire positive φ est un produit scalaire si et seulement
si l’une des deux propriétés suivantes est satisfaite
(1) l’ensemble {~v ∈ E | φ(~v , ~v ) = 0} est réduit au vecteur nul.
(2) le sous-espace vectoriel {~v ∈ E | ∀w
~ ∈E
φ(~v , w)
~ = 0} est réduit au vecteur nul.
5.2. Théorème. On considère un entier naturel n, un espace vectoriel euclidien E de dimension
finie n et une forme bilinéaire symétrique φ sur E. Il existe une base orthonormée (~v1 , . . . , ~vn )
de vecteurs de E, et une famille de réels (λ1 , . . . , λn ) telles que
(1) Pour i de 1 à n, φ(~vi , ~vi ) = λi .
(2) Pour i et j de 1 à n, i 6= j, φ(~vi , ~vj ) = 0.
P
P
~ i , alors
~ = ni=1 βi w
(3) Si ~v = ni=1 αi~vi et w
φ(~v , w)
~ =
n
X
λi αi βi .
i=1
En particulier,
φ(~v , ~v ) =
n
X
λi (αi )2 .
i=1
L’assertion (3) est équivalente aux deux premières, compte tenu de la bilinéarité de φ.
Démonstration. La démonstration se fait par récurrence sur l’entier n. Pour n = 0 il n’y a rien à
faire (une famille à 0 éléments est vide). On considère alors un entier n > 0, une forme bilinéaire
symétrique φ sur un espace euclidien E de dimension n et on fait l’hypothèse que le théorème est
vrai pour toute forme bilinéaire symétrique sur un espace de dimension strictement inférieure à n.
À l’aide de φ, on construit une application
h : Rn −→ R
~x 7−→ h(~x) := φ(~x, ~x).
La sphère unité de Rn est un ensemble fermé et borné de Rn , donc compact. La fonction h
est continue parce que polynomiale. Un théorème important d’analyse affirme que toute fonction
continue sur un compact est bornée et atteint ses bornes sur ce compact. La fonction h est donc
bornée sur la sphère unité et il existe un vecteur v0 de norme 1, tel que tout vecteur v de norme
1 a une image h(v) majorée par h(v0 ). On désigne h(v0 ) par λ0 .
9
On considère alors l’application
ψ : Rn × Rn −→ R
(~u, ~v ) 7−→ λ0 h~u | ~v i − φ(~u, ~v ).
C’est encore une forme bilinéaire symétrique parce que φ et le produit scalaire sont toutes deux
des formes bilinéaires symétriques. D’autre part, ψ est positive. En effet, si v est nul ψ(0, 0) = 0
et sinon
~v
ψ(~v , ~v ) = k~v k2 (λ0 − h(
) ≥ 0.
k~v k
puisque k~~vvk est un vecteur de norme 1.
Le lemme 5.1 montre que
(1) L’ensemble des vecteurs ~v de E tels que h(~v ) = λ0 k~v k2 est un sous-espace vectoriel F0 de
E, non reduit à 0 puisqu’il contient ~v0 .
(2) Un vecteur ~v est dans F0 si et seulement si pour tout w de E, ψ(v, w) = 0.
On a donc montré :
∀~v ∈ F0 ∀w
~ ∈E
φ(w,
~ ~v ) = λ0 hw
~ | ~v i
En particulier, si w
~ est orthogonal à F0 , on voit que
∀~v ∈ F0
φ(w,
~ ~v ) = 0.
Tout vecteur ~v de E se décompose de manière unique en ~v 0 + ~v 00 avec ~v 0 ∈ F0 et ~v 00 ∈ F0⊥ . On
calcule φ(~v , w)
~ :
φ(~v , w)
~ = φ(~v 0 + ~v 00 , w
~0 + w
~ 00 ) = φ(~v 0 , w
~ 0 ) + φ(~v 0 , w
~ 00 ) + φ(~v 00 , w
~ 0 ) + φ(~v 00 , w
~ 00 )
= φ(~v 0 , w
~ 0 ) + φ(~v 00 , w
~ 00 ) = λ0 h~v 0 | w
~ 0 i + φ(~v 00 , w
~ 00 ).
Il suffit donc de connaı̂tre la valeur de φ sur un couple de vecteurs de F0⊥ pour connaı̂tre φ. Or F0⊥
est un espace vectoriel euclidien de dimension strictement inférieure à n. On peut lui appliquer
l’hypothèse de récurrence : il existe une base orthonormée de F0⊥ vérifiant les conclusions du
théorème. En prenant une base orthormée de F0 et en la concaténant avec celle obtenue pour F0⊥ ,
on obtient une base orthonormée de E vérifiant les conclusions du théorème.
5.2.1. Exemple. On considère la matrice symétrique
7 2
A :=
.
2 4
On lui associe la forme bilinéaire symétrique
φ : R2 × R2 −→ R
((u1 , u2 ), (v1 , v2 )) 7−→
u1 u 2
7 2
2 4
v1
v2
= 7u1 v1 + 4u2 v2 + 2u1 v2 + 2u2 v1 .
L’application h est alors
h : R2 −→ R
(x1 , x2 ) 7−→ 7x21 + 4x22 + 4x1 x2 .
10
Le cercle unité est l’ensemble des vecteurs de norme 1, autrement dit l’ensemble des vecteurs
(cos θ, sin θ) pour θ réel. Pour trouver le maximum de h sur le cercle, on étudie la fonction
R −→ R
3
3
cos 2θ + + 2 sin 2θ.
2
2
4
La dérivée vaut −3 sin 2θ + 4 cos 2θ et s’annule si et seulement si tan 2θ = 3 soit encore tan θ = 12
ou tan θ = −2. On vérifie que la deuxième valeur correspond à un maximum pour h. Le vecteur
2 1
~u = ( √ , √ )
5 5
est de norme 1 et rend la fonction h maximum. On trouve φ(~u, ~u) = h(~u) = 8. Le vecteur
1 −2
~v = ( √ , √ )
5 5
est de norme 1 et rend la fonction h minimum. On trouve φ(~v , ~v ) = h(~v ) = 3. La famille (~u, ~v ) est
orthonormée et on a φ(~u, ~v ) = 0.
On vérifie également les relations :
θ 7−→ h(cos θ, sin θ) = 7 cos2 θ + 4 sin2 θ + 4 sin θ cos θ = 4 +
f (~u) = 8~u et f (~v ) = 3~v .
5.2.2. Exemple. On considère dans Rn , muni de son produit scalaire usuel, une famille de vecteurs
(w
~ 1, . . . , w
~ d ) et on veut résoudre le problème suivant :
Quelle est la droite vectorielle qui est la plus proche de la famille (w
~ 1, . . . , w
~ d) ?
On quantifie la question de la manière suivante :
Trouver une droite vectorielle ∆ de Rn telle que la somme suivante soit minimale
Σ(∆) :=
d
X
kw
~ i − pr∆ (w
~ i )k2 .
j=1
La différence w
~ i − pr∆ (w
~ i ) est orthogonale à ∆ par définition de la projection orthogonale. Le
théorème de Pythagore montre alors la relation :
Σ(∆) :=
d
X
kw
~ j k2 − kpr∆ (w
~ j )k2 .
j=1
Considérons un vecteur unitaire ~u qui dirige ∆. La somme Σ s’écrit :
Σ(∆) :=
d
X
2
kw
~jk −
j=1
d
X
hw
~ j | ~ui2
j=1
La somme Σ(∆) est une différence de deux termes. Le premier terme est indépendant de ∆ et
P
ne dépend que de la famille de vecteurs. Le deuxième dj=1 hw
~ j | ~ui2 est une forme quadratique
associée à la forme bilinéaire symétrique
φ(~u, ~v ) =
d
X
hw
~ j | ~uihw
~ j | ~v i
j=1
Dans les notations du théorème, il s’agit de trouver le maximum de la fonction h(~u) = φ(~u, ~u)
lorsque ~u est de norme 1 pour en déduire le minimum de Σ(∆). C’est donc exactement le problème
étudié dans la preuve du théorème.
11
Cet exemple est très utilisé en statistiques (analyse de données) ou en mécanique (axes principaux
de rotation d’un solide).
6. Réduction des matrices symétriques réelles
On considère un entier n et une matrice symétrique réelle A. On considère la forme bilinéaire
symétrique φ associée (voir 4.1). On veut calculer une base orthonormée (~v1 , . . . , ~vn ) et la famille
de réels (λ1 , . . . , λn ) dont le théorème 5.2 affirme l’existence.
Ces deux familles ont les propriétés suivantes
(1) Pour i de 1 à n, h~vi | f (~vi )i = φ(~vi , ~vi ) = λi .
(2) Pour i et j de 1 à n, i 6= j, h~vj | f (~vi )i = φ(~vi , ~vj ) = 0.
Considérons le vecteur f (~vi ) : on connait son produit scalaire avec tous les vecteurs de la base
orthonormée (~v1 , . . . , ~vn ). Il vaut donc λi~vi , autrement dit :
vi est un vecteur non nul du noyau de f − λi Id.
6.1. Définition. On appelle valeur propre de f un réel λ tel que le noyau ker(f − λId) n’est pas
réduit au vecteur nul. Un vecteur non nul de ker(f − λId) est appelé vecteur propre associé à
la valeur propre λ.
Lorsque λ est une valeur propre de f , le sous-espace vectoriel ker(f − λId) est le sous-espace
propre de f associé à la valeur propre λ.
Il s’agit donc de calculer les valeurs propres et les vecteurs propres de f à partir de la matrice A
de f . On désigne par In la matrice identité n × n.
6.2. Théorème. On considère un réel λ et une application linéaire f : Rn −→ Rn de matrice A
dans la base B. Les propriétés suivantes sont équivalentes
(1) Le noyau ker(f − λId) n’est pas réduit au vecteur nul (λ est valeur propre de f ).
(2) Le rang de la matrice A − λIn est strictement inférieur à n.
(3) det(A − λIn ) = 0.
La preuve est une application directe des propriétés du rang et du déterminant.
6.2.1. Exemple. On reprend l’exemple 5.2.1. On considère la matrice symétrique
7 2
A :=
.
2 4
et le déterminant det(A − λI2 ) qui vaut λ2 − 11λ + 24. Les valeurs propres sont les racines de ce
polynôme du second degré, 8 et 3.
Les vecteurs propres associés à la valeur propre 8 sont éléments du noyau de f − 8Id, c’est-à-dire
les solutions du système linéaire sans second membre de matrice A − 8I2
−v1 + 2v2 = 0
.
2v1 − 4v2 = 0
Les deux équations sont proportionnelles et le système est de rang 1 (est-ce surprenant ?). L’ensemble des solutions est√une droite
vectorielle dirigée par le vecteur (2, 1). Un vecteur directeur
√
de norme 1 est ~u := (2/ 5, 1/ 5).
On opère
√ de même
√ pour la valeur propre 3 pour trouver un vecteur propre de norme 1 associé
~v := (1/ 5, −2/ 5).
On constate que la famille (~u, ~v ) est orthonormée.
12
6.3. Théorème. On considère une matrice symétrique A et l’application linéaire associée f :
Rn −→ Rn . Deux vecteurs propres ~u et ~v de f , associés à des valeurs propres différentes λ et µ
sont orthogonaux.
Démonstration. On considère le produit scalaire h~u | f (~v )i. Comme ~v est un vecteur propre associé
à la valeur propre µ on a
h~u | f (~v )i = h~u | µ~v i = µh~u | ~v i.
Comme A est symétrique on a aussi
h~u | f (~v )i = hf (~u) | ~v i
et comme ~u est un vecteur propre associé à la valeur propre λ on a
hf (~u) | ~v i = hλ~u | ~v i = λh~u | ~v i.
Au final, on obtient (λ − µ)h~u | ~v i = 0 qui implique h~u | ~v i = 0 puisque λ 6= µ.
6.4. Théorème (Matrices orthogonales). On considère un entier n et une matrice P de Mn (R).
Les propriétés suivantes sont équivalentes :
– 1. tP P = In (on dit que P est orthogonale).
– 2. La famille des vecteurs colonnes de P est orthonormée.
– 3. P tP = In
– 4. La famille des vecteurs lignes de P est orthonormée.
On considère l’application linéaire g qui a pour matrice P dans la base canonique B de Rn . Les
propriétés suivantes sont équivalentes aux 4 précédentes :
– 5. Pour toute b.o.n. (~v1 , . . . , ~vn ) de Rn , la famille des images (g(~v1 ), . . . , g(~vn )) est orthonormée.
– 6. Il existe une b.o.n. (~v1 , . . . , ~vn ) de Rn telle que la famille des images (g(~v1 ), . . . , g(~vn )) est
orthonormée.
Démonstration. L’équivalence entre les 2 premières propriétés est une conséquence des règles de
calcul d’un produit de matrices. Il en est de même pour l’équivalence entre les propriétés 3 et 4.
La propriété 5 implique clairement la 6. La propriété 2 signifie que 6 est vraie pour la base B. La
propriété 3 signifie que tP est aussi orthogonale.
Remarquons d’abord qu’une matrice orthogonale P est inversible. Notons (~v1 , . . . , ~vn ) la famille
de ses vecteurs colonnes. C’est une b.o.n. Désignons par R la matrice des coordonnées dans la base
(~v1 , . . . , ~vn ) des vecteurs (~e1 , . . . , ~en ) de la base canonique. On a P R = RP = In (le vérifier). On
en conclut que tP = R et que P tP = In (propriété 3). Les 4 premières propriétés sont équivalentes.
Montrons que la propriété 1 implique la propriété 5. On considère une famille orthonormée
(~v1 , . . . , ~vn ) de vecteurs de Rn . On désigne par Q la matrice des vecteurs (~v1 , . . . , ~vn ) dans la
base B. Elle est donc orthogonale. La matrice produit P Q est la matrice des coordonnées de la
famille (g(~v1 ), . . . , g(~vn )). Calculons
t
(P Q)P Q = tQ tP P Q = tQQ = In
ce qui prouve que P Q est orthogonale, donc que la famille (g(~v1 ), . . . , g(~vn )) est orthonormée.
Montrons ensuite que la propriété 6 implique la propriété 1. Si la propriété 6 est vraie il existe
une matrice orthogonale Q telle que P Q est orthogonale. On a alors
In = P Q t (P Q) = P Q tQ tP = P tP.
Remarque La multiplication des matrices induit sur l’ensemble des matrices n × n orthogonales
une structure de groupe. On note ce groupe O(n, R).
13
6.5. Théorème. On considère un entier n et une matrice symétrique réelle A de Mn (R). Il existe
une matrice orthogonale P telle que la matrice tP AP est diagonale.
Démonstration. On considère une b.o.n (~v1 , . . . , ~vn ) obtenue à partir du théorème 5.2 et la matrice
P des coordonnées des vecteurs (~v1 , . . . , ~vn ) dans la base canonique B. Désignons par Vi la matrice
colonne des coordonnées de ~vi dans B. Comme f (~vi ) = λi~vi , on a AVi = λi Vi . Mais Vi est aussi la
i-ème colonne de P . En résumé
AP = P D
où D est la matrice diagonale Diag(λ1 , . . . , λn ). On conclut en utilisant le fait que P −1 = tP .