Module 3 : Formalisation mathématique de l`ACP

Transcription

Module 3 : Formalisation mathématique de l`ACP
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
Module 3 : Formalisation mathématique de l’ACP
Après avoir introduit à l’aide de deux exemples l’ACP, nous présentons ici la formalisation
mathématique de la méthode en généralisant ce que nous avons vu sur un espace réduit à un espace
à dimensions quelconques.
A) Généralisation à des espaces de dimensions quelconques
Le tableau de départ qui sera soumis à une ACP se présente de la façon suivante :
x1 L x j L x n
1
M
xij
X(N,n) = i
avec N ≥ n
M
N
Il s’agit d’un tableau de données quantitatives, avec les variables en colonnes, les individus en lignes
et les observations à l’intérieur du tableau.
L’objectif de l’ACP est d’analyser l’information contenue dans le tableau, c'est-à-dire la structure du
N
nuage des individus dans l’espace R n et des variables dans l’espace R .
Pour des raisons mathématiques de simplification, mais aussi parce que les variables dans ces
tableaux peuvent être de natures différentes, on transforme la matrice X en une matrice Z de variables
centrées réduites qui conserve la même information :
zij =
xij − x j
σ( x j )
variables centrées réduites.
-
le centrage n’a pas d’influence sur la ressemblance entre individus
-
la réduction supprime l’arbitrage des unités et toutes les variables ont la même influence dans
le calcul des distances entre individus
Particularités de ces nouvelles variables :
-
les moyennes sont toutes nulles
-
les écart types sont égaux à 1
-
cov ( z j , z k ) = rz j z k =
1
∑ zij zik avec j ≠ k
N
La matrice Z des variables centrées réduites s’écrit alors :
z1 L z j L zn
1
M
Z(N,n) = i
Zij
M
Coordonnées de
n
i dans R
N
Coordonnées de
N
z j dans R
1 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
L’information contenue dans cette matrice est donnée par le nuage de points des individus dans
n
N
l’espace R et par le nuage de points des variables dans l’espace R .
n
Plaçons nous dans l’espace R des variables qui contient le nuage des N points individus. Le
r r
r
système des n axes est orthonormée ou encore la base de ce système (e1, e 2 ,...e n ) est
orthonormée, c'est-à-dire :
r
r
 e1 = L = en = 1
r r
el * e j = 0 ∀ l ≠ j
Un point i quelconque a pour coordonnées (zi1, zi2 ,...zin ) . La distance entre deux points est calculée
par la distance euclidienne (théorème de Pythagores). On peut schématiser cet espace de la façon
suivante :
z1
zj
i
z i1
r
e1
r
ej
r
en
zn
G ≡ 0 (z1 = 0,...zn = 0 )
La distance au carré entre i et i’ est égale à : d2 (i, i′) =
∑ (z ij − z i' j )
n
2
.
j =1
Les projections orthogonales (les coordonnées) des N points sur un axe quelconque z j sont de
moyennes nulles et de variance égale à un par construction. Le centre de gravité G est donc l’origine
des axes. La variance totale du nuage multidimensionnel est égale à 1*n=n. Chaque axe porte donc
1
* 100 de la variance totale.
n
n
Dans l’espace R des individus, on dispose du nuage des n variables. Le système des N axes est
r r
r
orthonormé : la base de ce système s’écrit : (e1, e 2 ,...eN ) avec :
r
r
 e1 = L = eN = 1
r r
ei * el = 0 ∀ i ≠ l
(
)
Un point zi quelconque a pour coordonnées z1j , z 2 j ,...zNj . La distance entre deux points est
calculée par la distance euclidienne. On peut schématiser cet espace de la façon suivante :
2 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
z j'
i
M3
zj
1
z ij'
r
ei
z1j
r
e1
r
eN
N
0
(
)
La distance au carré entre z j et z j' est égale à d2 z j , z j' =
∑ (zij − z ij' )2
N
i =1
L’information contenue dans ces espaces est illisible du fait du nombre d’axes. L’ACP a pour but de
substituer à ces espaces, des espaces de même dimension mais de telle sorte qu’une grande part de
l’information soit lisible à partir d’un, deux ou au maximum trois axes.
n
N
Le principe de l’ACP consiste donc à effectuer dans R et dans R un changement de base de telle
sorte (lorsque cela est possible) que les variances des projections orthogonales (les coordonnées) sur
les nouveaux axes (appelés axes principaux) rassemblent une part significative de la variance totale à
partir des deux ou trois premiers axes. On peut schématiser ce principe de la façon suivante dans
Rn .
z1
V (z1 ) = 1
( )
zj
F1
V (F1 )
Fj
V zj = 1
r
ej
Changement
de base
r
e1
( )
V Fj
r
bj
r
b1
r
en
r
bn
zn
G
Fn
V (z n ) = 1
G
V (Fn )
La variance des coordonnées des N points
individus sur z j (quelquesoit j), explique
Système
orthonormé
d’axes
principaux
r
Fj (quelquesoit j), de même origine, de base
1
* 100 de la variance totale.
n
orthonormée : (b1,....b n ) et tel que la variance
r
r
r r
des coordonnées de N points individus sur F1, F2
r
et au maximum F3 représente, par exemple,
70% à 80% de la variance totale n.
3 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
r
Le vecteur Fj , quelquesoit j, dont les éléments sont les projections orthogonales (les coordonnées)
des N points sur l’axe Fj porte le nom de composante principale. Il s’écrit :
 F1j 
 ... 
 
r
Fj =  Fij 
 
(N,1)
 ... 
F 
 Nj 
B) Ecriture des composantes principales dans Rn
1 Le produit scalaire
n
L’ACP vise donc à projeter dans R orthogonalement les N points individus sur n nouveaux axes
appelés axes principaux, sachant que l’origine de ces nouveaux axes reste identique à celui de
l’espace de départ. Ce changement d’axes a pour but (lorsque cela est possible), de lire l’information
concernant les individus en utilisant un espace restreint à 2 ou 3 dimensions (au maximum).
On remplace donc Z par une nouvelle matrice F :
z1 L z j L zn
F1 L Fj L Fn
1
1
M
Z(N,n) = i
M
Base
Zij
F(N,n) = i
M
M
N
N
Pour cela, on effectue un changement de base dans l’espace R
n
de départ.
n
Rappelons que si on connaît les coordonnées d’un vecteur quelconque b j dans la base R de
r
départ, la projection orthogonale Fij (la coordonnée) d’un point i du nuage des N points est donnée
r
rr
par le produit scalaire du vecteur b j par le vecteur G i ou G est l’origine des axes (G est le centre de
gravié du nuage des N points) :
i
r
Fj (axe
principal)
Fij
G
X
r
bj
0,…,0
4 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
r
r r
Fij = Gi * b j
b1j 
 
 ... 
= [z i1,..., z ik ,..., z in ]b kj 
 
 ... 
b 
 nj 
r
= coordonnées du point i (ligne i de la matrice Z) x coordonnées de b j dans l’espace R
départ.
[
= z i1 * b1j + ... + zik * b kj + ... + z in * bnj
n
de
]
r
L’ensemble des projections orthogonales des N points du nuage sur l’axe principal Fj constitue les
r
éléments du vecteur Fj que l’on appelle la composante principale. on a :
r
Fj = Z
(N,1)
r
bj
(N,n) (n,1)
 F1j  
 b1j  


 M  
 M  
  

  
 Fij  = z i1 L zih L z in  bhj  = b1j z i1 + L +bnj z in 
  

  
 M  
 M  

bnj  
FNi  


  
 
r
Si dans l’expression encadrée de Fj , on fait varier j de 1 à n on obtient par les produits scalaires
l’ensemble des projections orthogonales (coordonnées) de tous les points N sur tous les axes
principaux. Ces coordonnées sont les éléments de la matrice :
F
(N,n)
= Z
B
(N,n) (n,n)
La matrice F s’écrit et s’interprète :
F1 L Fj L Fn
1
M
F(N,n) = i
Fij
Coordonnées du point i dans l’espace
Rn des axes principaux
M
N
Coordonnées des N points individus sur
r
l’axe principal Fj ou éléments de la
r
composante principale Fj
5 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
On vérifie avec le produit scalaire Fj = Zb j qui définit la j
ième
M3
composante principale, qu’il s’agit d’une
r
combinaison linéaire des variables de départ, les poids étant les éléments du nouveau vecteur b j du
changement de base.
2 Détermination des composantes principales
Les composantes principales sont les coordonnées des N projections orthogonales sur les axes
principaux. Ces composantes principales (vecteurs principaux) sont le résultat du produit scalaire
F = Z
(N,n)
B .
(N,n) (n,n)
Pour déterminer le contenu de F il faut connaître celui de B. Pour cela, considérons la j
ième
composante principale Fj = Z b j et déterminons ses caractéristiques.
(N,1) (N,n) (n,1)
• Calculons la moyenne de la composante principale :
∑
Fj =
∑
∑
1
1
1
Fij =
Z i1b1j + L +
Z in b nj
N i
N
N
1

1

= b1j 
Z i1  + L + b nj 
Z in 
N

N

i 43
i 43
142
142
∑
∑
Z1=0
Zn =0
Fj = 0
Toutes les composantes principales sont centrées. Les axes principaux ont toujours pour origine le
point G, le centre de gravité du nuage des N points.
• Calculons la variance :
[ ]
V Fj =
=
(
( )( )
( )( )
1
1
1

Zb j ′ Zb j = b′j Z′ Zb j = b ′j  Z′Z b j
N
N
N

Et avec R =
[ ]
)
1 N
1 N
1
2
Fij − Fj = ∑ Fij2 = Fj′Fj
∑
N i =1
N i =1
N
(n,n )
1
Z' Z (la matrice des coefficients de corrélation linéaire des variables z j de Z) :
N
V Fj = b′jRb j qui est l’expression d’une forme quadratique.
Pour atteindre l’objectif de l’ACP, il est nécessaire qu’avec un, deux ou au maximum trois axes
principaux on puisse expliquer une part significative de la variance totale du nuage (70 à 80% par
exemple) Cela revient donc à maximiser la variance d’une composante principale Fj quelconque. Le
problème mathématique à résoudre est donc :
( [ ]) sachant que le nouveau vecteur de la base b j de l’axe principal Fj est un vecteur normé,
r
Max V Fj
c'est-à-dire :
r
2
b j = 1 = b 'jb j = b12j + .... + bnj
6 / 19
r
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
Il s’agit de la maximisation d’une forme quadratique sous contrainte :
( [ ])
Max V F = b ' Rb
j
j
j

 '

b jb j = 1
(
)
Pour résoudre ce problème on utilise le Lagrangien :
L = b′jRb j. − λ b′jb j − 1 et on cherche la dérivée de L par rapport à l’inconnu b j sachant que la
dérivée de la forme quadrtique est
(
∂ b 'jRb j
∂b j
) = 2Rb
j
∂L
= 2Rb j − 2λb j = 0
∂b j
Rb j − λb j = 0 ⇔ Rb j = λb j ⇔ [R − λI]b j = 0
[ ]
En définitive, maximiser la V Fj sous la contrainte que b i soit un vecteur unitaire revient à trouver la
solution du système d’équation homogène [R − λI]b j = 0 . Or on sait qu’en dehors de la solution
triviale donnée par le déterminant [R − λI] ≠ 0 , il existe une infinité de vecteurs b j appelés vecteurs
propres, associés aux différentes valeurs propres λ j de la matrice R. On appelle diagonalisation de la
matrice R l’ensemble de ces recherches de valeurs propres et de vecteurs propres.
Le vecteur propre b 'j est un vecteur normé. De ce fait, parmi l’infinité des vecteurs b j , on choisira un
vecteur unitaire c'est-à-dire tel que b′jb j = 1 .
[ ]
On peut enfin constater que si dans l’expression de la variance V Fj , on remplace Rb j par la
solution que l’on vient de trouver ( λ jb j ), on aura :
[ ]
V Fj
= b′j λ jb j
= λ j b ′jb j
{
[ ]
V Fj = λ j .
=1
En définitive, la solution du problème est le calcul du vecteur propre normé qui correspond à la plus
forte valeur propre de la matrice R. Comme R est de dimension n, on va faire l’hypothèse qu’il existe n
valeurs propres distinctes pour cette matrice. On disposera donc de n valeurs propres et de n
vecteurs propres normés.
En classant les valeurs propres par ordre décroissant et en affectant à chacune des valeurs propres
classées son vecteur propre normé correspondant, on construit ainsi la matrice B du changement de
base qui a ses coordonnées dans l’espace d’origine.
7 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
3 Caractéristiques des composantes principales
Considérons la matrice B obtenue précédemment :
λ1
λn
r
r
r
b1 L b j L b n
z1
M
B (n,n) = zk
M
bkj
zn
Les vecteurs colonnes de cette matrice sont normés et orthogonaux 2 à 2.
Les vecteurs b j constituent donc une base orthonormée.
La matrice B qui contient cette nouvelle base est donc une matrice othogonale. Elle vérifie la propriété
suivante :
B′ = B −1 ou encore B' B = BB' = Ι
Utilisons ces résultats dans l’expression précédente de la variance de Fj :
[ ]
V Fj
= λ j = b′jRb j
En faisant varier j de 1 à n on a l’expression matricielle B′RB = Λ avec :
λ1

Λ=
λj
 0
0

 la matrice diagonale des valeurs propres rangées par ordre décroissant.
λ n 
Dans cette expression B est une matrice orthogonale. De ce fait, la trace de la matrice R est égale à
la trace de la matrice Λ , c'est-à-dire 1 + 1 + ... + 1 = n = ∑ λ j
j
Il est donc possible de calculer le pourcentage de variance totale
λj
n
* 100 =
tr [R]
* 100 expliquée
n
par les différentes composantes principales et de déterminer si avec un nombre restreint d’axes
principaux on peut lire l’information donnée par le nuage des N points individus.
Conclusion : résumé de la démarche dans R n
-
On dispose d’un tableau X (N,n) .
On transforme la matrice X en une matrice Z de variables centrées réduites. Les variables
sont de moyenne nulle et de variance égale à 1. La covariance entre deux variables est égale
au coefficient de corrélation linéaire entre les 2 variables.
8 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
n
On se place dans l’espace R avec un système orthonormé. On analyse le nuage des N points
individus.
-
On calcule R =
1
Z′Z qui est la matrice des coefficients de corrélation linéaire entre les
N
variables. C’est la matrice d’information des variables.
C’est une matrice carrée, symétrique qui contient sur la diagonale les variances des variables et de
part et d’autre les coefficients de corrélation entre 2 variables quelconques.
-
On diagonalise R, c’est-à-dire qu’on calcule les n valeurs propres de cette matrice.
On divise chacune des valeurs par n, ce qui donne le pourcentage de variance totale expliqué par une
composante principale.
On ordonne par ordre décroissant ces pourcentages que l’on cumule et si avec 1, 2 ou au maximum 3
axes on explique 70% de la variance totale, alors l’ACP est réalisable, sinon on arrête les calculs.
-
Si l’ACP est réalisable, on calcule alors les vecteurs propres normés associés aux valeurs
propres de R et on place les coordonnées de ces vecteurs propres en colonne d’une matrice
B dans l’ordre des valeurs propres décroissantes correspondantes.
-
On effectue alors le produit scalaire F = ZB , la matrice F contient donc en colonne les
composantes principales, c’est-à-dire les projections orthogonales du nuage des N points
individus sur les nouveaux axes.
-
On sélectionne alors les 2, au maximum les 3 premières colonnes de la matrice F et on
réalise le graphique qui permet de lire l’information concernant les individus de la matrice Z.
C) Détermination des composantes principales dans RN
Dans l’espace RN se situe le nuage des n variables. Ici aussi le système choisi est orthonormé et une
colonne du tableau fournit les coordonnées de la variable. Comme on travaille à partir de Z, les
moyennes des lignes (c’est-à-dire des individus) n’ont aucune raison d’être nulles. Donc dans ce cas,
l’origine des axes n’est pas au centre de gravité des variables.
Dans le deuxième exercice on a vu que si on conserve Z, la matrice d’information des individus est
donnée par la matrice V = ZZ’ qui est une matrice de dispersion des individus. On pourrait donc
appliquer le schéma précédent à cet espace, c’est-à-dire diagonaliser V, calculer les vecteurs propres
normés correspondants, construire une matrice de changement de base et par l’opération produit
scalaire calculer les projections orthogonales des n variables sur les axes principaux.
Concrètement, pour toutes les analyses de données, ces calculs sont inutiles. En effet, nous allons
démontrer qu’il est possible de calculer les valeurs propres et les vecteurs propres de V sans utiliser
la diagonalisation de cette matrice. Ce calcul s’opère à partir des formules de transition.
1 Démonstration des formules de transition
On va se placer dans R n , où l’on connaît les valeurs propres et les vecteurs propres normés de R.
La diagonalisation de R s’écrit :
Rb j = λ jb j avec R =
D’où
1
Z′Z et b 'jb j = 1
N
1
Z′Zb j = λ jb j
N
En multipliant les deux membres de cette équation par Z, on obtient :
( )
( )
1
ZZ′Zb j = λ j Zb j avec V = ZZ' on a : V Zb j = Nλ j Zb j
N
9 / 19
Analyse de données
et en posant Z
( )
bj
(N,n ) ( n,1)
Module 3 : Formalisation mathématique de l’ACP
M3
= ui on a
(N,1)
Vui = Nλ j ui
C’est l’écriture des vecteurs propres ui associés aux valeurs propres Nλ j de la matrice V.
Connaissant les valeurs propres λ j de la matrice R, il suffit donc de les multiplier par N pour obtenir
les valeurs propres de V. Or R est de dimension n, il n’y a donc que n valeurs propres pour R alors
que V est de dimension (N,N).
On peut démontrer que les N-n autres valeurs propres sont nulles.
Le vecteur ui qui nous intéresse doit être un vecteur propre normé. Il doit donc vérifier u 'iui = 1. Or
( )( )
u′iui = Zb j ′ Zb j = b′j Z′Zb j
= b′jNRb j = b jNλ jb j
= Nλ jb′jb j = Nλ j ≠ 1
ui n’est donc pas un vecteur propre normé. Pour le normer on lui impose que :
(kui′ )(kui ) = 1 avec k ∈ R
; soit :
k 2u′iui = 1
( )
k 2 Nλ j = 1
D’où k = ±
1
Nλ j
Le vecteur propre normé noté c i s’écrit alors : c i = kui =
1
Nλ j
Zb j
Cette formule montre que connaissant b j et λ j , les vecteurs propres normés associés aux valeurs
propres de R, il est possible de calculer le vecteur propre normé c i associé à la valeur propre Nλ j de
la matrice V.
Cette formule qui permet de calculer les vecteurs propres normés de la nouvelle base de RN sans
diagonaliser V porte le nom de formule de transition.
On peut démontrer que réciproquement, connaissant les vecteurs propres normés associés aux
valeurs propres de V, il est possible de calculer les valeurs propres et les vecteurs propres normés b j
de la matrice R.
En définitive les formules de transition s’écrivent :
c i = kui =
1
Nλ j
Zb j
et
b j=
1
Nλ j
Z′c i
10 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
2 Les coordonnées des projections des variables
r
r
r
Le changement de base orthonormée (c 1,..c i ,...,c n ) (où les ci sont des vecteurs unitaires déterminés
par leurs coordonnées dans l’ancienne base) permet de calculer, comme précédemment, les
projections orthogonales (les coordonnées) des variables sur les i axes principaux. : Φ i en utilisant le
r
rr
r
produit scalaire entre le vecteur unitaire c i et le vecteur Oz j où O est l’origine de N axes.
Φ1
zj
Φi
Φ ij
r
c1
r
ci
0
r
cN
ΦN
On appelle Φ ij la coordonnée de z j sur l’axe principal Φ i obtenu par le produit scalaire entre c i et
r
rr
0 z j . De ce fait Φ i = C ′i
(1,n)
Z
r
est la composante principale c'est-à-dire les coordonnées des
(1,N) (N,n)
variables z j (j = 1 … n) sur l’axe principal Φ i .
r
Pour généraliser ce résultat a une matrice Φ qui contient toutes les coordonnées il faut tenir compte
du résultat (formules de transition) précédent qui indique qu’ily a dans cet espace N-n valeurs propres
de V qui sont nulles et donc N-n axes principaux qui n’existent pas. La matrice Φ est donc de
dimension(n,n) et non (N,n). Elle s’écrit :
z1
Φ1  ..
...  ..
Φi  ..

Φ = ...  ..
(N,n )
Φ n  ..

...  ..
ΦN ...
zj
zn
..
..
..
..
..
..
..
..
..
..
..
..
.. Φ j ..
.. .. ..
.. .. ..
.. 

.. 
.. 
= Φ
..  (n,n)
.. 

.. 
....
De même pour la matrice C qui contient les coordonnées des vecteurs propres normés dans l’ancien
système :
11 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
c1
ci
1 ..

..
C = i ..
(N,N)

..
N ..
..
..
..
..
..
..
c n ... c N
.. .. .. 

.. .. .. 
.. .. ..  = C(N,n)

.. .. ...
... ... .. 
.. c ii ..
.. .. ..
..
..
..
De ce fait on a : Φ = C'
(n,n )
Z
(n,N) (N,n )
Or on sait (formule de transition) que : c i =
C =
1
Z
M3
1
Nλ j
Zb j ce qui s’écrit en faisant varier i et j :
Λ −1/ 2
B
N (N,n) (n,n) (n,n)
(N,n )
D’où
Φ=
1
N
Λ−1/ 2B ′Z ′Z
soit avec R =
Φ=
1
N
1
Z ′Z ⇔ Z ′Z = NR
N
Λ−1 2B' R = NΛ−1 2B′R
Or : B' Rb = Λ ⇒ B' R = ΛB −1 = ΛB'
D’où
Φ = NΛ−1 2 ΛB'
Φ = N Λ 12 B '
(n,n)
(n,n)
(n,n)
3 Le choix des projections des variables
Dans le paragraphe précédent, nous avons vu que les projections orthogonales des n variables sur
les axes principaux avaient pour coordonnées le contenu de la matrice
φ = N Λ1 2 B ′ .
(n,n )
(n,n) (n,n )
12
Intéressons nous au produit Λ B ′ dans cette formule, et pour cela rappelons quelles sont les
caractéristiques des composantes principales Fj dans l’espace R n .
Fj = 0


V F j = λ j


Cov Fj , Fk = 0
[ ]
[
]
j≠k
12 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
Cette dernière caractéristique peut être vérifiée de la façon suivante :
Cov(Fj ,Fk ) =
1 '
Fk Fj Soit avec Fj = Zb j
N (1,N) (N,1)
Cov(Fj ,Fk ) =
1 '
b k Z' Zb j
N
= bk' Rb j
(
= bk' λ jb j
= λ jb 'k b j
∀j
)
Comme bk' et b j sont des vecteurs propres normés, leur produit scalaire est nul et de fait :
Cov(Fj ,Fk ) = 0
Normons les composantes principales Fj
On sait que :
[ ]
V Fj =
∑
1
Fij2 = λ j
N i
Appelons alors Fij =
~
Fij
λj
= λ−j 1/ 2Fij
[ ] ∑
∑
1
1
~
~
De ce fait V Fij =
Fij2 =
N i
N i
Fij2
( λ j )2
Sous forme matricielle on aura :

 1
 λ1

~
F = FΛ−1/ 2 avec Λ−1/ 2 = 

(N,n)




1
λj
=
∑
1
1
Fij2 *
=1
N i
λj







1 
λ n 
Les nouvelles composantes principales ont alors pour caractéristiques :
~
F
=0
 j
 ~
V Fj = 1

~ ~
Cov Fj ,Fk = 0

[]
[
]
j≠k
On peut alors vérifier les résultats suivants :
1~ ~
F′F = Ι n
N
13 / 19
M3
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
1~
F′Z = A qui contient les coefficients de corrélation linéaires entre les composantes principales
N
(n,n )
~
Fj et les variables z k . avec j = 1,.....n et k = 1,...,n
En utilisant ces deux résultats on a :
~
F = FΛ−1/ 2 = ZBΛ−1/ 2
On en déduit que :
~
Z = FΛ1 / 2B′ (puisque B' = B −1 )
D’où
A=
1~
1~~
F' Z s’écrit : A = F' FΛ1 2B'
N
N
Soit :
A = Λ1 2B'
En définitive on va choisir pour oordonnées des variables dans la nouvelle base, le contenu de la
matrice A (au lieu de celui de Φ ) qui est constitué de coefficients de corrélation linéaire, c'est-à-dire
de chiffres en valeurs absolues inférieurs ou égaux à 1. Cette matrice s’écrit :
z1
zj
F1 a11
zj
A (n,n) = Fj
zn
a1n
a jj
Fn a n1
jème composante principale
ann
Coordonnées de zj sur les n composantes principales
Propriétés de la matrice A :
En utilisant l’expression R =
( )( )
1 ~ ′~
F A FA
N
1 ~~
= A ′F ′FA
N
 1 ~ ~
= A ′ F ′F  A
N

R=
1
~
~
Z ′Z dans la formule Z = FΛ1/ 2B′ = FA on a :
N
R = A ′A
Quand on norme les composantes principales, la matrice R = A ′A .
14 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
Développons la diagonale de cette égalité :
diag R = diag A’A
1 élément
2
a11
+
…….
a 2j1 +
…….
a n21
= 1 = V (z 1 )
pème élément
a 12p +
…….
a 2jp +
…….
2
a np
= 1 = V zp
nème élément
a12n +
…….
a 2jn +
…….
2
ann
= 1 = V (zn )
λn
Trace R = VT = n
er
∑
λ1
λj
( )
D - L’interprétation d’une ACP
1) la projection des variables
En retenant pour projection des variables le contenu de A, les coordonnées de ces projections sont
toutes en valeur absolue inférieures ou égales à 1, c’’est-à-dire sont toutes insérées dans un cercle de
rayon unité appelé cercle des corrélations. Considérons, par exemple, le cercle de corrélation dans le
plan constitué par deux axes principaux et une variable z1 sur ce cercle. Elle a pour coordonnées
a11 et a 21 (Cf. matrice A).
Φ2
parfaitement représenté
F2
a21
z1
+1
bien représenté
θ
-1
+1
a11
0
Φ1
F1
mal représenté
-1
D’après le théorème de pythagore, on peut écrire que :
2
a11
+ a 221 = 0z12 = 1
En utilisant la propriété précédente de la matrice A (1er élément du développement de la diagonale),
on a :
2
a11
+ a 221 + a 231 + L + a n21 = V[z1] = 1
2
Comme dans cette expression a11
+ a 221 = 1 ( z1 sur le cercle), on a :
2
a 31
+ L + an21 = 0
15 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
Ce qui signifie que z1 a ses coordonnées nulles sur les autres axes principaux. En d’autres termes, z1
est parfaitement représenté sur le plan F1, F2.
Plus généralement :
-
une variable qui se trouve en projection sur le cercle de corrélation est une variable
parfaitement déterminée sur le plan.
-
Une variable proche du cercle de corrélation est une variable dite « bien représentée » dans
le plan.
-
Une variable proche de l’origine du cercle (zone grisée du graphique) est une variable mal
représentée.
Considérons à présent le plan (F1, F2) avec les quatre variables z1, z2, z3 et z4 situées sur le cercle de
corrélation de la façon suivante :
F2
+1
z2
z3
z1
θ
+1
-1
F1
z4
-1
On sait que dans un plan, 2 vecteurs forment un angle θ dont le cos = r
Pour des variables parfaitement représentées (ou bien représentées à la limite) :
- si l’angle θ tend vers 0 : rz , z → 1
1 2
 π
2
- si l’angle θ tend vers 90° =   : rz1, z 2 → 0
- si l’angle θ tend vers 180 = π : rz1, z 2 → −1
En définitive, pour interpréter le graphique des projections des variables :
-
on sélectionne les variables parfaitement ou bien représentées
-
on analyse les proximités des variables sélectionnées en terme de corrélation
16 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
2) Le graphique des individus
On porte sur les plans factoriels les points individus dont les coordonnées sont données par la matrice
F.
3) les aides à l’interprétation : les contributions absolues et relatives
La contribution absolue (CTA) d’un individu (ou d’une variable) à une composante principale est la
part de sa variance expliquée par cet individu ou cette variable.
La contribution relative (CTR) d’un individu (ou d’une variable) à une composante principale indique la
position de cet individu (ou variable) par rapport à l’axe principal qui porte cette composante
principale.
En ACP, on utilise ces aides à l’interprétation que pour les individus. En effet, de part la représentation
des variables dans le cercle de corrélation, ces contributions sont inutiles.
a) Les contributions absolues des individus (CTA)
La contribution absolu d’un individu i sur la composante principale Fj est notée : CTA i F
j
[ ]
Comme V Fj =
(
1
1
Fij2 = F12j + ...Fij2 + ... + Fnj2
∑
N i
N
)
Par définition :
CTA i Fj =
Fij2
∑ Fij2
=
Fij2
N.V [Fi ]
=
Fij2
Nλ j
i
Par construction 0 ≤ CTA ≤ 1 et
∑ CTA i Fj
n
= 1.
i =1
Les CTA s’interprètent comme des pourcentages et permettent de sélectionner les individus qui
contribuent le plus à l’apparition d’un axe principal.
b) La contribution relative (CTR)
La contribution relative d’un individu i sur la composante principale Fj est notée : CTR i Fj .
Considérons un plan factoriel (F1, F2) avec un point i quelconque de coordonnées Fi1 et Fi2 (Cf. la
matrice F) :
17 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
F2
i
Fi2
θ
G
F1
Fi1
L’angle θ indique par sa valeur la plus ou moins grande proximité de i par rapport à l’axe F1. On ainsi :
cos θ =
F
cot é adjacent
= i1 soit
hypothénuse
d(G,i)
cos θ =
2
Fij2
d2 (0,i)
et si θ tend vers 0, cos 2 θ tend vers 1 et i est proche de F1. Au contraire, si θ tend vers
π
, cos 2 θ
2
tend vers 0 et i s’éloigne de F1 pour se rapprocher de F2.
On note la quantité
Fi12
d 2 (G,i)
la CTR i / F1
En réitérant la procédure pour l’individu i par rapport à F2 on aura :
Fi22
d 2 (G,i)
la CTR i / F2
On constate alors que :
0 ≤ CTR ≤ 1
Fi12 + Fi22
et CTR i / F1 + CTR i / F2 =
= 1.
d 2 (G,i)
En généralisant ce résultat pour un axe principal quelconque, on aura :
CTR i / Fj =
Fij2
d 2 (G,i)
=
Fij2
∑ Fij2
n
j =1
avec 0 ≤ CTR ≤ 1 et
∑ CTR i / Fj
n
=1
j =1
Les CTR permettent de vérifier si les individus sélectionnés par les CTA sont proches ou au contraire
éloignés des axes principaux.
18 / 19
Analyse de données
Module 3 : Formalisation mathématique de l’ACP
M3
Schéma de calcul des CTA et CTR :
F1
F =
(N,n)
…
Fj
1
…
…
…
i
F1i
…
…
N
…
∑2
…
…
∑2
Fn
1
CTRj
CTRn
Σ
1
Fij=A
Y
i
A2
Y
1
Z
CTA1
CTR1
CTAj
CTAn
Avec les CTR on sait si les
individus sont proches ou loin
de l’axe. (Si CTR proche de 1
alors individu proche de l’axe)
…
…
Les CTA permettent de répondre à
la question : « Qui fait l’axe ? ». Les
plus fortes contributions sont les
individus qui sont responsables de
l’apparition de l’axe
2
i
…
A
Z
…
N
Σ
1
1
19 / 19