Analyse Factorielle QUELQUES APPLICATIONS DES

Transcription

Analyse Factorielle QUELQUES APPLICATIONS DES
Analyse
Factorielle
SAD 1 , 1976
QUELQUES
APPLICATIONS
OPERATEURS
D'ESCOUFIER
TRAITEMENT
DES
DES
A U
VARIABLES
QUALITATIVES.
Gilbert SAPOKTA
-
*
Les opérateurintroduits par Y. ESCOUFIER permettent de r e p s s e n t e r par un.
à ª t r mathématiquunique un ensemble de variables. E n m i s s a n t l'espace des
teurs d'un produit scalaire e t d'une n o m , en peut alors mesurer des dgpendances
globales entre groupes de variables. Ces opérateurpeuvent donc à ª t r u t i l i s à ©
pour décrirdes proximitéentre variables qualitatives car toute variable
qualitative e s t wuivalent 3 l'ensenble des variables indicatrices de ses modalit6:
ers-
1
- GENERALITES SUR LES OPERATEURS D'ESCOUFIER
S o i t Xi un tableau de donnée3 n lignes e t 9colonnes contenant les
j7aleurs de mi variables sur n individus. S i Rq, espace des individus, e s t mi
de l a &trique Mi e t IRn, espace des variables, de l a &trique habituelle du poids
, l'opérateudlESCOUFIER 0. associà au tableau Xi e s t :
Oi
= X. M. X'.
1 1
D
1 p *
Cet opérateun i e s t autre que le WD du schém de dualità suivant associà 3
P
l'analyse en composantes principales de Xi dans l a &trique Mi :
*
Maîtrassistant a L'Universit4 de PARIS
V (IUT)
Oi a pour -vecteurs propres les composantes principales de Xi associéeaux
valeurs propres
A i de
Mi Vi.
L'ensenble des cpérateurassocié2 des tableaux de donnéeXi à n lignes
e t aux f i t r i q u e s Mi e s t un sous-ensemble du sous-espace -vectoriel des matrices
Dp-swtrique. Ce sous-espace peut 6 t r e mi du produit scalaire :
<Oi
; O.>
1
=
Trace (Oi 0.)
1
e t de l a norme :
= Trace (O!)
=
2k
A cette norme correspond l a notion d'équivalencsuivante entre deux tableaux
de donnéeXi e t X. pour les d t r i q u e s M. e t M..
1
1
1
xiuxj
*
- ojlJ2
= O
c'est-&dire que Xi e t X. ont &ms systère de conposantes principales associée
1
aux &mes valeurs propres.
On d à © f i n ialors l'angle 8. . entre cpérateurou entre tableaux de donnée
11
par :
Nous supposerons pour l a s u i t e que Mi = (XI. D xi)-'
=
-1
i'
autremnt dit que les opérateurétudiÃsont les projecteurs Dp-orthogonaux Ai
s u r les espaces Wi engendrépar l e s colonnes des tableaux Xi.
1~
Dans ces conditions Trace A.A. e s t l a sonne des valeurs propres de l'analyse
1 1
canonique de Xi e t X. e t
1
Trace A. = Trace Ai
=
d i m Wi
En p a r t i c u l i e r si les variables sont centr&s, l a trace de A.A. e s t égal
1 1
d l a somne des c a d s des coefficients de corrélatio canoniques e t si
dim W.1 = 9 Vi on trouve :
SAD 1
-
1976
39
cos 9 . . =
11
'&q
Deux tableaux de données e n t équivalents i leurs colonnes respectives engendrent
l e S n e espace vectoriel ce qui entraînque
r = 1 Vk
e t mi -
-
mj.
On a donc :
cos 9.. = 1
11
cos 9 . . = O
11
w i = w .1
w&w. J
cos 9.. e s t toujours p o s i t i f e t que s i m. = m. = 1
11
1
J
il e s t égaau carrà du coefficient de corrélatielinéairentre les deux
vari ab les.
On notera que
-
II UNE WMODE DE DESCRIPTION DES RELATIONS DEUX A CEUX ENTRE p VARIABLES
QUALITATIVES.
Associons à une variable qualitative à 9modalitél e tableau logique Xi
( d i t tableau disjonctif) de présencou d'absence des diverses modalitépour
les n individus.
L'espace Wi engendr+ par les colonnes de Xi e s t ltensentole des variables
n d r i q u e s moins fines que l a variable qualitative qui réalisendonc ses différentcodages.
Pour à © v i t edes solutions parasites nous considererons en f a i t l e sousespace W. de Wi correspendant aux codages centrésen d'autres termes W i e s t
10
l a p a r t i e de Wi Dp-orthogonale au vecteur 1 de IRn dont toutes l e s composantes
sent 6gales à 1.
SAD 1- 1976
.
40
Ai désignerl e projecteur Dp-orthogonal s u r S.
10
Trace A>
Trace Ai
=
dim Wio
e t on a donc :
=
-
1
S i Xi e t Xi sont deux tableaux associéà deux variables qualitatives, on
s a i t que ltanalySe spectrale de X.A. (en de A..&.) n ' e s t autre que l'analyse des
3 l,
1 1
correspondances du tableau de ccntingence associe dans laquelle l a solution
t r i v i a l e 1 a à © t6liminée
-
La somme des valeurs propres, autres que l a valeur t r i v i a l e 1 , e s t alors
de contingence :
égaiau
f?
e t l e cosinus d'angle entre opérateurn ' e s t autre que l e coefficient de dépendanc
de TSCHUPBOW.
T.:
=
8i.j
Ce coefficient possèd l a propriétde n1i5tre égati zérque si Es variables
sont statistiquement indépendantee t de prendre l a valeur 1 uniquement dans l e
cas de l a &pendance totale : à une modalità d'une variable ne correspcnd qu'une
modalità de l ' a u t r e e t réuproqueinsnt
Etant d m 6 p variables qualitatives, c u n s t ~ s a n sl a matrice sfltrique T
des coefficients de TSC-iüPBO des variables prises deux à deux ; il e s t alors
t r à ¨ s i q l e de représenteg6dtriquement les proximitéentre les variables
en effectuant une analyse en composantes principales sur le opérateurn o d s .
En e f f e t , l e coefficient de TSCHUPMM ,qui e s t un cosinus d'angle poss6de les
propriétÃd'un coefficient de corrélatioe t l'extraction des vecteurs propres
e t des valeurs propres de T, qui e s t alors l'analogue d'une matrice de corrélation
permet de &gager des facteurs, orthogonaux deux à deux au sein des opérateurs
qui résmnenl e mieux les p variables qualitatives.
Les proximitéentre variables peuvent alors @tre représent&selon l a
figure usuelle du cercle des correlations : l e point représentatide l a i&me
variable a pour coordonn6e sur l'axe no k , l a i* composante du k
vecteur
propre
de T multipliépar l a racine carréde l a valeur propre correspondante :
3
SAD 1
-
1926..
.
4.1
Ainsi s u r l e premier plan
ai
f
a l a figure suivante
Ã
;
£
S i deux variables sont repAsent6es par des points proches de l a circonf45rence
et faisant avec l'origine unaigle de
, cela veut dire qu'elles sait inapendantes.
y
Cki remarquera que l'ensemble des points-variables s e trouve dans l e demi-plan
positifs.
d'abscisse positive car T a tous ses élémen
I l e s t possible de projeter en 6lEment suppl45mentaire une variable qualitative
ne figurant pas parmi, les p variables i n i t i a l e s . I l s u f f i t pour cela de connaîtr
t de ses p coefficients de TSCHUPRCW avec les variables de départ
l e vecteur La nouvelle variable sera reprSsent6e dans l e systèm des p axes factoriels par
un point dont les c o o r à ¹ sont
~
les composantes du vecteur :
oà U e s t l a natrice doit les colonies sont les vecteurs propres n o d s 3 1
de
et * 1 / 5 l a matrice diagonale des inverses des racines c a r d e s des valeurs
propres rangéedans l e dme ordre.
Ceci permet , en particulier, de f a i r e figurer dans l e cercle des corrélation
les diverses modalitéd'une variable : chaque modalitéqui e s t une variable
qualitative dichotomique, étanalors proje t6e en 616mnt supplémntaireOn
trouve ais45ment que le point repAsentatif d'une variable e s t entourà par les
points repr6sentatifs de ses modalités
L ' u t i l i s a t i o n des opérateurpermet aussi de t r a i t e r l e cas d'un d l a n g e de
variables qualitatives e t quantitatives.
Ainsi, on obtient sans d i f f i c u l t à que l e cosinus d'angle entre l'opérateu
i
variable ?mi
i modalitée t celui associà ?
une
i
variable nudrique
associà ?une
centrévent :
cos 9 =
q2
oÃ
q2
e s t l e rapport de corfilation
^srÃ
De mêm l e cosinus d'angle entre ltopérateuassocià ?une
i
variable qualitative
à mi modalitée t l'opérateuassocià ?
un
i groupe de q variables num'riques centrée
est :
^1
k=
cos 9 =
c
Trace (v^B)
-
oà V e s t l a matrice de variance-covariance t o t a l e du q variable e t B l a matrice
de variance interclasse (ou matrice d ' i n e r t i e des mi centres de gravités; l e s
Ak sent alors l e s valeurs propres de l'analyse discriminante associée
Les cosinus d'angle entre opérateurdéfinissendonc des indices de
proximità comparables pour des variables qualitatives comme quantitatives.
Quelques précautionsont cependant nécessairepour effectuer ces comparaisons
car il ne nous semble pas recomnandà d ' u t i l i s e r des variables qualitatives dont
les nombres de modalitéseraient trop différentsEn e f f e t deuxâ 2 de contingence
de mêm valeur num'rique n ' o n t pas l a &me signification s i les degréde l i b e r t Ã
sent différent; l e fait de diviser par l a racine du nombre de degréde l i b e r t Ã
dans l e coefficient de TSCHUPRW atténuc e t inconvénienmais ne l'éliminpas
totalement. Si les nombres de modalitésont trop différentil peut à ª t r conseillÃ
de complétel a donnéd'un coefficient de TSCHUPRCW T. - par l a probabilitÃ
11
q u e variable de%' ?i
(9 1) (inj 1) degréde l i b e r t às o i t inférieura u x2
de contingence trouvéCette probabilità e s t une excellente mesure de l a dépendanc
entre variables qualitatives mais n'a évidemmenpas les propriétÃd'un cosinus
dl angle.
-
SAD 1
- 1976
-
III
-
SELECTION PROGRESSIVE CE VARIABLES EXPLICATIVES DANS UNE ANALYSE DISCRIMI
NANTE SUR VARIABLES QUALITATIVES *.
-
La pr6vision d'une variable qualitative par p autres a souvent à © tt r a i t 6 e par
l a technique d e segmentation. On peut ainsi l'aborder sous l'angle de l'analyse
discriminante race au codage, ce qui aboutit alors 2 a f f e c t e r une modalità de
l a variable à expliquer 2 un individu selon l a valeur d'une fonction n d r i q u e
additive des diverses modalitédes variables explicatives.
Le problèm peut se formaliser a i n s i : chercherun codage simultanà de toutes
les variables maximisant l e coefficient de correlation multiple entre l a variable
a expliquer codée t les p variables explicatives codéesLa solution e s t alors
donnépar l'analyse canonique, moyennant quelques c m t r ntes s u r l e s codages
afin d ' Ã © v i t edes matrices singulisres.
S i l e choix d'un nontire limii5 de prédicteurafin de r à © a l i s eune discrimination pas 2 pas e s t classique pour des variables n d r i q u e s , il n'en e s t pas de
&ne pour des variables qualitatives en raison de l a d i f f i c u l t à de définiune
mesure de dépendancentre deux variables qualitatives conditionnellement à une
ou plusieurs autres. La seule &thode de discrimination pas 2 pas que nous connaisi
une- t e l l e mesure de
siens étanc e l l e de M. NBSSON mais e l l e ne d à © f i n pas
dépendancp a r t i e l l e . I l e s t certes possible de d à © f i n ides X 2 conditionnels
ou des quantitéd'informations conditionnelles mais l e voldes calculs devient
vite prohibitif car il faut manier des tables de contingence 2 plusieurs dimensions
La d t h o d e que nous proposons s ' i n s p i r e de l a régressioprogressive e t
consiste à d à © f i n iun indice de liaison p a r t i e l l e entre variables qualitatives
analogue e t l a corrélatiop a r t i e l l e grâc aux propriétÃdu coefficient de
TSCHUPROW.
Le coefficient de TSCHUPRCW Ã © t a npour l e s variables qualitatives l'analogue
d'un coefficient de corrélationnous définissonf o m l l e r e n t l e coefficient
de TSCHUPRCM p a r t i e l au moyen de l a formule classique donnant l e coefficient de
corrélatiop a r t i e l l e .
Avec t r o i s variables on trouve a i n s i :
*
'SAD 1
-
cette application a à © tdéveloppÃdans l e cadre du c m t r a t DGRST no 75-7-0230
1976w
Dans l'espace des op6rate&s, l e coefficient T , ,
e s t l e cosinus de l a
projection de l'angle 9,- s u r un plan orthogonal à ltopération02.
On voit sans d i f f i c u l t à que ce coefficient jouit de propriétGinteressantes :
S i les variables 2 e t 3 sont trSs l i à © e sl'angle 0 est alors voisin de TT
-s,
e s t proche de zGro : l a p r i s e en coupte de l a variable 3, une fois connue
et '13.2
l a variable 2 , n'apporte pas d'information u t i l e s u r l a variable 1.
d%tre p a r t , ii T e t T,, fixes l e coefficient e s t maximal si T2, = 0
12
c'est-%-dire si les variables 2 e t 3 sont i n d w d a n t e s .
On &finit alors de proche en proche les coefficients de EtHlPfW partiels
d'ordres supérieur:
'14.23
-
'14.2
-T
l ~ .'43.2
~
etc
L'algorithme de sélectioprogressive des variables explicatives e s t
alors i d d i a t :
au premier pas on cherche, pour expliquer l a variable 1 , l a variable
qui maximise Tl ..
au deuxièm pas on introduit l a variable j qui maximise T I j i
au t r o i s i h e pas cm intrcduit l a variable k qui maximise TlkSij
-
-
- ..'
Oi peut songer à dgfinir un coefficient de TSCHUPRCW multiple Tl,.
formule usuelle
etc
par l a
mais ce coefficient ne sertie pas possédede propri??téaisémeninterprétable
sauf dans l e cas oà les variables explicatives sent inc%pendantes ( T l 2 3 = T ; ~ + < ~ )
est & un coefficient
e t ont &me nombre de modalité: on montre alors que T
1.23
prè la somme des valeurs propres de l'analyse discriminante globale de 1 contre
2 e t 3.
Y. ESCOUFIER : "Echanti llonnage dans une population de v a r i a b l e s a l b a t o i res r à © e l l e s
ThSse de Doctorat & Sciences
Montpellier (1970).
M. MASSON : "Processus l i n à © a i r e t analyse de donnée non Linéaires
ThSse de Doctorat è Sciences Uliversità de PARIS VI
J. PAGES
(1974)
: " A propos des opérateur d'Y. ESCOUFIER"
Séminairede l l I R I A en classification automatique
(1974)
G. SAPORTA : "Liaison e n t r e p l u s i e u r s ensembles de variables e t codage de donnée
qualitatives"
Th&e de 3e cycle
SAD 1 - 1976
Università de PARIS VI
(1975)