Analyse Factorielle QUELQUES APPLICATIONS DES
Transcription
Analyse Factorielle QUELQUES APPLICATIONS DES
Analyse Factorielle SAD 1 , 1976 QUELQUES APPLICATIONS OPERATEURS D'ESCOUFIER TRAITEMENT DES DES A U VARIABLES QUALITATIVES. Gilbert SAPOKTA - * Les opérateurintroduits par Y. ESCOUFIER permettent de r e p s s e n t e r par un. à ª t r mathématiquunique un ensemble de variables. E n m i s s a n t l'espace des teurs d'un produit scalaire e t d'une n o m , en peut alors mesurer des dgpendances globales entre groupes de variables. Ces opérateurpeuvent donc à ª t r u t i l i s à © pour décrirdes proximitéentre variables qualitatives car toute variable qualitative e s t wuivalent 3 l'ensenble des variables indicatrices de ses modalit6: ers- 1 - GENERALITES SUR LES OPERATEURS D'ESCOUFIER S o i t Xi un tableau de donnée3 n lignes e t 9colonnes contenant les j7aleurs de mi variables sur n individus. S i Rq, espace des individus, e s t mi de l a &trique Mi e t IRn, espace des variables, de l a &trique habituelle du poids , l'opérateudlESCOUFIER 0. associà au tableau Xi e s t : Oi = X. M. X'. 1 1 D 1 p * Cet opérateun i e s t autre que le WD du schém de dualità suivant associà 3 P l'analyse en composantes principales de Xi dans l a &trique Mi : * Maîtrassistant a L'Universit4 de PARIS V (IUT) Oi a pour -vecteurs propres les composantes principales de Xi associéeaux valeurs propres A i de Mi Vi. L'ensenble des cpérateurassocié2 des tableaux de donnéeXi à n lignes e t aux f i t r i q u e s Mi e s t un sous-ensemble du sous-espace -vectoriel des matrices Dp-swtrique. Ce sous-espace peut 6 t r e mi du produit scalaire : <Oi ; O.> 1 = Trace (Oi 0.) 1 e t de l a norme : = Trace (O!) = 2k A cette norme correspond l a notion d'équivalencsuivante entre deux tableaux de donnéeXi e t X. pour les d t r i q u e s M. e t M.. 1 1 1 xiuxj * - ojlJ2 = O c'est-&dire que Xi e t X. ont &ms systère de conposantes principales associée 1 aux &mes valeurs propres. On d à © f i n ialors l'angle 8. . entre cpérateurou entre tableaux de donnée 11 par : Nous supposerons pour l a s u i t e que Mi = (XI. D xi)-' = -1 i' autremnt dit que les opérateurétudiÃsont les projecteurs Dp-orthogonaux Ai s u r les espaces Wi engendrépar l e s colonnes des tableaux Xi. 1~ Dans ces conditions Trace A.A. e s t l a sonne des valeurs propres de l'analyse 1 1 canonique de Xi e t X. e t 1 Trace A. = Trace Ai = d i m Wi En p a r t i c u l i e r si les variables sont centr&s, l a trace de A.A. e s t égal 1 1 d l a somne des c a d s des coefficients de corrélatio canoniques e t si dim W.1 = 9 Vi on trouve : SAD 1 - 1976 39 cos 9 . . = 11 '&q Deux tableaux de données e n t équivalents i leurs colonnes respectives engendrent l e S n e espace vectoriel ce qui entraînque r = 1 Vk e t mi - - mj. On a donc : cos 9.. = 1 11 cos 9 . . = O 11 w i = w .1 w&w. J cos 9.. e s t toujours p o s i t i f e t que s i m. = m. = 1 11 1 J il e s t égaau carrà du coefficient de corrélatielinéairentre les deux vari ab les. On notera que - II UNE WMODE DE DESCRIPTION DES RELATIONS DEUX A CEUX ENTRE p VARIABLES QUALITATIVES. Associons à une variable qualitative à 9modalitél e tableau logique Xi ( d i t tableau disjonctif) de présencou d'absence des diverses modalitépour les n individus. L'espace Wi engendr+ par les colonnes de Xi e s t ltensentole des variables n d r i q u e s moins fines que l a variable qualitative qui réalisendonc ses différentcodages. Pour à © v i t edes solutions parasites nous considererons en f a i t l e sousespace W. de Wi correspendant aux codages centrésen d'autres termes W i e s t 10 l a p a r t i e de Wi Dp-orthogonale au vecteur 1 de IRn dont toutes l e s composantes sent 6gales à 1. SAD 1- 1976 . 40 Ai désignerl e projecteur Dp-orthogonal s u r S. 10 Trace A> Trace Ai = dim Wio e t on a donc : = - 1 S i Xi e t Xi sont deux tableaux associéà deux variables qualitatives, on s a i t que ltanalySe spectrale de X.A. (en de A..&.) n ' e s t autre que l'analyse des 3 l, 1 1 correspondances du tableau de ccntingence associe dans laquelle l a solution t r i v i a l e 1 a à © t6liminée - La somme des valeurs propres, autres que l a valeur t r i v i a l e 1 , e s t alors de contingence : égaiau f? e t l e cosinus d'angle entre opérateurn ' e s t autre que l e coefficient de dépendanc de TSCHUPBOW. T.: = 8i.j Ce coefficient possèd l a propriétde n1i5tre égati zérque si Es variables sont statistiquement indépendantee t de prendre l a valeur 1 uniquement dans l e cas de l a &pendance totale : à une modalità d'une variable ne correspcnd qu'une modalità de l ' a u t r e e t réuproqueinsnt Etant d m 6 p variables qualitatives, c u n s t ~ s a n sl a matrice sfltrique T des coefficients de TSC-iüPBO des variables prises deux à deux ; il e s t alors t r à ¨ s i q l e de représenteg6dtriquement les proximitéentre les variables en effectuant une analyse en composantes principales sur le opérateurn o d s . En e f f e t , l e coefficient de TSCHUPMM ,qui e s t un cosinus d'angle poss6de les propriétÃd'un coefficient de corrélatioe t l'extraction des vecteurs propres e t des valeurs propres de T, qui e s t alors l'analogue d'une matrice de corrélation permet de &gager des facteurs, orthogonaux deux à deux au sein des opérateurs qui résmnenl e mieux les p variables qualitatives. Les proximitéentre variables peuvent alors @tre représent&selon l a figure usuelle du cercle des correlations : l e point représentatide l a i&me variable a pour coordonn6e sur l'axe no k , l a i* composante du k vecteur propre de T multipliépar l a racine carréde l a valeur propre correspondante : 3 SAD 1 - 1926.. . 4.1 Ainsi s u r l e premier plan ai f a l a figure suivante à ; £ S i deux variables sont repAsent6es par des points proches de l a circonf45rence et faisant avec l'origine unaigle de , cela veut dire qu'elles sait inapendantes. y Cki remarquera que l'ensemble des points-variables s e trouve dans l e demi-plan positifs. d'abscisse positive car T a tous ses élémen I l e s t possible de projeter en 6lEment suppl45mentaire une variable qualitative ne figurant pas parmi, les p variables i n i t i a l e s . I l s u f f i t pour cela de connaîtr t de ses p coefficients de TSCHUPRCW avec les variables de départ l e vecteur La nouvelle variable sera reprSsent6e dans l e systèm des p axes factoriels par un point dont les c o o r à ¹ sont ~ les composantes du vecteur : oà U e s t l a natrice doit les colonies sont les vecteurs propres n o d s 3 1 de et * 1 / 5 l a matrice diagonale des inverses des racines c a r d e s des valeurs propres rangéedans l e dme ordre. Ceci permet , en particulier, de f a i r e figurer dans l e cercle des corrélation les diverses modalitéd'une variable : chaque modalitéqui e s t une variable qualitative dichotomique, étanalors proje t6e en 616mnt supplémntaireOn trouve ais45ment que le point repAsentatif d'une variable e s t entourà par les points repr6sentatifs de ses modalités L ' u t i l i s a t i o n des opérateurpermet aussi de t r a i t e r l e cas d'un d l a n g e de variables qualitatives e t quantitatives. Ainsi, on obtient sans d i f f i c u l t à que l e cosinus d'angle entre l'opérateu i variable ?mi i modalitée t celui associà ? une i variable nudrique associà ?une centrévent : cos 9 = q2 oà q2 e s t l e rapport de corfilation ^srà De mêm l e cosinus d'angle entre ltopérateuassocià ?une i variable qualitative à mi modalitée t l'opérateuassocià ? un i groupe de q variables num'riques centrée est : ^1 k= cos 9 = c Trace (v^B) - oà V e s t l a matrice de variance-covariance t o t a l e du q variable e t B l a matrice de variance interclasse (ou matrice d ' i n e r t i e des mi centres de gravités; l e s Ak sent alors l e s valeurs propres de l'analyse discriminante associée Les cosinus d'angle entre opérateurdéfinissendonc des indices de proximità comparables pour des variables qualitatives comme quantitatives. Quelques précautionsont cependant nécessairepour effectuer ces comparaisons car il ne nous semble pas recomnandà d ' u t i l i s e r des variables qualitatives dont les nombres de modalitéseraient trop différentsEn e f f e t deuxâ 2 de contingence de mêm valeur num'rique n ' o n t pas l a &me signification s i les degréde l i b e r t à sent différent; l e fait de diviser par l a racine du nombre de degréde l i b e r t à dans l e coefficient de TSCHUPRW atténuc e t inconvénienmais ne l'éliminpas totalement. Si les nombres de modalitésont trop différentil peut à ª t r conseillà de complétel a donnéd'un coefficient de TSCHUPRCW T. - par l a probabilità 11 q u e variable de%' ?i (9 1) (inj 1) degréde l i b e r t à s o i t inférieura u x2 de contingence trouvéCette probabilità e s t une excellente mesure de l a dépendanc entre variables qualitatives mais n'a évidemmenpas les propriétÃd'un cosinus dl angle. - SAD 1 - 1976 - III - SELECTION PROGRESSIVE CE VARIABLES EXPLICATIVES DANS UNE ANALYSE DISCRIMI NANTE SUR VARIABLES QUALITATIVES *. - La pr6vision d'une variable qualitative par p autres a souvent à © tt r a i t 6 e par l a technique d e segmentation. On peut ainsi l'aborder sous l'angle de l'analyse discriminante race au codage, ce qui aboutit alors 2 a f f e c t e r une modalità de l a variable à expliquer 2 un individu selon l a valeur d'une fonction n d r i q u e additive des diverses modalitédes variables explicatives. Le problèm peut se formaliser a i n s i : chercherun codage simultanà de toutes les variables maximisant l e coefficient de correlation multiple entre l a variable a expliquer codée t les p variables explicatives codéesLa solution e s t alors donnépar l'analyse canonique, moyennant quelques c m t r ntes s u r l e s codages afin d ' à © v i t edes matrices singulisres. S i l e choix d'un nontire limii5 de prédicteurafin de r à © a l i s eune discrimination pas 2 pas e s t classique pour des variables n d r i q u e s , il n'en e s t pas de &ne pour des variables qualitatives en raison de l a d i f f i c u l t à de définiune mesure de dépendancentre deux variables qualitatives conditionnellement à une ou plusieurs autres. La seule &thode de discrimination pas 2 pas que nous connaisi une- t e l l e mesure de siens étanc e l l e de M. NBSSON mais e l l e ne d à © f i n pas dépendancp a r t i e l l e . I l e s t certes possible de d à © f i n ides X 2 conditionnels ou des quantitéd'informations conditionnelles mais l e voldes calculs devient vite prohibitif car il faut manier des tables de contingence 2 plusieurs dimensions La d t h o d e que nous proposons s ' i n s p i r e de l a régressioprogressive e t consiste à d à © f i n iun indice de liaison p a r t i e l l e entre variables qualitatives analogue e t l a corrélatiop a r t i e l l e grâc aux propriétÃdu coefficient de TSCHUPROW. Le coefficient de TSCHUPRCW à © t a npour l e s variables qualitatives l'analogue d'un coefficient de corrélationnous définissonf o m l l e r e n t l e coefficient de TSCHUPRCM p a r t i e l au moyen de l a formule classique donnant l e coefficient de corrélatiop a r t i e l l e . Avec t r o i s variables on trouve a i n s i : * 'SAD 1 - cette application a à © tdéveloppÃdans l e cadre du c m t r a t DGRST no 75-7-0230 1976w Dans l'espace des op6rate&s, l e coefficient T , , e s t l e cosinus de l a projection de l'angle 9,- s u r un plan orthogonal à ltopération02. On voit sans d i f f i c u l t à que ce coefficient jouit de propriétGinteressantes : S i les variables 2 e t 3 sont trSs l i à © e sl'angle 0 est alors voisin de TT -s, e s t proche de zGro : l a p r i s e en coupte de l a variable 3, une fois connue et '13.2 l a variable 2 , n'apporte pas d'information u t i l e s u r l a variable 1. d%tre p a r t , ii T e t T,, fixes l e coefficient e s t maximal si T2, = 0 12 c'est-%-dire si les variables 2 e t 3 sont i n d w d a n t e s . On &finit alors de proche en proche les coefficients de EtHlPfW partiels d'ordres supérieur: '14.23 - '14.2 -T l ~ .'43.2 ~ etc L'algorithme de sélectioprogressive des variables explicatives e s t alors i d d i a t : au premier pas on cherche, pour expliquer l a variable 1 , l a variable qui maximise Tl .. au deuxièm pas on introduit l a variable j qui maximise T I j i au t r o i s i h e pas cm intrcduit l a variable k qui maximise TlkSij - - - ..' Oi peut songer à dgfinir un coefficient de TSCHUPRCW multiple Tl,. formule usuelle etc par l a mais ce coefficient ne sertie pas possédede propri??téaisémeninterprétable sauf dans l e cas oà les variables explicatives sent inc%pendantes ( T l 2 3 = T ; ~ + < ~ ) est & un coefficient e t ont &me nombre de modalité: on montre alors que T 1.23 prè la somme des valeurs propres de l'analyse discriminante globale de 1 contre 2 e t 3. Y. ESCOUFIER : "Echanti llonnage dans une population de v a r i a b l e s a l b a t o i res r à © e l l e s ThSse de Doctorat & Sciences Montpellier (1970). M. MASSON : "Processus l i n à © a i r e t analyse de donnée non Linéaires ThSse de Doctorat è Sciences Uliversità de PARIS VI J. PAGES (1974) : " A propos des opérateur d'Y. ESCOUFIER" Séminairede l l I R I A en classification automatique (1974) G. SAPORTA : "Liaison e n t r e p l u s i e u r s ensembles de variables e t codage de donnée qualitatives" Th&e de 3e cycle SAD 1 - 1976 Università de PARIS VI (1975)