AKALYSL HARMONIQUE QUALITATIVE Jean-Claude
Transcription
AKALYSL HARMONIQUE QUALITATIVE Jean-Claude
D a t a Ana1usi.s and l""formaiics E. Diday et a l . (cds.) 0 ~ o r t h - f i o l l a n d P u h i ~ s h i n qC o m p a n y , 1980 AKALYSL HARMONIQUE QUALITATIVE Jean-Claude DEVILLE I n s t i t u t National de l a Statistique e t des Etudes Economiques Università de Paris V Gi 1bert SAPORTA - I n s t i t u t Universitaire de Technologie SUMMARY : This paper deals w i t h nominal time-series. The spectral analysis of an operator which sums up time dependences provides a decomposition of the nominal process into a sequence a time-invariant uncorrelated random variables and a s e t of non-random time tunctions which give changing scores to the States of the process. These results extend scalar harmonic analysi's to nominal processes, multiple correspondence analysis to a continuons s e t of nominal variables and generalized canonical analysis to mu1 tidimensional stochastic processes. Humerical computation comes clown to a particular kind of correspondence analysis . RESUME : On s ' i n t à « r e s s 3 des donnéequalitatives évoluandans l e temps, L'analyse spectrale d'un opërateu résumanles dépendancetemporelles fourn i t une décompositiodu processus qualitatif en une s u i t e de variables alëa toires réellenon corrélé indépendantesd temps, e t une famille de fonctions certaines du temps donnant des codages évolutifdes à © t a tdu processus. Ces résultatëtenden l'analyse harmonique scalaire au cas des processus qualit a t i f s , l'analyse des correspondances multiples au cas d'une famille continue de variables quantitatives e t l'analyse canonique généralis aux processus vectoriels. La résolutio numériquse ramèn à une analyse des correspondances d'un type particulier. - 376 1 - J . -C. DEVILLE and G . SAPORTA ANALYSE HARMONIQUE QUALITATIVE POSITION DU PROBLEME ET MOTIVATIONS On notera 1; De nombreuses donnée d'enquéte permettent de r e t r a c e r 1 ' h i s t o i r e (t,s) = P ( X d ' i n d i v i d u s pendant une c e r t a i n e përiod de temps : à © v o l u t i o de l ' a c t i v i t à professionnelle, de l a s i t u a t i o n matrimoniale, de l a résidence Le b u t de c e t a r t i c l e e s t de montrer qu'on peut analyser de t e l l e s donnée de faço analogue à ce que l ' o n f e r a i t pour un processus s c a l a i r e (analyse harmonique [4]) e t pour un ensemble f i n i de v a r i a b l e s q u a l i t a t i v e s non temporelles Un codage R. Notons ft(ou f.) & lt, px (t)=P(Xt= x ) = ~(1:) ( r à © e l du processus X t e s t une f o n c t i o n f t ( x ) de TÈZdan l e vecteur dont l e s m composantes sont l e s ft(x.) -A- = ( x '36.) ; par : * < f , 1 > = tz f ( x ) lx -t Une démarch n a t u r e l l e p o u r r a i t à ª t r de f a i r e l ' a n a l y s e harmonique du processus Y Un i n t e r v a l l e de Yemps" r à © e compact T = [o,T] muni de l a mesure de Lebesgue d t ( l a g à © n à © r a l i s a t ià une mesure f i n i e a r b i t r a i r e ne pose aucun problëme) - x f ) Xs=y) = ~ ( 1 ; 1;). Yt = ft(Xt) Formellement, on considérer comme donnë l e s élémensuivants : - = on o b t i e n t un processus s c a l a i r e Y, (analyse canonique généralisou analyse des correspondances m u l t i p l e s f 9 l . - l a v a r i a b l e i n d i c a t r i c e de 1 'évenemen Xt =x, l e vecteur dont l e s m composantes sont l e s Un ensemble f i n i T£ comportant m à © t a t s Un espace p r o b a b i l i s à (a,+ dans% 1)) e t un processus Xt à valeur Pour t o u t t, X t e s t donc une v a r i a b l e qua1 i t a t i v e à m modalités On supposera, hypothès q u i nia r i e n de minimale, pour un codage b i e n c h o i s i . On p o u r r a i t aussi c h o i s i r une t f a m i l l e f i n i e de temps 0 4 , <t, 4 4' e t f a i r e l ' a n a l y s e canonique des Xt2 ...X . En f a i t ou peut a r r i v e r assez f a c i 'n lement a un t r a i t e m e n t q u i s y n t h à « t i s e t dans une c e r t a i n e mesure j u s t i f i e ces deux idges. v a r i a b e s u a l t a t v e s Xtl, II - DEPENDANCES TEMPORELLES l a t r i b u engendré par X t Soit B que X t e s t c o n t i n u en p r o b a b i l i t à © c ' e s t - à - d i r ~ " ( t ) 1 'espace des v a r i a b l e s . r à © e l l e B mesurables ( e s t - & - d i r e de l a forme P(Xt+, # X ) Â¥ 0 quand h > 0. t e u r d'espéranc c o n d i t i o n n e l l e à Bt c ' e s t - $ - d i r e , 2 j e c t i o n orthogonale s u r L ( t ) . Les opérateur E t sont donc idempotents, (au p l u s ) , e t transforment une v.a.r. z a dans lx), et E L!i l'opéra (@,CL, P) l a pro- hennitiens, de rang in p o s i t i v e en une v.a.r. p o s i t i v e . Inver- sement, t o u t opérateu ayant ces p r o p r i à © t à e s t une espéranc c o n d i t i o n n e l l e r e l a t i v e à une t r i b u engendré par une p a r t i t i o n de t a i l l e m au plus [TI. t 11 y a donc équivalenc e n t r e l a donnë d'un opérateu E e t d'une v a r i a b l e q u a l i t a t i v e ( d à © f i n i à une P-équivalenc près) Toutes l e s dëpendance e n t r e v a r i a b l e s q u a l i t a t i v e s pourront donc s'exprimer en terme d'opérateurs ou s i on veut, on pourra se contenter, pour à « t u d i e l e s l i a i s o n s e n t r e variables, d ' à © t u d i e l e s "rapports" e n t r e opérateur correspondants. Les dépendance deux à deux, au second ordre en quelque sorte, seront donc entièremen p r i s e s en compte p a r l a " f o n c t i o n de covariance Notons que Kt,t = ^ t e t que Ks,t=~t*s. " Kt,s = E~E'. La f o n c t i o n K e s t à valeurs opërateur ( e t non pas s c a l a i r e ) e t transforme donc une v.a.r. en une autre. Il e s t f a c i l e de v à © r i f i e q u ' e l l e e s t continue pour l a nonne h a b i t u e l l e des opéra teurs. S i . .F e s t un processus s c a l a i r e s u r T de variance t o t a l e f i n i e ( c o n t i n u m.q par exemple), l a f o n c t i o n K d à « f i n i un opérateu i n t à © g r a K t.s 378 ANALYSE HARMONIQUE QUALITATIVE J.-C. DEVILLE and G. SAPORTA Les g à © n à © r a t r i cs o n t donc vecteurs propres de Q. Inversement, s o i t o p à © r a n s u r l e s processus de v a r i a n c e f i n i e de l a faço s u i v a n t e : (K"), Soit $. 3, z un v e c t e u r p r o p r e de Q e t posons et = E Z . En prenant l ' e s p à © r i n c a 8, deux membres de ( 3 ) on v o i t que et e s t processus p r o p r e de K e t que l a Kt,s Cs ds T 1 'espace de H i l b e r t des (classes d ' à © q u i v a l e n c des)processus = = recherche des elément propres de l ' à © q u a t i o (1) e s t à © q u i v a l e n t à c e l l e de du second o r d r e de v a r i a n c e t o t a l e f i n i e muni du p r o d u i t s c a l a i r e c l a s s i q u e s u i v a n t (covariance en moyenne) : ( c l 0 )*= V ( c t ^ 1'équatio (3). On en d à © d u i que : dt K e s t un o p à © r a t e u d a n s x ; il e s t immédiat en v e r t u des hypothëses 1 1 ~ 1 1< I de v à © r i f i e que K e s t h e r n i i t i e n , p o s i t i f , compact, de t r a c e f i n i e . On va donc ! p o u v o i r u t i l i s e r sa décompositio s p e c t r a l e : K ; - Les g à © n à © r a t r i c s o n t sans c o r r à © l a t i o - z(O) = dë que E ci) Remarque 2 : Les processus mé de K dans St . Autrement -ct n o t a n t ri l a p r o j e c t i o n orthogonale s u r IiiK e s t constante e s t de moyenne n u l l e t o u t t o u t t e t t o u t i h l On t r o u v e de p l u s aisémen que l e s Z ! ~ )s o n t de v a r i a n c e IV - et à © t a n Bt-mesurable on a : ct e s t un processus propre, on p e u t l u i a s s o c i e r un codage c a r , s o i t n , en : ?,i. LES CODAGES PROPRES ET LEURS CALCULS Si f o r m e n t une base h i l b e r t i e n n e de l ' i m a g e f e r - ( i = 1 . . . ) e s t de moyenne n u l l e - et. d i t on a, pour t o u t processus de% n ' e s t pas c o n s t a n t (dt-presque p a r t o u t ) t o u t e s l e s v a l e u r s 0 (1) E(vt a ^) . e s t g à © n à © r a t r i propre de v a l e u r p r o p r e T. Comme -z" i=1 i oà l e s c ( ) sont des processus de v a r i a n c e t o t a l e u n i t à © orthogonaux dans?"-, v e c t e u r s propres associé à \. de 1 ' o p à © r a t e u K c ' e s t - à - d i r v à © r i f i a n : Remarque 1 : L ' o p à © r a t e u tan transforme l e processus $ t en l e processus : cte propres s o n t p l u s p e t i t e s que T. $1 &^ ), des tt = 4 a: 1; L ' à © q u a t i o (1) s ' à © c r i a l o r s : A x1 axt lx t = jT;as Y E t ( l Y S ) ds III - GENERATRICES, UN AUTRE ASPECT DE LA DECOMPOSITION t comme E (1:) L 1 à © q u a t i o n ( ls ' à © c r i a u s s i : Q = é jT Es($) t ds = E 1T % ds puisque E'{%) = = 8 1t E (1:/1: = l ) , on t r o u v e que : % Les processus propres s o n t donc nécessairemen t e l s que t t s o i t d'oà p a r i d e n t i f i c a t i o n : Bt-mesurable. . ' e s t un o p à © r a t e u h e n n i t i e n a u t o a d j o i n t Notons a l o r s Q = j ~ d s C 2 T compact s u r L (R,U.,P,) ( e t c ' e s t a u s s i , en quelque s o r t e , l a t r a c e de K). D à © f i n i s s o n une v a r i a b l e a l à © a t o i r z par : z = j'T s ds d ' o à A c t = Et ( z ) Â¥O a p p e l l e r a z l a g à © n à © r a t r idu processus p r o p r e s u r T e t p a r d à © f i n i t i o de Q il v i e n t : (*) c. Par i n t à © g r a t i o de ( 2 ) A a; = j' ds j P T ( t i ~ ) ~ ~ PT>- l a m a t r i c e dont l e s élémens o n t ou e n f i n , v e c t o r i e l l e m e n t , en n o t a n t P t,s l e s pXty ( t , s ) : pi:tgs ds' Agt= jT (5) Les g à © n à © r a t r i czli ) e t l e s codages -aii ) f o u r n i s s e n t donc une décompo s i t i o n du processus en une s u i t e o r t h o g o n a l e de v a r i a b l e s a l à © a t o i r e indépen dantes du temps e t de codages (non a l à © a t o i r e s f o n c t i o n s du temps. Leur i n t e r - 380 J.-C. DEVILLE and G. SKPORTA prétatiopratique peut se f a i r e comme celle des composantes e t des harmoniques en analyse harmonique : graphes des codages de chaque à © t aen fonction du temps, corrélatio des génératric avec certaines variables connues (cercle des corrélations) Cela d i t , comme nous allons l e voir, l'analyse harmonique qualitative e s t une généralisati de méthodefamiliéred'analyse des donnéee t s ' y ramën d ' a i l l e u r s sur l e plan numériqueToutes l e s techniques d'interpréta tions habituelles dans ces méthodesont donc encore valables dans notre cas. L'équatio ( 3 ' ) n ' e s t autre que c e l l e de l'analyse canonique génér l i s à ©de J.D.CARROLL [z] appliquë aux p groupes des m indicatrices des à © t a t s Dans l e cas ou si e s t f i n i e t comporte n individus on retombe sur u n des avasont t a r s de l 'analyse des correspondances : l e s codages e t les génératric l e s "facteurs" de 1 'analyse de correspondances d'un tableau disjonctif modifie à n lignes e t mp colonnes : 00 l a jém "question" s e r a i t pondérÃpar l a duré1 - V LIEN AVEC L'ANALYSE DES CORRESPONDANCES MULTIPLES Supposons qu'il e x i s t e p+l instants O=t" < t l . . . < t=T, t e l s que toutes P l e s t r a j e c t o i r e s du processus soient constantes s u r l e s interval l e s ( t j - l , t j ) . Autrement d i t l e s changements d ' à © t a tne pourront s e produire qu'aux instants t . ( j = Ã,...,pJ l)(t) L'étudd'un tel processus e s t semblable à l a temporalità près à c e l l e d'un ensemble de p variables qualitatives à valeurs dans l e mémensemble Notons c . l a valeur de t t sur ( t j - , , t . ) , E~ l'espérancconditionJ J l e à t.. e t 1 .=t.-t. ; l e s gquations ( 1 ) ( 2 ) e t ( 3 ) prennent maintenant J J J J-1 forme suivante : 381 ANALYSE HARMONIQUE QUALITATIVE j de c e t t e AFC sont alors égalea + / T , VI - . Les valeurs propres LIEN AVEC L'ANALYSE HARMONIQUE VECTORIELLE Une variable qua1 i t a t i v e e s t ëquivalent à 1 'ensemble des indicatrices de ses modalité; u n processus q u a l i t a t i f à m à © t a te s t donc équivalenau Â¥A processus vectoriel a valeurs dans [ R ~ : 1 = L'analyse des correspondances multiples &tant un cas p a r t i c u l i e r de l'analyse canonique généralis (ACG), on s ' a t t e n d à ce que l'analyse hamonique q u a l i t a t i v e se déduisde 1 'analyse harmoniqued'un processus vectoriel. Nous devrons pour cela modifier l a définitiode l'analyse harmonique vector i e l l e donnë dans [a]. i . Soit X u n processus a l à © a t o i rm-dimensionnel i 2' tel que \ E ( X t ) d t <- i = l , 2 , . .m 2 1 X 2t , =(Xt, . . )x: T Â¥A Soit C l'operateur de covariance d u processus Xt t e l que C est la t,s matrice d'élémen = E ~ - 1 s iX e s t centréNous supposerons C int,t versible pour tout t. ~ 1 ~ :1x1 11 e s t c l a i r , enfin, que les codages associë aux variables t k seront des fonctions constantes sur l e s intervalles du découpage t q u ' i l s seront ( j , k ) la donnépar l a modification suivante de l'équatio ( 4 ) : (on note p X,Y valeur constante de px ( t , s ) sur l e rectangle ( t j - l , t j ) ~ ( t ~ - ~ , t ~ ) ; P x ( j ) YY e s t définde faço analogue) : P AaX z (4' 1 k -jZl y L'analyse harmonique vectorielle consiste dans l'analyse spectrale de - 1 C t . Autrement d i t on cherche l e s l'opérateuR dëduide C par RtSs = Ctt solutions f:, fonctions vectorielles certaines du temps v à © r i f i a n: G Gt = jT Cts f c ds avec J 1- dt-1 ^,t on a alors : 9 (i() 11 ne s ' a g i t évidmraenpas des hypothëse de continuità f a i t e s au para- graphe 1,nous avons aéjd i t q u ' e l l e s n'avaient rien de mlnimum. I l e s t c l a i r que, dans l e contexte de ce paragraphe, tout "marche" encore bien. (6) En posant z, variable a l à © a t o i rscalaire indépendantdu temps : Par rapport à la définitiode [4] oii 1 'on e f f e c t u a i t 1 'analyse L> ai m CL eu -3 W L +^ .P 0" m u eu > a "l 7 0 c- 3 im eu eu -3 s u "l *r- m E .P +^ s "l .,- ¥¥ a "^ + xu -0 a~ m †'eu +^ s iQ" t<U . - m "l1à u -7 aJ KO u 0 30) ' 7 "l i/" m L aJ t^-3 -3 L 0 u m w u m +^ eu 'en u 0 7 III +JI - .? 8 w a Fà 'eu 'Ct 2 C t' +^1 7 L ml CL 3 S-, "l +^l t' 2\ % 'ail D r .,m L > z a -0 al .-u L m 4 u A - "0 %-"l - . Â¥-- .e 0 e E u o 3 a - - 0 s m 5 '7 5 0 n n u s - s c u w O u 8 O e -7 ,eu "0 3 u s 0 CL m u C L L Sai- O ) -3 u *-' 0 L 3 m w eu 3.2 -x , cm '¥à 4%+^ * a S- X w u du t' i n 1 w 0 4 X e Ç= .r- eu L m iaJ c 1 1 " 0 -- x u4xu N 4 +^ w 4 J dt' x w a- m "l 0 c 'I- CL '*- S- .-s 3 S- cf ai -0 L -0 4w iaJ aJ L m +'W t-.r- I+^ F-SM I * t'u 4 'Ñà Il t-' a % ++ ^ 4 x i J x 8 N 4 m.-, 4-1 Il 0 N Cl u s 1 c 0 Fà - 0 n ?O) S- 01 - - 0 n 'O) +^ m L -3 0) (0 + - > S - n +^ .,.-u t 3 .. -"00 7 x eu c- eu eu +^ ?l VI VI ffl --g . CL , à 4-à N -- , à m 4 ' O 'aJ s E al VI s 0 u s m .r- u ai L L O y" 5X GC  8 n n m -0 U s + 7 0 VI a i - u m a l - -. s .? m u 0 4-3 HZ 0 L ' LÈà al > Ià -3 m L Ñ ai ' i l CL 1 aJ VI 'ai 'aJ L VI n m VI m - ai -3 3 0 - 'a L i n 7 aJ % VI al v .' CL 4-à m VI .r- C- 4-3. 2 uE m VI m L U u L m aJ , à rai L u ai n .r ^al s ai CL al VI '(0 aJ 4-. aJ -0 0 m U .? 4-à x E m -r "l " ml c "l -0 O -3 4-3 w n i à -3 "l ai >ai ti- u E El) 4-à u al 4 3. c aJ E 0- aJ 3 .? L ' 0 -3 E S: s u aJ 01 u Ië u 3 'il L aJ m > 7 cx E a m s 7 O 7 .-+J D 8 aJ m vl .s 'aJ u s w l - 388 J.-C. DEVILLE and G. ANALYSE HARMONIQUE QUALITATIVE SAPORTA AIMEXE : ~ u e l q u e sr à © s u l t a t concernant l ' a n a l y s e canonique g à © n à © r a l i s ( K G ) S o i e n t Xi i=1,2, ...,p l e s v a r i a b l e s canoniques 3et 3 v à © r i f i e nl a r e l a t i o n : des t a b l e a u x de donnée associé a p groupes de m. v a r i a b l e s centréesmesurée s u r n i n d i v i d u s . La d à © f i n i t i o de p-uples 1 de v a r i a b l e s canoniques si = Xi a_. n ' à © t a n pas unique e t dépendan du c r i t à © r c h o i s i ( z ) , J.D. CARROLL [2] a v a i t suggér de r e c h e r c h e r p l u t & des v a r i a b l e s (nos g à © n à © r a t r i c ecombinaisons l i n à © a i r e des an, v a r i a b les e t auxiliaires maximisant l a somme de l e u r s c a r r à © de c o r r à © l a t i o m u l t i p l e avec l e s Xi D * max i R'(& ;xi) -z 1=1 On t r o u v e immédiatemenque l e s p r o j e c t e u r s Ai s u r l e s sous-espaces Wi : l a s o m e e t l a premièr composante p r i n c i p a l e des Les p r o j e c t i o n s 1 est à l a fois si (ACP norinée) Les "_ s o n t . 1 X 1 . .1 X ) avec P C e t t e technique a p p a r a i t donc a u s s i comme une a u s s i l e s composan t e s p r i n c i p a l e s de 1 ' ACP du t a b l e a u X= (X, = viil. diag g à © n à © r a l i s a t i de llACP r à © d u i t à des groupes de v a r i a b l e s : chaque groupe e s t t r a i t à comme une v a r i a b l e r à © d u i t e t on ne t i e n t compte que des c o r r à © l a t i o n i n t e r g r o u p e s e t non i n t r a g r o u p e s . Lorsque l e s Xi s o n t des t a b l e a u x d ' i n d i c a t r i c e s l a méthod e s t i d e n - t i q u e à 1 ' a n a l y s e des correspondances m u l t i p l e s de X. [3] [g] Les r à © s u l t a t obtenus au paragraphe V se t r a n s p o s e n t aisémen à liACG en remplaçan l e s o p à © r a t e u r d'espéranc c o n d i t i o n n e l l e ~ ~ l e s par o j e cr t e u r s A. Avec 1. = 1 l ' à © q u a t i o (1') d e v i e n t : -Y = & , , Le v e c t e u r 1 . 5'. ) a n p composantes obtenu en e m p i l a n t l e s j_ : e s t a l o r s v e c t e u r p r o p r e de l a m a t r i c e K de t a i l l e np . d o n t l e s b l o c s s o n t l e s p r o d u i t s A, A. J ' C e t t e p r o p r i à « t g à © n à © r a l i de manièr n a t u r e l l e l a p r o p r i à © t s u i v a n t e ( i n à © d i t à n o t r e connaissance) de l ' a n a l y s e canonique o r d i n a i r e de deux t a b l e a u x XI e t X, K à © t a n deux a deux orthogonaux on o b t i e n t dmilorthogonalità f a i b l e " [3] des 5, a l o r s immédiatemen l a p r o p r i à © t : s o n t v e c t e u r s propres de lasomme des engendré p a r l e s Xi. = Ai "_ c o n s t i t u e n t a l o r s un systém de v a r i a b l e s canoniques.^ pour m à « t r i q u H 00 r e s t l e c o e f f i c i e n t de c o r r à © l a t i o canonique. Les v e c t e u r s p r o p r e s de i (È II y a a u t a n t de g à © n à © r a l i s a t i ode l ' a n a l y s e canonique que de façon de d à © f i n i l a l i a i s o n globale entre p variables. q u i complét l a p r o p r i à © t d ' o r t h o g o n a l i t e des z : r(zsi l ; 15.) = 6kl