Prise en compte de la durée de séjour dans la classification
Transcription
Prise en compte de la durée de séjour dans la classification
Prise en compte de la durée de séjour dans la classification de données biographiques. Estacio-Moreno Alexander1,2, Artières Thierry1, Gallinari Patrick1 1 Laboratoire d'informatique de Paris 6, Université Paris 6, 8 rue du Capitaine Scott 75015 Paris 2 UR 079 - 013, Institut de Recherche pour le Développement, 32 ave. Henri Varagnat 93143 Bondy CEDEX RÉSUMÉ. La mobilité, dans ses différentes dimensions (résidentielle, professionnelle, etc.), caractérise et différencie les individus et les groupes sociaux et devient un élément central pour l’analyse et la compréhension des dynamiques et des recompositions urbaines. Cependant, l’analyse des données biographiques qui décrivent les différentes formes de mobilité pose encore d’importants problèmes méthodologiques. Nous présentons ici une méthode pour faire de la classification de données biographiques, utilisant un mélange de densités. Nous proposons d’utiliser des modèles semi-markoviens pour prendre en compte la durée de séjour dans les états. Le cadre est assez général pour qu’il soit appliqué à n’importe quel type de données séquentielles, où la durée de séjour dans les états est importante. Nous détaillons enfin l’application de cette méthode à l’étude de la mobilité résidentielle à partir des données d’une enquête rétrospective. MOTS-CLÉS : Données biographiques, mobilité résidentielle, mélange de densités, modèles semi-markoviens. 1 Introduction Les sources statistiques principales pour l’étude fine des phénomènes qui reposent sur les comportements démographiques, économiques et sociaux individuels et collectifs et de leur dynamique à différentes échelles spatiales et temporelles (mobilités) sont les enquêtes biographiques rétrospectives. Dans ces enquêtes sont recueillies, sur un échantillon d’individus, des trajectoires définies par les changements d’état des variables résidentielles, professionnelles, d’événements familiaux, etc. Par l’analyse de données sur ces mobilités (données biographiques) on cherche à décrire et relier entre elles les différentes formes de mobilité pour comprendre leurs interactions et leur impact sur la réalité sociale. Ces dernières années ont vu des avancées significatives dans l’analyse des données biographiques. En statistique on peut utiliser une approche modélisatrice, avec des modèles log-linéaires, des modèles logit et probit, des modèles de survie de Cox ... ([COX 84, COU89]). Si l’on s’intéresse, par exemple, aux trajectoires résidentielles d’une certaine population, cette approche permet de répondre à la question : quelles sont les déterminants de l’ascension socio-résidentielle ? Egalement, on peut utiliser l’analyse typologique, qui est basée sur des méthodes désormais classiques en analyse des données : ACP, AFC, et classifications automatiques (nuées dynamiques etc., cf. [LEB 02], l’AHQ [DEV 80]). Cette approche quant à elle permettrait, dans l’exemple antérieur, de répondre à la question : Existe-il une (des) structure(s) dominante(s) dans les parcours résidentiels de la population ? Nous nous plaçons dans le second type d’approche. Nous abordons la classification de trajectoires comme étant un problème d’estimation de densité de probabilité, et nous proposons d’utiliser un mélange de densités. En utilisant ensuite des données issues d’une enquête effectuée à Cali (Colombie) en 1998, nous montrons comment cette méthode est applicable à des données biographiques. Nous nous intéressons, tout particulièrement, à l’analyse de l’effet de l’introduction de la durée de séjour dans les états, lorsque les densités composantes du mélange sont des modèles de Markov. 2 Mélange de densités semimarkoviennes Dans l’estimation de densités on essaie de modéliser une densité de probabilité p(x) à partir des données observées X = (x1 , x 2 , ... , x N ) , que l’on suppose issues de cette densité. Un mélange de densités est une distribution de la forme : K p( x ) = ∑ p ( x / k )P(k ) , K ∑ P(k ) = 1 avec k =1 et 1≤ k ≤ K (1) k =1 où K est le nombre de composantes du mélange, les P(k ) sont les paramètres du mélange (la probabilité a priori pour que la donnée x ait été générée par la composante k du mélange), et les p(x / k ) sont les densités composantes. Dans notre cas ces densités sont définies sur des séquences. { Soit x i = ei ,1 , ei , 2 ,. ... ei ,Ti } la trajectoire de l’individu i ; où les e sont des états discrets de l'espace d'états E ( 1 ≤ e ≤ m ), ei ,t , est l’état à l’instant t de la trajectoire de l’individu i et Ti , est la longueur de la trajectoire de l’individu i. Pour effectuer la classification par mélange de densités on peut réécrire (1) ainsi : K p( xi / Θ ) = ∑ p( xi / Θ k )P( k ) (2) k =1 où K est le nombre de classes et Θ représente les paramètres du modèle {P(1), ... , P( K ) ; Θ1 , ... , Θ K } . Voir [EST 04] pour le cadre permettant d’effectuer la classification par mélange de densités, où l’on apprend les paramètres par l’algorithme EM [DEM 77], lorsque les densités sont des modèles de Markov. Dans les données biographiques la durée passée dans les états est très importante. Cependant, les modèles de Markov classiques ne permettent pas de bien modéliser la durée passée dans un état donné. Dans un modèle de Markov la densité de durée (la probabilité de rester une durée d dans l’état e), notée p( d / e) , suit une distribution exponentielle qui ne dépend que de a ee (la probabilité de boucler dans l’état e) : p ( d / e) = (a ee ) d −1 (1 − a ee ) (3) Pour que le modèle rende compte de certains traits signifiants des trajectoires, par exemple pour les trajectoires résidentielles : les durées de séjour dans certains espaces géographiques (une région, une ville, …), il est préférable d’expliciter d’une façon analytique la densité de durée p (d / e) dans le modèle. [FER 80] a spécifié pour chaque état du modèle, une densité de durée non paramétrique. Nous allons spécifier une densité de durée paramétrique dans un modèle de Markov. Pour faire intervenir explicitement les durées associées aux états on réécrit la trajectoire de l’individu i, xi , ainsi : { xi = (ei ,1 , d i ,1 ), (ei , 2 , d i , 2 ),.... (e i , NEi , d i , NE i )}, (4) où : ei , j est le jème état de la trajectoire et ei , j ≠ ei , j −1 , d i , j est la durée passée par l’individu i dans le jème état de sa trajectoire et NEi est le nombre d’états de la trajectoire. Donc, la vraisemblance d’une trajectoire conditionnée par son appartenance à une classe particulier Θ k est donnée par : NEi p(x i / Θ k ) = π k (ei ,1 ) p k (d i ,1 / ei ,1 )∏ a k (ei , j / ei , j −1 ) p k (d i , j / ei , j ) j =2 (5) où π k (ei ,1 ) est le vecteur de probabilité d'état initial et a k (et / et −1 ) la matrice m x m de probabilités de transition. (d − µ )2 1 Si la durée dans chaque état suit une loi Normale : N (µ , σ 2 , d ) = exp , alors, − (2πσ 2 )1 / 2 2σ 2 p(d / e ) = N (µ (e), σ 2 (e), d ) ∑ N (µ (e), σ d max 2 (e), d ' (Loi normale discrétisée avec d min ≤ d ≤ d max ) ) (6) d ' = d min Pour effectuer la classification, on apprend les paramètres du mélange de densités par l’algorithme EM : Etape E: on calcule les probabilités a posteriori p(i ∈ k / xi , Θ ) p( x / Θ k )P (k ) p(i ∈ k / xi , Θ ) = K i (7) ∑ p(xi / Θ u )P(u ) u =1 Etape M: on actualise les paramètres courants Θ, en pondérant chaque individu par p(i ∈ k / xi , Θ ) ∑ p(i ∈ k / x , Θ)δ (s N P(k ) Nouveau 1 = N N ∑ p(i ∈ k / x , Θ) π i Nouveau k (s ) = p i =1 i p , ei ,1 ) i =1 N ∑ p(i ∈ k / x , Θ) i i =1 N a kNouveau (s q / s p ) = ∑ p(i ∈ k / x , Θ)r i s p → sq i i =1 N ∑ p(i ∈ k / x , Θ)r i où p ≠ q , (8) sp → i i =1 NS is N µ kNouveau (s ) = ∑ p(i ∈ k / xi , Θ)∑ d i =1 j =1 N ∑ p(i ∈ k / x , Θ)NS i i =1 ri s p → sq NS s i , σ k2 Nouveau (s ) = 2 s i ∑ p(i ∈ k / xi , Θ)∑ [(d is, j ) − (µ k (s))] N s i, j j =1 i =1 N ∑ p(i ∈ k / x , Θ)NS i s i i =1 étant le compte des transitions depuis l'état s p à l'état sq dans la trajectoire de l'individu i, ri sp → le compte des transitions depuis l'état s p à n'importe quel état dans la trajectoire de l'individu i, d is, j la durée du jème séjour de l’individu i dans l’état s et NS is est le nombre de séjours de l’individu i dans l’état s. L’apprentissage du nombre de classes est un problème ouvert. Il existe cependant des méthodes qui essaient d’en donner des réponses : pénalisation de la vraisemblance (AIC, BIC), coude de la vraisemblance, etc. 3 Expériences et résultats La méthode a été appliquée à 1749 trajectoires socio-résidentielles géographiques (changement de résidence à l’intérieur de Cali), ayant 5 changements en moyenne. Quatre modèles différents ont été utilisés comme densités du mélange : un modèle de Markov et trois modèles semi-markoviens avec des lois de durée Normale (N), Poisson (P) et Log-Normale (LN). Les critères BIC et AIC ont été testés pour déterminer le nombre de classes mais ils se sont montrés inappropriées pour ce type de densités composantes. Ce nombre a donc été déterminé par la méthode du coude de la vraisemblance. Nous avons établit une mesure d’Homogénéité Intra-classe, notée HI, permettant d’évaluer la cohésion des individus dans les classes. Egalement, nous mesurons l’instant de sortie de la censure (noté ISC) d’au moins le 50 % des individus de chaque classe. Cette mesure par classe permet d’analyser l’ensemble des classes selon la longueur des trajectoires. Le tableau 1 montre le résultat pour les mesures HI et ISC. La dernière ligne du tableau est le HI globale et l’écart type de l’ISC. Globalement, une meilleure cohésion des individus aux classes est obtenue lorsqu’on introduit explicitement la durée de séjour. La définition d’une loi pour les durées de séjour des individus dans les états, fait qu’ils sont mieux attachés aux classes dont ils font partie. De plus, une meilleure différentiation des classes est observée à partir de la longueur moyenne des trajectoires : les ISC sont proches dans la typologie sans durée explicite (M a un écart type très petit), et plus distants dans celles avec durée explicite (écart types sont plus élevés). La taille moyenne des classes est de 168 individus. L’interprétation des classes est facilitée avec l’introduction d’une loi de durée. Pour les 10 classes de la classification avec une loi de durée Normal (N) l’interprétation montre des parcours socio-résidentiels bien différentiées à Cali. Mesure HI ISC Classe M N P LN M N P LN 1 0,86 0,95 0,98 0,96 36 18 46 36 2 1,00 0,95 1,00 0,91 47 47 34 47 3 0,75 0,99 0,94 0,94 40 35 45 49 4 0,85 1,00 1,00 0,98 39 51 10 25 5 0,65 0,99 1,00 0,91 36 21 31 28 6 0,82 0,97 0,99 0,94 45 45 19 42 7 0,98 1,00 0,94 0,92 36 47 36 51 8 0,71 1,00 0,99 1,00 49 55 53 51 9 0,95 0,99 0,96 1,00 43 32 31 55 10 0,84 0,99 1,00 0,93 37 41 20 40 HIG-ET 0,78 0,98 0,98 0,95 4,89 L’homogénéité Intra-Classe, qui reflète la facilité d’interprétation des classes, est calculée à partir des probabilités a posteriori, ainsi : HI k = δ i = 0 δ i = 1 si si ∑δ i∈k nk i , où : p(i ∈ k / x i , Θ ) < 0,5 p(i ∈ k / xi , Θ ) ≥ 0,5 12,46 13,43 10,16 Tableau 1. HI - ISC 4 Conclusions Nous avons abordé le problème de la prise en compte de la durée de séjour dans la classification de données biographiques. Nous avons présenté une méthode pour modéliser explicitement cette durée de séjour. Les densités composantes deviennent des modèles semi-markoviens. Nous avons montré, par un exemple, comment on peut apprendre les paramètres du mélange de densités semi-markoviennes avec l’algorithme EM. Nous avons réussi à relever l’importance des durées de séjour, ce qui est traduit par des classes plus stables (des individus mieux attachés aux classes) et mieux séparées selon la longueur de trajectoires. Il est apparu que les modèles semi-markoviens permettent d’obtenir des meilleurs résultats que les modèles markoviens (sans durée explicite). Cette méthode est applicable à n’importe quelle type de données séquentielles où la durée de séjour dans les états est importante. 5 Bibliographie [COU 89] COURGEAU D. et LELIÈVRE E., (1989), Analyse démographique des biographies, INED, Paris, 268 p. [COX 84] COX D. R. and OAKES D., (1984), Analysis of survival data, Chapman y Hall, Londres, 201 p. [DEM 77] DEMPSTER A. P., LAIRD N. M., and RUBIN D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, n° 34, pp.1-38. [DEV 80] DEVILLE J.C., SAPORTA G., (1980), Analyse harmonique qualitative, in Data Analysis and Informatics, E. DIDAY et al. éditeurs, North Holland Publishing Compagny, pp. 375-389. [EST 04] ESTACIO MORENO A., BARBARY O., GALLINARI P., PIRON M., (2004), Classification de données biographiques : application à des trajectoires migratoires vers Cali (Colombie). In Revue de Statistique Appliquée, vol. LII (4). pp. 33-54. [FER 80] FERGUSON J.D., (1980) Variable duration models for speech. In J.D. Ferguson, editor, Proc. Symposium on the Application of Hidden Markov Models to Text and Speech, Princeton, NJ. pp 143-179. [LEB 02] LEBART L., MORINEAU A., PIRON multidimensionnelle. Paris, 2002, éd. Dunod, 437 p M., (2002), Statistique exploratoire