Prise en compte de la durée de séjour dans la classification

Transcription

Prise en compte de la durée de séjour dans la classification
Prise en compte de la durée de séjour dans la classification
de données biographiques.
Estacio-Moreno Alexander1,2, Artières Thierry1, Gallinari Patrick1
1
Laboratoire d'informatique de Paris 6,
Université Paris 6,
8 rue du Capitaine Scott
75015 Paris
2
UR 079 - 013,
Institut de Recherche pour le Développement,
32 ave. Henri Varagnat
93143 Bondy CEDEX
RÉSUMÉ.
La mobilité, dans ses différentes dimensions (résidentielle, professionnelle, etc.), caractérise et différencie les
individus et les groupes sociaux et devient un élément central pour l’analyse et la compréhension des dynamiques et
des recompositions urbaines. Cependant, l’analyse des données biographiques qui décrivent les différentes formes
de mobilité pose encore d’importants problèmes méthodologiques.
Nous présentons ici une méthode pour faire de la classification de données biographiques, utilisant un mélange de
densités. Nous proposons d’utiliser des modèles semi-markoviens pour prendre en compte la durée de séjour dans
les états. Le cadre est assez général pour qu’il soit appliqué à n’importe quel type de données séquentielles, où la
durée de séjour dans les états est importante. Nous détaillons enfin l’application de cette méthode à l’étude de la
mobilité résidentielle à partir des données d’une enquête rétrospective.
MOTS-CLÉS : Données biographiques, mobilité résidentielle, mélange de densités, modèles semi-markoviens.
1
Introduction
Les sources statistiques principales pour l’étude fine des phénomènes qui reposent sur les comportements
démographiques, économiques et sociaux individuels et collectifs et de leur dynamique à différentes
échelles spatiales et temporelles (mobilités) sont les enquêtes biographiques rétrospectives. Dans ces
enquêtes sont recueillies, sur un échantillon d’individus, des trajectoires définies par les changements
d’état des variables résidentielles, professionnelles, d’événements familiaux, etc.
Par l’analyse de données sur ces mobilités (données biographiques) on cherche à décrire et relier entre
elles les différentes formes de mobilité pour comprendre leurs interactions et leur impact sur la réalité
sociale. Ces dernières années ont vu des avancées significatives dans l’analyse des données biographiques.
En statistique on peut utiliser une approche modélisatrice, avec des modèles log-linéaires, des modèles
logit et probit, des modèles de survie de Cox ... ([COX 84, COU89]). Si l’on s’intéresse, par exemple, aux
trajectoires résidentielles d’une certaine population, cette approche permet de répondre à la question :
quelles sont les déterminants de l’ascension socio-résidentielle ? Egalement, on peut utiliser l’analyse
typologique, qui est basée sur des méthodes désormais classiques en analyse des données : ACP, AFC, et
classifications automatiques (nuées dynamiques etc., cf. [LEB 02], l’AHQ [DEV 80]). Cette approche
quant à elle permettrait, dans l’exemple antérieur, de répondre à la question : Existe-il une (des)
structure(s) dominante(s) dans les parcours résidentiels de la population ?
Nous nous plaçons dans le second type d’approche. Nous abordons la classification de trajectoires comme
étant un problème d’estimation de densité de probabilité, et nous proposons d’utiliser un mélange de
densités. En utilisant ensuite des données issues d’une enquête effectuée à Cali (Colombie) en 1998, nous
montrons comment cette méthode est applicable à des données biographiques. Nous nous intéressons, tout
particulièrement, à l’analyse de l’effet de l’introduction de la durée de séjour dans les états, lorsque les
densités composantes du mélange sont des modèles de Markov.
2
Mélange de densités semimarkoviennes
Dans l’estimation de densités on essaie de modéliser une densité de probabilité p(x) à partir des données
observées X = (x1 , x 2 , ... , x N ) , que l’on suppose issues de cette densité. Un mélange de densités est une
distribution de la forme :
K
p( x ) = ∑ p ( x / k )P(k ) ,
K
∑ P(k ) = 1
avec
k =1
et
1≤ k ≤ K
(1)
k =1
où K est le nombre de composantes du mélange, les P(k ) sont les paramètres du mélange (la probabilité a
priori pour que la donnée x ait été générée par la composante k du mélange), et les p(x / k ) sont les
densités composantes. Dans notre cas ces densités sont définies sur des séquences.
{
Soit x i = ei ,1 , ei , 2 ,. ... ei ,Ti
} la trajectoire de l’individu i ; où les
e sont des états discrets de l'espace
d'états E ( 1 ≤ e ≤ m ), ei ,t , est l’état à l’instant t de la trajectoire de l’individu i et Ti , est la longueur de la
trajectoire de l’individu i. Pour effectuer la classification par mélange de densités on peut réécrire (1) ainsi :
K
p( xi / Θ ) = ∑ p( xi / Θ k )P( k )
(2)
k =1
où K est le nombre de classes et Θ représente les paramètres du modèle {P(1), ... , P( K ) ; Θ1 , ... , Θ K } .
Voir [EST 04] pour le cadre permettant d’effectuer la classification par mélange de densités, où l’on
apprend les paramètres par l’algorithme EM [DEM 77], lorsque les densités sont des modèles de Markov.
Dans les données biographiques la durée passée dans les états est très importante. Cependant, les modèles
de Markov classiques ne permettent pas de bien modéliser la durée passée dans un état donné. Dans un
modèle de Markov la densité de durée (la probabilité de rester une durée d dans l’état e), notée p( d / e) ,
suit une distribution exponentielle qui ne dépend que de a ee (la probabilité de boucler dans l’état e) :
p ( d / e) = (a ee ) d −1 (1 − a ee )
(3)
Pour que le modèle rende compte de certains traits signifiants des trajectoires, par exemple pour les
trajectoires résidentielles : les durées de séjour dans certains espaces géographiques (une région, une ville,
…), il est préférable d’expliciter d’une façon analytique la densité de durée p (d / e) dans le modèle. [FER
80] a spécifié pour chaque état du modèle, une densité de durée non paramétrique. Nous allons spécifier
une densité de durée paramétrique dans un modèle de Markov. Pour faire intervenir explicitement les
durées associées aux états on réécrit la trajectoire de l’individu i, xi , ainsi :
{
xi = (ei ,1 , d i ,1 ), (ei , 2 , d i , 2 ),....
(e
i , NEi
, d i , NE
i
)},
(4)
où : ei , j est le jème état de la trajectoire et ei , j ≠ ei , j −1 , d i , j est la durée passée par l’individu i dans le jème
état de sa trajectoire et NEi est le nombre d’états de la trajectoire. Donc, la vraisemblance d’une
trajectoire conditionnée par son appartenance à une classe particulier Θ k est donnée par :
NEi
p(x i / Θ k ) = π k (ei ,1 ) p k (d i ,1 / ei ,1 )∏ a k (ei , j / ei , j −1 ) p k (d i , j / ei , j )
j =2
(5)
où π k (ei ,1 ) est le vecteur de probabilité d'état initial et a k (et / et −1 ) la matrice m x m de probabilités de
transition.
 (d − µ )2 
1
Si la durée dans chaque état suit une loi Normale : N (µ , σ 2 , d ) =
exp
 , alors,
−
(2πσ 2 )1 / 2  2σ 2 
p(d / e ) =
N (µ (e), σ 2 (e), d )
∑ N (µ (e), σ
d max
2
(e), d
'
(Loi normale discrétisée avec d min ≤ d ≤ d max )
)
(6)
d ' = d min
Pour effectuer la classification, on apprend les paramètres du mélange de densités par l’algorithme EM :
Etape E: on calcule les probabilités a posteriori p(i ∈ k / xi , Θ )
p( x / Θ k )P (k )
p(i ∈ k / xi , Θ ) = K i
(7)
∑ p(xi / Θ u )P(u )
u =1
Etape M: on actualise les paramètres courants Θ, en pondérant chaque individu par p(i ∈ k / xi , Θ )
∑ p(i ∈ k / x , Θ)δ (s
N
P(k )
Nouveau
1
=
N
N
∑ p(i ∈ k / x , Θ)
π
i
Nouveau
k
(s ) =
p
i =1
i
p
, ei ,1 )
i =1
N
∑ p(i ∈ k / x , Θ)
i
i =1
N
a kNouveau (s q / s p ) =
∑ p(i ∈ k / x , Θ)r
i
s p → sq
i
i =1
N
∑ p(i ∈ k / x , Θ)r
i
où p ≠ q ,
(8)
sp →
i
i =1
NS is
N
µ kNouveau (s ) =
∑ p(i ∈ k / xi , Θ)∑ d
i =1
j =1
N
∑ p(i ∈ k / x , Θ)NS
i
i =1
ri
s p → sq
 NS
s
i
, σ k2
Nouveau
(s ) =
2
s
i

∑ p(i ∈ k / xi , Θ)∑ [(d is, j ) − (µ k (s))] 
N
s
i, j
 j =1
i =1

N
∑ p(i ∈ k / x , Θ)NS
i
s
i
i =1
étant le compte des transitions depuis l'état s p à l'état sq dans la trajectoire de l'individu i, ri
sp →
le
compte des transitions depuis l'état s p à n'importe quel état dans la trajectoire de l'individu i, d is, j la durée
du jème séjour de l’individu i dans l’état s et NS is est le nombre de séjours de l’individu i dans l’état s.
L’apprentissage du nombre de classes est un problème ouvert. Il existe cependant des méthodes qui essaient
d’en donner des réponses : pénalisation de la vraisemblance (AIC, BIC), coude de la vraisemblance, etc.
3
Expériences et résultats
La méthode a été appliquée à 1749 trajectoires socio-résidentielles géographiques (changement de
résidence à l’intérieur de Cali), ayant 5 changements en moyenne. Quatre modèles différents ont été
utilisés comme densités du mélange : un modèle de Markov et trois modèles semi-markoviens avec des
lois de durée Normale (N), Poisson (P) et Log-Normale (LN). Les critères BIC et AIC ont été testés pour
déterminer le nombre de classes mais ils se sont montrés inappropriées pour ce type de densités
composantes. Ce nombre a donc été déterminé par la méthode du coude de la vraisemblance. Nous avons
établit une mesure d’Homogénéité Intra-classe, notée HI, permettant d’évaluer la cohésion des individus
dans les classes. Egalement, nous mesurons l’instant de sortie de la censure (noté ISC) d’au moins le 50 %
des individus de chaque classe. Cette mesure par classe permet d’analyser l’ensemble des classes selon la
longueur des trajectoires. Le tableau 1 montre le résultat pour les mesures HI et ISC. La dernière ligne du
tableau est le HI globale et l’écart type de l’ISC.
Globalement, une meilleure cohésion des individus aux classes est obtenue lorsqu’on introduit
explicitement la durée de séjour. La définition d’une loi pour les durées de séjour des individus dans les
états, fait qu’ils sont mieux attachés aux classes dont ils font partie. De plus, une meilleure différentiation
des classes est observée à partir de la longueur moyenne des trajectoires : les ISC sont proches dans la
typologie sans durée explicite (M a un écart type très petit), et plus distants dans celles avec durée
explicite (écart types sont plus élevés). La taille moyenne des classes est de 168 individus. L’interprétation
des classes est facilitée avec l’introduction d’une loi de durée. Pour les 10 classes de la classification avec
une loi de durée Normal (N) l’interprétation montre des parcours socio-résidentiels bien différentiées à Cali.
Mesure
HI
ISC
Classe
M
N
P
LN
M
N
P
LN
1
0,86
0,95
0,98
0,96
36
18
46
36
2
1,00
0,95
1,00
0,91
47
47
34
47
3
0,75
0,99
0,94
0,94
40
35
45
49
4
0,85
1,00
1,00
0,98
39
51
10
25
5
0,65
0,99
1,00
0,91
36
21
31
28
6
0,82
0,97
0,99
0,94
45
45
19
42
7
0,98
1,00
0,94
0,92
36
47
36
51
8
0,71
1,00
0,99
1,00
49
55
53
51
9
0,95
0,99
0,96
1,00
43
32
31
55
10
0,84
0,99
1,00
0,93
37
41
20
40
HIG-ET
0,78
0,98
0,98
0,95
4,89
L’homogénéité Intra-Classe, qui reflète
la facilité d’interprétation des classes, est
calculée à partir des probabilités a
posteriori, ainsi :
HI k =
δ i = 0

δ i = 1
si
si
∑δ
i∈k
nk
i
, où :
p(i ∈ k / x i , Θ ) < 0,5
p(i ∈ k / xi , Θ ) ≥ 0,5
12,46 13,43 10,16
Tableau 1. HI - ISC
4
Conclusions
Nous avons abordé le problème de la prise en compte de la durée de séjour dans la classification de
données biographiques. Nous avons présenté une méthode pour modéliser explicitement cette durée de
séjour. Les densités composantes deviennent des modèles semi-markoviens. Nous avons montré, par un
exemple, comment on peut apprendre les paramètres du mélange de densités semi-markoviennes avec
l’algorithme EM. Nous avons réussi à relever l’importance des durées de séjour, ce qui est traduit par des
classes plus stables (des individus mieux attachés aux classes) et mieux séparées selon la longueur de
trajectoires. Il est apparu que les modèles semi-markoviens permettent d’obtenir des meilleurs résultats
que les modèles markoviens (sans durée explicite). Cette méthode est applicable à n’importe quelle type
de données séquentielles où la durée de séjour dans les états est importante.
5
Bibliographie
[COU 89] COURGEAU D. et LELIÈVRE E., (1989), Analyse démographique des biographies, INED,
Paris, 268 p.
[COX 84] COX D. R. and OAKES D., (1984), Analysis of survival data, Chapman y Hall, Londres, 201 p.
[DEM 77] DEMPSTER A. P., LAIRD N. M., and RUBIN D. B. (1977). Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, n° 34, pp.1-38.
[DEV 80] DEVILLE J.C., SAPORTA G., (1980), Analyse harmonique qualitative, in Data Analysis and
Informatics, E. DIDAY et al. éditeurs, North Holland Publishing Compagny, pp. 375-389.
[EST 04] ESTACIO MORENO A., BARBARY O., GALLINARI P., PIRON M., (2004), Classification
de données biographiques : application à des trajectoires migratoires vers Cali (Colombie). In Revue
de Statistique Appliquée, vol. LII (4). pp. 33-54.
[FER 80] FERGUSON J.D., (1980) Variable duration models for speech. In J.D. Ferguson, editor, Proc.
Symposium on the Application of Hidden Markov Models to Text and Speech, Princeton, NJ. pp 143-179.
[LEB 02] LEBART L., MORINEAU A., PIRON
multidimensionnelle. Paris, 2002, éd. Dunod, 437 p
M.,
(2002),
Statistique
exploratoire