retrouver les diapositives de cet exposé.

Transcription

retrouver les diapositives de cet exposé.
Modélisation des réseaux à l’aide de modèles
de graphes aléatoires
P. L.
Université Paris 1 Panthéon-Sorbonne
Laboratoire SAMM
Maths en mouvement 2014
P. L.
1
Plan
Introduction
Les réseaux
Clustering dans les réseaux
Modèle à blocs stochastiques
Le modèle
Modèle à blocs stochastiques chevauchants
Inférence
Blogosphère politique française
P. L.
2
Exemple de réseau social (Facebook)
P. L.
3
“Chaque utilisateur a dessiné ce que les spécialistes appellent
le social graph, la cartographie de ses relations qui est en
passe de devenir la carte d’identité ultime [...]”
F. Filloux, Facebook tisse sa toile, Le Monde Magazine
P. L.
4
6 degrés de séparation
P. L.
5
Sanyo
Microsoft
RIM
Motorola
Samsung
Smartphone.T
HTC
Kodak
apple
y.Ericsson
Google
LG.Group
ELAN
sharp
nokia
qualcomm
Oracle
Hitachi
Qui porte plainte contre qui ?
P. L.
6
Mohamed Abdi
Abdussattar Shaikh
Ahmed Alnami
Nawaf Alhazmi
Khalid Almihdhar
Majed Moqed
Saeed Alghamdi
NabilHijazi
al−Marabh
Raed
Ahmed Alghamdi
Salem Alhazmi
Faisal Al Salmi
Hamza Alghamdi
Mohand Alshehri
Satam M. A. Al Suqami
Hani Hanjour
Ahmed Ibrahim
A. Al Haznawi
Abdulaziz Alomari
Rayed Mohammed Abdullah
Lotfi Raissi
Ziad Samir Jarrah
ez Rashid Ahmed Hassan Al Qadi Banihammad
Marwan Al−Shehhi
Wail M. Alshehri
Waleed M. Alshehri
Ramzi Omar
Mohamed Atta
Shaykh Saiid
Mamoun Darkazanli
Said Bahaji
Zakariya Essabar
Ahmed Khalil Ibrahim Samir Al−Ani
Habib Zacarias Moussaoui
Mamduh Mahmud Salim
Réseau de terroristes
P. L.
7
Les réseaux
I
I
I
En sciences :
I
World Wide Web
I
Biologie, sociologie,
physique
Données:
I
Interaction entre N
objets
I
O(N 2 ) interactions
possibles
Réseau :
I
P. L.
Décrit les interactions
entre les noeuds
Blogosphère politique française.
8
En biologie
Réseau métabolique d’Escherichia coli (Lacroix et al., 2006).
P. L.
9
En biologie
Réseau de régulation de la levure (Milo et al., 2002).
P. L.
10
Les réseaux
I
Propriétés :
I
I
I
I
I
Creux : m = O(N )
Composante géante
Hétérogénéité
Attachement préférentiel
Petit monde
,→ Structures (groupes de noeuds)
P. L.
11
Les réseaux
I
Propriétés :
I
I
I
I
I
Creux : m = O(N )
Composante géante
Hétérogénéité
Attachement préférentiel
Petit monde
,→ Structures (groupes de noeuds)
P. L.
11
Clustering dans les réseaux
I
Méthodes existantes
cherchent :
I
I
I
P. L.
Communautés
“Disassortative mixing”
Structures hétérogènes
12
Clustering dans les réseaux
I
Méthodes existantes
cherchent :
I
I
I
P. L.
Communautés
“Disassortative mixing”
Structures hétérogènes
12
Clustering dans les réseaux
I
Méthodes existantes
cherchent :
I
I
I
P. L.
Communautés
“Disassortative mixing”
Structures hétérogènes
12
Clustering dans les réseaux
I
Méthodes existantes
cherchent :
I
I
I
P. L.
Communautés
“Disassortative mixing”
Structures hétérogènes
12
Stochastic Block Model (SBM)
I
Nowicki and Snijders (2001)
I
I
I
premiers travaux: Govaert et al. (1977)
Zi variables latentes:
I
Zi ∼ M 1, α = (α1 , α2 , . . . , αK )
I
Zik = 1 : noeud i appartient à la classe k
X | Z arêtes tirées :
Xij |{Zik Zjl = 1} ∼ B(πkl )
I
Modèle de mélange pour graphe:
Xij ∼
K X
K
X
αk αl B(πkl )
k=1 l=1
P. L.
13
π••
6
π••
5
7
3
π••
4
1
8
2
π••
9
P. L.
π••
10
14
Maximum de vraisemblance
I
Log-vraisemblance du modèle :
I
I
Données observées: log p(X | α, Π) = log {
,→ K N termes
P
Z
p(X, Z | α, Π)}
algorithme “Expectation Maximization” (EM) nécessite
p(Z | X, α, Π)
Problème
p(Z | X, α, Π) pas de forme analytique
Variational EM
Daudin et al. (2008)
P. L.
15
Maximum de vraisemblance
I
Log-vraisemblance du modèle :
I
I
Données observées: log p(X | α, Π) = log {
,→ K N termes
P
Z
p(X, Z | α, Π)}
algorithme “Expectation Maximization” (EM) nécessite
p(Z | X, α, Π)
Problème
p(Z | X, α, Π) pas de forme analytique
Variational EM
Daudin et al. (2008)
P. L.
15
Maximum de vraisemblance
I
Log-vraisemblance du modèle :
I
I
Données observées: log p(X | α, Π) = log {
,→ K N termes
P
Z
p(X, Z | α, Π)}
algorithme “Expectation Maximization” (EM) nécessite
p(Z | X, α, Π)
Problème
p(Z | X, α, Π) pas de forme analytique
Variational EM
Daudin et al. (2008)
P. L.
15
Dans les réseaux
Palla et al. (2006)
Problème
Le modèle à blocs stochastiques (comme la plupart des autres
modèles) fait l’hypothèse qu’un noeud appartient à un groupe
et un seul
P. L.
16
Stochastic Block Model(SBM)
I
Nowicki and Snijders (2001)
I
Zi variables latentes:
Zi ∼ M 1, α = (α1 , α2 , . . . , αK )
P. L.
17
Overlapping Stochastic Block model (OSBM)
I
Latouche et al. (2011)
I
Zik variables latentes:
Zi ∼
K
Y
k=1
P. L.
B(Zik ; αk ) =
K
Y
αkZik (1 − αk )1−Zik
k=1
17
Overlapping Stochastic Block model (OSBM)
I
Latouche et al. (2011)
I
X | Z arêtes tirées:
I
I
ΠZi ,Zj = g aZi ,Zj
W∗
aZi ,Zj = Z|i W Zj + Z|i U + V| Zj + |{z}
| {z } | {z } | {z }
i↔j
I
P. L.
Xij | Zi , Zj ∼ B Xij ; ΠZi ,Zj )
i →?
?→j
bias
g(t) = 1/ (1 + exp(−t)) fonction logistique
17
OSBM
I
I
I
I
P. L.
Z̃i = (Zi , 1)|
W U
W̃ =
V| W ∗
|
aZi ,Zj = Z̃i W̃ Z̃j
n
o
Paramètres : α, W̃
18
q Transformation
Décomposition
log p(X) = L(r) + KL(r||p)
où
L(r) =
XZ
Z
r(Z, α, W̃) log
p(X | Z, W̃)p(Z | α)p(α)p(W̃) d α d W̃
r(Z, α, W̃)
Borne inf
log p(X) ≥ L(r)
Problème
L(r) forme trop complexe ,→ ??
P. L.
19
ξ Transformation
Borne inf
log p(X) = log
(
XZ
)
p(X | Z, W̃)p(Z | α)p(α)p(W̃)d α d W̃
Z
≥ L(ξ)
où
L(ξ) = log
(
XZ
)
h(Z, W̃, ξ)p(Z | α)p(α)p(W̃)d α d W̃
Z
P. L.
20
ξ Transformation
Décomposition
L(ξ) = L(r; ξ) + KL(r||p)
où
L(r; ξ)
XZ
h(Z, W̃, ξ)p(Z | α)p(α)p(W̃) =
r(Z, α, W̃) log
dαd W̃
r(Z,
α,
W̃)
Z
Borne inf
log p(X) ≥ L(ξ) ≥ L(r; ξ)
P. L.
21
Blogosphère politique française
analysts others
UMP
UDF
liberal
PS
cluster 1 30 + 3
0+1
0
0
0+1
0
cluster 2 2 + 3
29 + 1
0
0
1+3
0
cluster 3
0
0
24
0
1+1
0
cluster 4
0
0+2
0
40
0+4
1
outliers
5
1
1
17
5
30
Clustering des blogs en K = 4 clusters en utilisant OSBM. 196
noeuds, 2864 arêtes.
P. L.
22
Conclusion
P. L.
I
SBM
I
OSBM
I
Approximations pour utilisation sur données réelles
I
Code/Logiciel : osbm disponible, Mixer
23
Références
P. L.
I
K. Nowicki and T.A.B. Snijders (2001), Estimation and
prediction for stochastic blockstructures. 96, 1077-1087
I
E.M. Airoldi, D.M. Blei, S.E. Fienberg, E.P. Xing (2008), Mixed
membership stochastic blockmodels. Journal of Machine
Learning Research, 9, 1981-2014
I
J-J. Daudin, F. Picard et S. Robin (2008), A mixture model for
random graphs. Statistics and Computing, 18, 2, 151-171
I
P. Latouche, E. Birmelé, C. Ambroise (2011), Overlapping
stochastic block models with application to the French
political blogosphere network. Annals of Applied Statistics,
5, 1, 309-336
I
P. Latouche, E. Birmelé, C. Ambroise (2012), Variational
Bayesian inference and complexity control for stochastic
block models. Statistical Modelling, 12, 1, 93-115
24