retrouver les diapositives de cet exposé.
Transcription
retrouver les diapositives de cet exposé.
Modélisation des réseaux à l’aide de modèles de graphes aléatoires P. L. Université Paris 1 Panthéon-Sorbonne Laboratoire SAMM Maths en mouvement 2014 P. L. 1 Plan Introduction Les réseaux Clustering dans les réseaux Modèle à blocs stochastiques Le modèle Modèle à blocs stochastiques chevauchants Inférence Blogosphère politique française P. L. 2 Exemple de réseau social (Facebook) P. L. 3 “Chaque utilisateur a dessiné ce que les spécialistes appellent le social graph, la cartographie de ses relations qui est en passe de devenir la carte d’identité ultime [...]” F. Filloux, Facebook tisse sa toile, Le Monde Magazine P. L. 4 6 degrés de séparation P. L. 5 Sanyo Microsoft RIM Motorola Samsung Smartphone.T HTC Kodak apple y.Ericsson Google LG.Group ELAN sharp nokia qualcomm Oracle Hitachi Qui porte plainte contre qui ? P. L. 6 Mohamed Abdi Abdussattar Shaikh Ahmed Alnami Nawaf Alhazmi Khalid Almihdhar Majed Moqed Saeed Alghamdi NabilHijazi al−Marabh Raed Ahmed Alghamdi Salem Alhazmi Faisal Al Salmi Hamza Alghamdi Mohand Alshehri Satam M. A. Al Suqami Hani Hanjour Ahmed Ibrahim A. Al Haznawi Abdulaziz Alomari Rayed Mohammed Abdullah Lotfi Raissi Ziad Samir Jarrah ez Rashid Ahmed Hassan Al Qadi Banihammad Marwan Al−Shehhi Wail M. Alshehri Waleed M. Alshehri Ramzi Omar Mohamed Atta Shaykh Saiid Mamoun Darkazanli Said Bahaji Zakariya Essabar Ahmed Khalil Ibrahim Samir Al−Ani Habib Zacarias Moussaoui Mamduh Mahmud Salim Réseau de terroristes P. L. 7 Les réseaux I I I En sciences : I World Wide Web I Biologie, sociologie, physique Données: I Interaction entre N objets I O(N 2 ) interactions possibles Réseau : I P. L. Décrit les interactions entre les noeuds Blogosphère politique française. 8 En biologie Réseau métabolique d’Escherichia coli (Lacroix et al., 2006). P. L. 9 En biologie Réseau de régulation de la levure (Milo et al., 2002). P. L. 10 Les réseaux I Propriétés : I I I I I Creux : m = O(N ) Composante géante Hétérogénéité Attachement préférentiel Petit monde ,→ Structures (groupes de noeuds) P. L. 11 Les réseaux I Propriétés : I I I I I Creux : m = O(N ) Composante géante Hétérogénéité Attachement préférentiel Petit monde ,→ Structures (groupes de noeuds) P. L. 11 Clustering dans les réseaux I Méthodes existantes cherchent : I I I P. L. Communautés “Disassortative mixing” Structures hétérogènes 12 Clustering dans les réseaux I Méthodes existantes cherchent : I I I P. L. Communautés “Disassortative mixing” Structures hétérogènes 12 Clustering dans les réseaux I Méthodes existantes cherchent : I I I P. L. Communautés “Disassortative mixing” Structures hétérogènes 12 Clustering dans les réseaux I Méthodes existantes cherchent : I I I P. L. Communautés “Disassortative mixing” Structures hétérogènes 12 Stochastic Block Model (SBM) I Nowicki and Snijders (2001) I I I premiers travaux: Govaert et al. (1977) Zi variables latentes: I Zi ∼ M 1, α = (α1 , α2 , . . . , αK ) I Zik = 1 : noeud i appartient à la classe k X | Z arêtes tirées : Xij |{Zik Zjl = 1} ∼ B(πkl ) I Modèle de mélange pour graphe: Xij ∼ K X K X αk αl B(πkl ) k=1 l=1 P. L. 13 π•• 6 π•• 5 7 3 π•• 4 1 8 2 π•• 9 P. L. π•• 10 14 Maximum de vraisemblance I Log-vraisemblance du modèle : I I Données observées: log p(X | α, Π) = log { ,→ K N termes P Z p(X, Z | α, Π)} algorithme “Expectation Maximization” (EM) nécessite p(Z | X, α, Π) Problème p(Z | X, α, Π) pas de forme analytique Variational EM Daudin et al. (2008) P. L. 15 Maximum de vraisemblance I Log-vraisemblance du modèle : I I Données observées: log p(X | α, Π) = log { ,→ K N termes P Z p(X, Z | α, Π)} algorithme “Expectation Maximization” (EM) nécessite p(Z | X, α, Π) Problème p(Z | X, α, Π) pas de forme analytique Variational EM Daudin et al. (2008) P. L. 15 Maximum de vraisemblance I Log-vraisemblance du modèle : I I Données observées: log p(X | α, Π) = log { ,→ K N termes P Z p(X, Z | α, Π)} algorithme “Expectation Maximization” (EM) nécessite p(Z | X, α, Π) Problème p(Z | X, α, Π) pas de forme analytique Variational EM Daudin et al. (2008) P. L. 15 Dans les réseaux Palla et al. (2006) Problème Le modèle à blocs stochastiques (comme la plupart des autres modèles) fait l’hypothèse qu’un noeud appartient à un groupe et un seul P. L. 16 Stochastic Block Model(SBM) I Nowicki and Snijders (2001) I Zi variables latentes: Zi ∼ M 1, α = (α1 , α2 , . . . , αK ) P. L. 17 Overlapping Stochastic Block model (OSBM) I Latouche et al. (2011) I Zik variables latentes: Zi ∼ K Y k=1 P. L. B(Zik ; αk ) = K Y αkZik (1 − αk )1−Zik k=1 17 Overlapping Stochastic Block model (OSBM) I Latouche et al. (2011) I X | Z arêtes tirées: I I ΠZi ,Zj = g aZi ,Zj W∗ aZi ,Zj = Z|i W Zj + Z|i U + V| Zj + |{z} | {z } | {z } | {z } i↔j I P. L. Xij | Zi , Zj ∼ B Xij ; ΠZi ,Zj ) i →? ?→j bias g(t) = 1/ (1 + exp(−t)) fonction logistique 17 OSBM I I I I P. L. Z̃i = (Zi , 1)| W U W̃ = V| W ∗ | aZi ,Zj = Z̃i W̃ Z̃j n o Paramètres : α, W̃ 18 q Transformation Décomposition log p(X) = L(r) + KL(r||p) où L(r) = XZ Z r(Z, α, W̃) log p(X | Z, W̃)p(Z | α)p(α)p(W̃) d α d W̃ r(Z, α, W̃) Borne inf log p(X) ≥ L(r) Problème L(r) forme trop complexe ,→ ?? P. L. 19 ξ Transformation Borne inf log p(X) = log ( XZ ) p(X | Z, W̃)p(Z | α)p(α)p(W̃)d α d W̃ Z ≥ L(ξ) où L(ξ) = log ( XZ ) h(Z, W̃, ξ)p(Z | α)p(α)p(W̃)d α d W̃ Z P. L. 20 ξ Transformation Décomposition L(ξ) = L(r; ξ) + KL(r||p) où L(r; ξ) XZ h(Z, W̃, ξ)p(Z | α)p(α)p(W̃) = r(Z, α, W̃) log dαd W̃ r(Z, α, W̃) Z Borne inf log p(X) ≥ L(ξ) ≥ L(r; ξ) P. L. 21 Blogosphère politique française analysts others UMP UDF liberal PS cluster 1 30 + 3 0+1 0 0 0+1 0 cluster 2 2 + 3 29 + 1 0 0 1+3 0 cluster 3 0 0 24 0 1+1 0 cluster 4 0 0+2 0 40 0+4 1 outliers 5 1 1 17 5 30 Clustering des blogs en K = 4 clusters en utilisant OSBM. 196 noeuds, 2864 arêtes. P. L. 22 Conclusion P. L. I SBM I OSBM I Approximations pour utilisation sur données réelles I Code/Logiciel : osbm disponible, Mixer 23 Références P. L. I K. Nowicki and T.A.B. Snijders (2001), Estimation and prediction for stochastic blockstructures. 96, 1077-1087 I E.M. Airoldi, D.M. Blei, S.E. Fienberg, E.P. Xing (2008), Mixed membership stochastic blockmodels. Journal of Machine Learning Research, 9, 1981-2014 I J-J. Daudin, F. Picard et S. Robin (2008), A mixture model for random graphs. Statistics and Computing, 18, 2, 151-171 I P. Latouche, E. Birmelé, C. Ambroise (2011), Overlapping stochastic block models with application to the French political blogosphere network. Annals of Applied Statistics, 5, 1, 309-336 I P. Latouche, E. Birmelé, C. Ambroise (2012), Variational Bayesian inference and complexity control for stochastic block models. Statistical Modelling, 12, 1, 93-115 24