a partir de leurs matrices de Google

Transcription

a partir de leurs matrices de Google
Dr. José Lages
Maı̂tre de Conférences
Tél. (+33) 381666667
E-mail : [email protected]
Institut UTINAM
Physique théorique et Astrophysique
Observatoire des Sciences de l’Univers THETA
CNRS & Université de Franche-Comté
25030 Besançon Cedex - France
Fax. (+33) 381666475
Web : http://perso.utinam.cnrs.fr/~lages/
I
In
ns
st
tiit
tu
ut
t
UTINAM
UTINAM
Projet de thèse
Etude des réseaux complexes dirigés à partir de leurs matrices de Google
Les systèmes complexes forment naturellement
d’immenses réseaux comportant un nombre très important de nœuds interconnectés. Par exemple, dans
AR
HI
les systèmes vivants, les protéines agissent entre elles
MS
via des réactions chimiques, dans le cerveau, l’influx
HU
nerveux est transmis aux neurones par les axones,
ZH
dans les réseaux sociaux, les participants sont liés
VI
JA
par relations, dans le commerce international, les
TR
pays exportent/importent entre eux des produits. . .
NL
SV
De nos jours, l’archétype des réseaux complexes diRU
TH
rigés est le World Wide Web (WWW) contenant
12
plus de 10 pages reliées entre elles par des hyFA
EN
IT
FR
perliens. Ces réseaux, à la topologie extrêmement
compliquée, possèdent des propriétés d’invariance
ES
KO
d’échelle [1] et des propriétés dites de ultrasmall
HE
PL
world [2]. L’étude des propriétés physiques de ces
DE
réseaux complexes dirigés nécessite l’utilisation d’ouWR
tils statistiques spécifiques : en empruntant le paraDA
digme du WWW, un surfeur aléatoire peut sauter
PT
EL
d’un nœud A à un nœud B avec une certaine probabilité (chaı̂ne de Markov). Les réseaux complexes dirigés peuvent alors être représentés par un opérateur
stochastique – la matrice de Google – appartenant Figure 1 – Réseau des cultures associé au classement
à la classe des opérateurs de Perron-Frobenius [3]. mondial des universités selon Wikipédia [5]
L’analyse des réseaux complexes à l’aide de leurs matrices de Google permet de caractériser et classer les quantités massives d’informations enfouies dans ces
réseaux, et cela de manière extrêmement efficace. 1 L’analyse de la matrice de Google a été réalisée pour des
systèmes complexes très variés. On citera par exemple les réseaux WWW des universités d’Oxford et de Cambridge, Wikipédia, les réseaux sociaux tel Twitter, le commerce international, les séquences d’ADN, les réseaux
de neurones, le noyau Linux. . . cf. la revue faite dans [4]. Récemment, le groupe de Physique Théorique et
Astrophysique de l’Institut UTINAM et le Laboratoire de Physique Théorique de Toulouse ont proposé conjointement un classement mondial des Universités [5] en sondant 24 éditions linguistiques de Wikipédia. Ce travail
a été remarqué par la presse internationale 2 dont Le Monde [6], MIT Technology Review [7], Times Higher
Education [8]. . .
Au cours de ce projet, nous envisageons d’étudier prioritairement :
• les propriétés de la matrice de Google associée au réseau Wikipédia multilingues (18 millions de nœuds)
construit en tirant profit des hyperliens existant entre les éditions linguistiques. Cette matrice de Google
nous permettra d’étudier l’intrication entre les cultures et de déterminer les articles associés à des sujets
formant des communautés cachées (corrélations à grande distance) ;
• les réseaux omiques, en particulier les réseaux de protéines en “interaction”, où chaque protéine agit sur
un ensemble d’autres protéines via une ou plusieurs fonctions inhibitrices, activatrices, régulatrices. . .
La matrice de Google est alors multifonctionnelle puisque la nature d’un lien directionnel varie suivant sa fonction. Le groupe de Physique Théorique et Astrophysique de l’Institut UTINAM a débuté
1. Cette matrice est par exemple au cœur de l’algorithme de classement des pages du WWW par Google.
2. La page http://perso.utinam.cnrs.fr/~lages/datasets/WRWU/press/Press.html recense 95 articles de presse dans
21 pays différents
REFERENCES
REFERENCES
une collaboration avec le groupe de Biologie Computationnelle des Systèmes du Cancer de l’Institut
Curie (https://sysbio.curie.fr/) ayant pour but de faire émerger de ces réseaux omiques les
communautés de protéines responsables de certains cancers ;
• les réseaux d’Ulam associés aux systèmes dynamiques : la discrétisation de l’espace des phases permet
de définir les nœuds du réseau d’Ulam, une orbite donnée passe alors par un certain nombre de nœuds
définissant une chaı̂ne de Markov. L’étude de celle-ci permet de définir des modes de fonctionnement
du système dynamique. On cherchera en particulier à caractériser les systèmes dynamiques chaotiques
et/ou dissipatifs empruntés aux domaines de l’astrophysique et de la physique atomique ;
• les récurrences de Poincaré pour les réseaux complexes tels que le WWW. Puisqu’un système dynamique
peut être assimilé à un réseau, en retour on peut chercher à caractériser les propriétés dynamiques d’un
réseau complexe ;
• la progression harmonique dans le Jazz et la musique classique en créant le réseau des degrés harmoniques d’un corpus composé d’œuvres musicales d’un même compositeur. En considérant la succession
de “mots” harmoniques de n “lettres” (degrés), il est possible de définir des réseaux dont la complexité
croı̂t avec n. L’analyse harmonique de l’œuvre d’un compositeur peut alors être entreprise à l’aide de
la matrice de Google associée à ces réseaux. Il est alors possible de faire une analyse quantitative des
différences harmoniques entre plusieurs compositeurs.
Ce travail de thèse se déroulera en étroite collaboration avec le Laboratoire de Physique Théorique de
Toulouse. Le candidat sélectionné devra idéalement posséder un master de physique ou mathématiques, et de
très bonnes aptitudes au codage (FORTRAN ou C++, et python).
Encadrants
José Lages
Maı̂tre de Conférences
[email protected]
Institut UTINAM, UMR CNRS 6213,
Observatoire des Sciences de l’Univers THETA,
Université de Franche-Comté, Besançon
Dima Shepelyansky
DR1 CNRS
[email protected]
Laboratoire de Physique Théorique,
UMR CNRS 5152,
Université Paul Sabatier, Toulouse
Références
[1] A.-L. Barabási and R. Albert, “Emergence of scaling in random networks”, Science, 286 :509-512 (1999)
[2] R. Cohen and S. Havlin, ”Scale-free networks are ultrasmall”, Phys. Rev. Lett. 90, 058701 (2003)
[3] A.N. Langville and C.D. Meyer, “Google’s PageRank and Beyond : The Science of Search Engine Rankings”,
Princeton University Press, 2006
[4] L. Ermann, K. M. Frahm and D.L. Shepelyansky, ”Google matrix analysis of directed networks”, Rev. Mod.
Phys. 87, 1261 (2015)
[5] J. Lages, A. Patt, D.L. Shepelyansky, “Wikipedia Ranking of World Universities”, soumis à Eur. J. Phys.
B, arXiv:1511.09021, les données ainsi que le classement sont disponibles à http://perso.utinam.cnrs.
fr/~lages/datasets/WRWU/
[6] “Des Français inventent le classement Wikipédia des universités”, Le Monde, December 18, 2015
[7] “Wikipedia-Mining Algorithm Reveals World’s Most Influential Universities”, MIT Technology Review, December 7, 2015 ;“Best of 2015 : Wikipedia-Mining Algorithm Reveals World’s Most Influential Universities”,
ibid., December 26, 2015
[8] “Wikipedia Ranking of World Universities : the top 100”, Times Higher Education, December 15, 2015