a partir de leurs matrices de Google
Transcription
a partir de leurs matrices de Google
Dr. José Lages Maı̂tre de Conférences Tél. (+33) 381666667 E-mail : [email protected] Institut UTINAM Physique théorique et Astrophysique Observatoire des Sciences de l’Univers THETA CNRS & Université de Franche-Comté 25030 Besançon Cedex - France Fax. (+33) 381666475 Web : http://perso.utinam.cnrs.fr/~lages/ I In ns st tiit tu ut t UTINAM UTINAM Projet de thèse Etude des réseaux complexes dirigés à partir de leurs matrices de Google Les systèmes complexes forment naturellement d’immenses réseaux comportant un nombre très important de nœuds interconnectés. Par exemple, dans AR HI les systèmes vivants, les protéines agissent entre elles MS via des réactions chimiques, dans le cerveau, l’influx HU nerveux est transmis aux neurones par les axones, ZH dans les réseaux sociaux, les participants sont liés VI JA par relations, dans le commerce international, les TR pays exportent/importent entre eux des produits. . . NL SV De nos jours, l’archétype des réseaux complexes diRU TH rigés est le World Wide Web (WWW) contenant 12 plus de 10 pages reliées entre elles par des hyFA EN IT FR perliens. Ces réseaux, à la topologie extrêmement compliquée, possèdent des propriétés d’invariance ES KO d’échelle [1] et des propriétés dites de ultrasmall HE PL world [2]. L’étude des propriétés physiques de ces DE réseaux complexes dirigés nécessite l’utilisation d’ouWR tils statistiques spécifiques : en empruntant le paraDA digme du WWW, un surfeur aléatoire peut sauter PT EL d’un nœud A à un nœud B avec une certaine probabilité (chaı̂ne de Markov). Les réseaux complexes dirigés peuvent alors être représentés par un opérateur stochastique – la matrice de Google – appartenant Figure 1 – Réseau des cultures associé au classement à la classe des opérateurs de Perron-Frobenius [3]. mondial des universités selon Wikipédia [5] L’analyse des réseaux complexes à l’aide de leurs matrices de Google permet de caractériser et classer les quantités massives d’informations enfouies dans ces réseaux, et cela de manière extrêmement efficace. 1 L’analyse de la matrice de Google a été réalisée pour des systèmes complexes très variés. On citera par exemple les réseaux WWW des universités d’Oxford et de Cambridge, Wikipédia, les réseaux sociaux tel Twitter, le commerce international, les séquences d’ADN, les réseaux de neurones, le noyau Linux. . . cf. la revue faite dans [4]. Récemment, le groupe de Physique Théorique et Astrophysique de l’Institut UTINAM et le Laboratoire de Physique Théorique de Toulouse ont proposé conjointement un classement mondial des Universités [5] en sondant 24 éditions linguistiques de Wikipédia. Ce travail a été remarqué par la presse internationale 2 dont Le Monde [6], MIT Technology Review [7], Times Higher Education [8]. . . Au cours de ce projet, nous envisageons d’étudier prioritairement : • les propriétés de la matrice de Google associée au réseau Wikipédia multilingues (18 millions de nœuds) construit en tirant profit des hyperliens existant entre les éditions linguistiques. Cette matrice de Google nous permettra d’étudier l’intrication entre les cultures et de déterminer les articles associés à des sujets formant des communautés cachées (corrélations à grande distance) ; • les réseaux omiques, en particulier les réseaux de protéines en “interaction”, où chaque protéine agit sur un ensemble d’autres protéines via une ou plusieurs fonctions inhibitrices, activatrices, régulatrices. . . La matrice de Google est alors multifonctionnelle puisque la nature d’un lien directionnel varie suivant sa fonction. Le groupe de Physique Théorique et Astrophysique de l’Institut UTINAM a débuté 1. Cette matrice est par exemple au cœur de l’algorithme de classement des pages du WWW par Google. 2. La page http://perso.utinam.cnrs.fr/~lages/datasets/WRWU/press/Press.html recense 95 articles de presse dans 21 pays différents REFERENCES REFERENCES une collaboration avec le groupe de Biologie Computationnelle des Systèmes du Cancer de l’Institut Curie (https://sysbio.curie.fr/) ayant pour but de faire émerger de ces réseaux omiques les communautés de protéines responsables de certains cancers ; • les réseaux d’Ulam associés aux systèmes dynamiques : la discrétisation de l’espace des phases permet de définir les nœuds du réseau d’Ulam, une orbite donnée passe alors par un certain nombre de nœuds définissant une chaı̂ne de Markov. L’étude de celle-ci permet de définir des modes de fonctionnement du système dynamique. On cherchera en particulier à caractériser les systèmes dynamiques chaotiques et/ou dissipatifs empruntés aux domaines de l’astrophysique et de la physique atomique ; • les récurrences de Poincaré pour les réseaux complexes tels que le WWW. Puisqu’un système dynamique peut être assimilé à un réseau, en retour on peut chercher à caractériser les propriétés dynamiques d’un réseau complexe ; • la progression harmonique dans le Jazz et la musique classique en créant le réseau des degrés harmoniques d’un corpus composé d’œuvres musicales d’un même compositeur. En considérant la succession de “mots” harmoniques de n “lettres” (degrés), il est possible de définir des réseaux dont la complexité croı̂t avec n. L’analyse harmonique de l’œuvre d’un compositeur peut alors être entreprise à l’aide de la matrice de Google associée à ces réseaux. Il est alors possible de faire une analyse quantitative des différences harmoniques entre plusieurs compositeurs. Ce travail de thèse se déroulera en étroite collaboration avec le Laboratoire de Physique Théorique de Toulouse. Le candidat sélectionné devra idéalement posséder un master de physique ou mathématiques, et de très bonnes aptitudes au codage (FORTRAN ou C++, et python). Encadrants José Lages Maı̂tre de Conférences [email protected] Institut UTINAM, UMR CNRS 6213, Observatoire des Sciences de l’Univers THETA, Université de Franche-Comté, Besançon Dima Shepelyansky DR1 CNRS [email protected] Laboratoire de Physique Théorique, UMR CNRS 5152, Université Paul Sabatier, Toulouse Références [1] A.-L. Barabási and R. Albert, “Emergence of scaling in random networks”, Science, 286 :509-512 (1999) [2] R. Cohen and S. Havlin, ”Scale-free networks are ultrasmall”, Phys. Rev. Lett. 90, 058701 (2003) [3] A.N. Langville and C.D. Meyer, “Google’s PageRank and Beyond : The Science of Search Engine Rankings”, Princeton University Press, 2006 [4] L. Ermann, K. M. Frahm and D.L. Shepelyansky, ”Google matrix analysis of directed networks”, Rev. Mod. Phys. 87, 1261 (2015) [5] J. Lages, A. Patt, D.L. Shepelyansky, “Wikipedia Ranking of World Universities”, soumis à Eur. J. Phys. B, arXiv:1511.09021, les données ainsi que le classement sont disponibles à http://perso.utinam.cnrs. fr/~lages/datasets/WRWU/ [6] “Des Français inventent le classement Wikipédia des universités”, Le Monde, December 18, 2015 [7] “Wikipedia-Mining Algorithm Reveals World’s Most Influential Universities”, MIT Technology Review, December 7, 2015 ;“Best of 2015 : Wikipedia-Mining Algorithm Reveals World’s Most Influential Universities”, ibid., December 26, 2015 [8] “Wikipedia Ranking of World Universities : the top 100”, Times Higher Education, December 15, 2015