présentation
Transcription
présentation
L’évolution du Blogspace présenté par Javier Belmonte Références Article original: “On the bursty evolution of Blogspace” (WWW2003 Hongrie) Auteurs: Ravi Kumar, Jasmine Novak, Prabhakar Raghavan et AndrewTomkins Blog, blogspace? 27 janvier 2006: Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nibh euismod tincidunt ut laoreet. β*log(Vicho) Trucha: Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore. Elitas: Lorem ipsum dolor sit amet, consectetuer. Pingu: Lorem ipsum dolor sit amet, consectetuer. ... Lorem ipsum dolor sit amet, consectetuer adipiscingt wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. 17 janvier 2006: Lorem ipsum dolor sit amet, consectetuer adipi ut laoreet dolore maquam erat (http://blogspot.com/jour?=230104). ... 27 décembre 2005: Lorem ipsum dolor sit amet, consectetuer adipiscing egnissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla. Elitas: Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam. Lorem ipsum dolor sit amet, consectetuer. Je visite aussi blogspot.com/sissi mathdouille.blogspot.com rienqblog.net juanito.com.bl Introduction .. et alors? Pourquoi s’intéresser aux blogs? - Raisons sociales . La culture blog . “Blogrolls” - Raisons techniques . Traiter l’évolution temporelle . Vue déjà faite de leur évolution “Bursts” Ce que nous appelons rafales defaut chaînage est Ce qu’il connaître un inter valle de temps pendant lequel Les graphes orientés/non-orientés, les “Community” beaucoup des liens sont “in/out-degree”, composantes fortement Les communautés créés entre les blogs, connexesdes sousreprésentent ceci comme signe d’une graphes denses nonCommunautés haute activité orientés Rafales dedes chaînage (théoriquement cliques) dans un graphe Introduction Plan de la présentation Les outils de l’approche - “Time graphs” - “Algorithms for community extraction” - “Burst analysis” Méthodologie - “Data acquisition” - “Time graph generation” - “Tuning the algorithms” Résultats Conclusions Les outils de l’approche “Time graphs” “Time graphs” ou graphes évolutifs sont des graphes “G(V,E)” où: - Chaque sommet “vεV” est associé à un inter valle de temps “D(v)” appelé sa durée - Chaque arc “eεE” est un triplet “(u,v,t)” où “t” est le moment où l’arc est créé, donc, où le lien est établi Les outils de l’approche “Community extraction” La signature d’une communauté de blogs est la présence d’un sous-graphe dense dans le graphe évolutif Trouver cette signature est un problème NP-Hard et sont approximation difficile Utilisation d’une heuristique en 2 phases: Élagage et Expansion Les outils de l’approche “Burst analysis” Le but final de l’approche est d’identifier les communautés qui sont “bursty” Une fois les communautés identifiées “C=(Vc,Ec)”, nous allons calculer leur “burstyness” Chaque entrée d’un blog représente un événement et selon leur proximité l’état d’un automate change entre “high” et “low” Une extension par Kleinberg de son propre algo, c’est d’identifier les événements comme “relevant” ou “irrelevant” et alors la “burstiness” signifie la fraction d’événements “relevants” Méthodologie “Data acquisition” La récolte de données se fait sur 7 sites populaires offrant le ser vice de blogs Leurs listes de membres sont parsées de façon à obtenir les homepages des blogs Chaque blog, ainsi que ses archives, est exploré pour extraire l’historique détaillé de tous les liens que le blogger aurait créés Méthodologie “Time graph generation” L’extraction des dates à partir des blogs se fait à partir de: - Spécifications propres des logiciels utilisés pour la publication (p.ex. blogger) - Une analyse du texte de chaque entré, avec la détermination du pattern utilisé pour la date (qui n’est pas forcement le même) Méthodologie “Tuning the algorithms” Heuristique pour éviter de prendre en compte les dates apparaissant dans les “templates” Dans le procès d’expansion, des liens sont pris seulement s’ils relient le blog avec un certain pourcentage de la communauté Plusieurs mesures sont prises pendant l’analyse des rafales de façon à identifier seulement les rafales d’entre une semaine et quelques mois Résultats Analyse des “prefix graphs” Est-ce que le graphe des blogs est aléatoire? Les rafales de chaînage dans les communautés Résultats “Analysis of prefix graphs” Distribution du dégrée - Des liens entrants Des liens sortant Connexité Communautés Résultats “How random is the blog graph?” Le “randomized blog space” Comparaison de la croissance de la composante fortement connexe Comparaison du nombre de communautés Conclusions préliminaires Résultats “Burstiness in blog communities” De la même façon nous obser vons une augmentation dans l’activité de type “burst” à la fin du 2001 Ceci ne s’explique pas seulement par l’augmentation du nombre de communautés, parce que le même effet est obser vé à l’intérieur des communautés Alors, le changement doit venir des bloggers, qui depuis ce moment ont augmenté leur participation aux “bursts”. Conclusions La fin de l’année 2001 - Explosion en nombre de blogs - Augmentation de la connexité - Grand croissance du chaînage dans les communautés Les blogs sont un excellent exemple de “hyperlinked corpus” en évolution - Ils ont un intérêt d’étude - Tester nouvelles méthodes d’analyse à utiliser sur d’autres sources évolutives (p. ex. des séquences de “snapshots” du web) Merci, est-ce que vous avez des questions?