présentation

Transcription

présentation
L’évolution du Blogspace
présenté par Javier Belmonte
Références
Article original: “On the bursty evolution of
Blogspace” (WWW2003 Hongrie)
Auteurs: Ravi Kumar, Jasmine Novak,
Prabhakar Raghavan et AndrewTomkins
Blog, blogspace?
27 janvier 2006: Lorem ipsum dolor sit amet, consectetuer adipiscing
elit, sed diam nonummy qui blandit praesent luptatum zzril delenit
augue duis dolore te feugait nibh euismod tincidunt ut laoreet.
β*log(Vicho)
Trucha: Lorem ipsum dolor sit amet, consectetuer
adipiscing elit, sed diam nonummy nibh euismod tincidunt
ut laoreet dolore.
Elitas: Lorem ipsum dolor sit amet,
consectetuer.
Pingu: Lorem ipsum dolor sit amet, consectetuer.
...
Lorem ipsum dolor sit amet,
consectetuer adipiscingt wisi
enim ad minim veniam, quis
nostrud exerci tation
ullamcorper suscipit lobortis nisl
ut aliquip ex ea commodo
consequat.
17 janvier 2006: Lorem ipsum dolor sit amet, consectetuer adipi ut
laoreet dolore maquam erat (http://blogspot.com/jour?=230104).
...
27 décembre 2005: Lorem ipsum dolor sit amet, consectetuer
adipiscing egnissim qui blandit praesent luptatum zzril delenit augue
duis dolore te feugait nulla.
Elitas: Lorem ipsum dolor sit amet, consectetuer adipiscing
elit, sed diam. Lorem ipsum dolor sit amet, consectetuer.
Je visite aussi
blogspot.com/sissi
mathdouille.blogspot.com
rienqblog.net
juanito.com.bl
Introduction
.. et alors?
Pourquoi s’intéresser aux blogs?
- Raisons sociales
. La culture blog
. “Blogrolls”
- Raisons techniques
. Traiter l’évolution temporelle
. Vue déjà faite de leur évolution
“Bursts”
Ce que nous appelons
rafales
defaut
chaînage
est
Ce qu’il
connaître
un inter valle de temps
pendant lequel
Les graphes orientés/non-orientés, les
“Community”
beaucoup
des
liens
sont
“in/out-degree”, composantes fortement
Les communautés
créés
entre
les
blogs,
connexesdes sousreprésentent
ceci comme signe d’une
graphes
denses
nonCommunautés haute activité
orientés
Rafales dedes
chaînage
(théoriquement
cliques) dans un graphe
Introduction
Plan de la présentation
Les outils de l’approche
- “Time graphs”
- “Algorithms for community extraction”
- “Burst analysis”
Méthodologie
- “Data acquisition”
- “Time graph generation”
- “Tuning the algorithms”
Résultats
Conclusions
Les outils de l’approche
“Time graphs”
“Time graphs” ou graphes évolutifs sont
des graphes “G(V,E)” où:
- Chaque sommet “vεV” est associé à un
inter valle de temps “D(v)” appelé sa durée
- Chaque arc “eεE” est un triplet “(u,v,t)” où
“t” est le moment où l’arc est créé, donc,
où le lien est établi
Les outils de l’approche
“Community extraction”
La signature d’une communauté de blogs
est la présence d’un sous-graphe dense
dans le graphe évolutif
Trouver cette signature est un problème
NP-Hard et sont approximation difficile
Utilisation d’une heuristique en 2 phases:
Élagage et Expansion
Les outils de l’approche
“Burst analysis”
Le but final de l’approche est d’identifier les
communautés qui sont “bursty”
Une fois les communautés identifiées
“C=(Vc,Ec)”, nous allons calculer leur “burstyness”
Chaque entrée d’un blog représente un événement et
selon leur proximité l’état d’un automate change
entre “high” et “low”
Une extension par Kleinberg de son propre algo, c’est
d’identifier les événements comme “relevant” ou
“irrelevant” et alors la “burstiness” signifie la
fraction d’événements “relevants”
Méthodologie
“Data acquisition”
La récolte de données se fait sur 7 sites
populaires offrant le ser vice de blogs
Leurs listes de membres sont parsées de
façon à obtenir les homepages des blogs
Chaque blog, ainsi que ses archives, est
exploré pour extraire l’historique détaillé
de tous les liens que le blogger aurait créés
Méthodologie
“Time graph generation”
L’extraction des dates à partir des blogs
se fait à partir de:
-
Spécifications propres des logiciels
utilisés pour la publication (p.ex. blogger)
-
Une analyse du texte de chaque entré,
avec la détermination du pattern utilisé
pour la date (qui n’est pas forcement le
même)
Méthodologie
“Tuning the algorithms”
Heuristique pour éviter de prendre en compte
les dates apparaissant dans les “templates”
Dans le procès d’expansion, des liens sont pris
seulement s’ils relient le blog avec un certain
pourcentage de la communauté
Plusieurs mesures sont prises pendant
l’analyse des rafales de façon à identifier
seulement les rafales d’entre une semaine et
quelques mois
Résultats
Analyse des “prefix graphs”
Est-ce que le graphe des blogs est
aléatoire?
Les rafales de chaînage dans les
communautés
Résultats
“Analysis of prefix graphs”
Distribution du dégrée
-
Des liens entrants
Des liens sortant
Connexité
Communautés
Résultats
“How random is the blog graph?”
Le “randomized blog space”
Comparaison de la croissance de la
composante fortement connexe
Comparaison du nombre de communautés
Conclusions préliminaires
Résultats
“Burstiness in blog communities”
De la même façon nous obser vons une
augmentation dans l’activité de type “burst” à
la fin du 2001
Ceci ne s’explique pas seulement par
l’augmentation du nombre de communautés,
parce que le même effet est obser vé à
l’intérieur des communautés
Alors, le changement doit venir des bloggers,
qui depuis ce moment ont augmenté leur
participation aux “bursts”.
Conclusions
La fin de l’année 2001
- Explosion en nombre de blogs
- Augmentation de la connexité
- Grand croissance du chaînage dans les
communautés
Les blogs sont un excellent exemple de
“hyperlinked corpus” en évolution
- Ils ont un intérêt d’étude
- Tester nouvelles méthodes d’analyse à utiliser
sur d’autres sources évolutives (p. ex. des
séquences de “snapshots” du web)
Merci, est-ce que vous avez des
questions?