Actionable Analytics for Massive Clickstream Data - ETH E

Transcription

DISS. ETH NO. 21465
Actionable Analytics for Massive
Clickstream Data
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
MICHEL FABIAN SPEISER
MSc Mathematical Sciences, EPFL
MSc Computer Science and Engineering, EPFL
MSc Complex Adaptive Systems, Chalmers University of Technology
born 16 July 1981
citizen of Basel (BS)
accepted on the recommendation of
Prof. Juliana Sutanto, examiner
PD Dr. Marco Laumanns, co-examiner
2013
Abstract
We have witnessed a phenomenal growth in online activity over the past decade, propelled by advances in computer and networking technologies, increasingly innovative
uses of the world wide web, and the continuously rising number of people and devices
connected to the internet. This growth is poised to continue, as the rapid adoption of
mobile devices is enabling a large number of previously unconnected people to gain
access to the global network, and as economic and even social interactions are taking
an increasingly strong foothold online. Since this activity is becoming more important
in so many spheres of human civilization, the demand for tools to analyze this activity
is also on the rise. In particular, academic literature has seen a surge in the number of
studies in the fields of network analysis, data mining and information retrieval applied
to the web and social media.
In this thesis, we propose several building blocks for analyzing and understanding web
traffic. Our main unit of information is the clickstream, or visit, which is defined as the set
or sequence of pages viewed by a user during a web browsing session. The analyses
presented are targeted towards understanding the traffic to a given website. Our focus
is to develop methods and algorithms that provide useful insights into large collections
of clickstreams, while staying highly computationally tractable.
The first problem we address is that of finding the “heart” of a website. Indeed, for a site
hosting thousands or even millions of pages, this is a very difficult task without the use of
analytical tools. We formalize this as the Core-Web problem, which consists in finding,
given an integer b, the set of b pages in the website that fully contains as many complete
visits as possible. In other words, the objective is to capture a maximal number of visits
in their entirety, from beginning to end. It turns out that typically, in a website, a relatively
small set of pages accounts for the bulk of the traffic. We document this fact with real
data, and use it to derive a linear-time heuristic for the Core-Web problem, showing that
it yields very good results in practice. An upper bound for the objective function, also
computable in linear time, is provided to assess the quality of the heuristic’s results.
iii
iv
Abstract
Once the heart of a website is mapped, another question of interest is how visitors tend
to move around in that website, that is, which typical trajectories they take while navigating the pages. In terms of clickstreams, the objective is to find recurring features within
a set of page sequences, which is typically achieved using pattern mining techniques.
The latter tend to discover a large number of patterns, so it is helpful to be able to rank
patterns according to their “interestingness”. Such a ranking method is proposed for a
type of pattern called partial order. It is based on the degree of statistical significance
of patterns with respect to a Markov chain, which is a probabilistic model that has been
applied in the web domain repeatedly with great success. Our ranking method is predicated on the ability to calculate the probability of occurrence of a given pattern under
a given Markov model. We provide an efficient algorithm to achieve this task, and also
show how to transform large Markov models using censoring techniques, so that individual probability queries posed by the algorithm can be computed with much greater
speed.
The final contribution of this thesis is to characterize typical structures found within individual clickstreams. In particular, we show that many clickstream databases contain
a high proportion of nested palindromic structures, that is, many pieces of clickstreams
are symmetrical. This can be largely explained by the widespread use of the “reload”
and “back” buttons found on nearly all web browsers. We show how these structures
can be efficiently extracted from a clickstream database, and propose ways of interpreting the results directly, as well as using them to pre-process data in order to obtain
richer outputs from existing or future pattern mining techniques.
Our methods allow an improved processing and interpretation of web traffic. They can
be used to better understand the underlying demand for information, and to improve
website structure in order to better address this demand.
Zusammenfassung
Im vergangenen Jahrzehnt hat die allgemeine Online-Aktivität stark zugenommen, angetrieben durch Fortschritte in der Informatik und der Netzwerktechnologie, durch konstante Innovation in der Nutzung des World Wide Web, und durch das anhaltende Wachstum der Anzahl am Internet angeschlossenen Menschen und Maschinen. Dieses
Wachstum wird sich wahrscheinlich fortsetzen, da der Zugang zum globalen Netz durch
die mobile Telefonie auf neue Bevölkerungen erweitert wird, und da sich stetig weitere
wirtschaftliche und sogar soziale Prozesse online etablieren. Mit der steigenden Bedeutung dieser Aktivitäten wächst auch die Nachfrage nach analytischen Werkzeugen,
um die Vorgänge besser erfassen und verstehen zu können. In der wissenschaftlichen
Literatur werden immer mehr Studien zu diesen Themen veröffentlicht. Insbesondere
finden Graphen-Analysen, Data-Mining und Information Retrieval spezifische Anwendungen in den Bereichen Web und soziale Medien.
In dieser Dissertation präsentieren wir einige neue Bausteine der Analyse von WebVerkehr. Unsere Informationseinheit ist der Besuch, definiert als die Menge oder Sequenz der Seiten, die sich ein Nutzer innerhalb einer Session anschaut. Unsere
Analysen sind vor allem dafür ausgelegt, den gesamten Verkehr in einer einzelnen
Website zu verstehen. Der Fokus liegt darin, Methoden und Algorithmen herzuleiten,
die nützliche Erkenntnisse aus grossen Besuchsmengen gewinnen können, jedoch
eine niedrige rechnerische Komplexität aufweisen.
Im ersten Thema geht as darum, das “Herz” einer Website ausfindig zu machen. Dazu
braucht es analytische Werkzeuge, vorallem für die Analyse von Websites mit Tausenden oder gar Millionen Seiten. Wir formalisieren diese Fragestellung mit dem Core-Web
Problem, welches darin besteht, für eine gegebene ganze Zahl b, eine Seitenmenge
von Kardinalität b zu finden, die so viele Besuche wie möglich komplett enthält. Mit anderen Worten: Das Ziel ist, eine maximale Anzahl von Besuchen in ihrer Gesamtheit,
also vom ersten bis zum letzten Click, zu erfassen. In den untersuchten Datensätzen
ist typischerwise eine relativ niedrige Anzahl von Seiten für den Grossteil des Verkehrs
verantwortlich. Wir belegen dies statistisch, und nutzen diese Eigenschaft um eine
v
vi
Zusammenfassung
Heuristik von linearer Komplexität zu entwickeln, die bei realen Daten sehr gute Resultate erzielt. Wir leiten zusätzlich eine obere Schranke für die Zielfunktion her, die
ebenfalls in linearer Zeit berechenbar ist, und mit der sich die Ergebnisse der Heuristik
quantitativ bewerten lassen.
Wenn das Herz der Website einmal kartiert ist, stellt sich die Frage, auf welche Art
und Weise sich die Besucher in der Website bewegen. Gibt es typische Laufbahnen
der Navigation? Im mathematischen Sinn geht as darum, wiederkehrende Muster in
einer Besuchsmenge ausfindig zu machen, was oft mit Algorithmen aus dem Bereich
Data-Mining angegangen wird. Letztere Algorithmen entdecken jedoch tendenziell sehr
viele Muster. Daher ist es hilfreich, eine Rangliste zu erstellen, welche diese Muster
nach absteigendender Wichtigkeit oder Bedeutung sortiert darstellt. Wir entwickeln
eine solche Methode für den Mustertyp partielle Ordnung. Sie basiert auf der statistischen Signifikanz der Muster mit Bezug auf eine Markov-Kette, welche ein probabilistisches Modell ist, das im Bereich des Webs wiederholt mit grossem Erfolg eingesetzt
wurde. Unsere Methode erfordert die Fähigkeit, die Wahrscheinlichkeit, ein gegebenes
Muster unter der Dynamik einer gegebenen Markov-Kette zu beobachten, auszurechnen. Wir entwickeln einen Algorithmus der diese Aufgabe erfüllt, und zeigen zusätzlich
wie man grosse Markov-Ketten mit Zensurverfahren transformieren kann, um einzelne
Wahrscheinlichkeitsberechnungen viel effizienter durchführen zu können.
Der letzte Beitrag dieser Dissertation liegt in der Charakterisierung von typischen Strukturen einzelner Besuche. Insbesondere belegen wir, dass viele Besuchsdatensätze
einen hohen Anteil an verschachtelten Palindromen enthalten, d.h. dass Besuche
oft symmetrische Stücke aufweisen. Dies kann durch die Anwesenheit der Knöpfe
“Zurück” und “Erneut laden” in praktisch jedem Web-Browser erklärt werden. Wir
zeigen, wie solche Strukturen effizient aus einem Datensatz extrahiert werden können,
und wie man die daraus resultierenden Messungen direkt interpretieren kann, um
gewisse Aspekte der Dynamik der Website zu verstehen. Weiter schlagen wir
Möglichkeiten vor, die Daten mit diesen Strukturen explizit zu bereichern, um aussagekräftigere Ergebnisse aus herkömmlichen oder zukünftigen Data-Mining Algorithmen zu gewinnen.
Mit unseren Methoden kann der Online-Verkehr besser erfasst und interpretiert werden.
Damit kann die zugrunde liegende Informationsnachfrage besser verstanden werden,
und eine verbesserte Struktur der Website kann erzielt werden, um diese Nachfrage
genauer zu erfüllen.
Résumé
Durant la dernière décennie, l’activité en ligne a connu une croissance phénoménale,
propulsée par des avancées technologiques dans l’informatique et les réseaux de communication, ainsi que par des utilisations de plus en plus innovantes du web et par
le nombre sans cesse grandissant de personnes et d’appareils connectés à internet.
Cette croissance va vraisemblablement se poursuivre, puisque les téléphones mobiles
permettent à de nombreux nouveaux utilisateurs préalablement déconnectés d’accéder
au réseau global, et que bon nombre d’activités économiques et même sociales forment une empreinte grandissante en ligne. Comme cette activité croı̂t en importance,
la demande pour les outils qui permettent de l’analyser est également en plein essor. En particulier, la littérature scientifique recense une forte hausse dans le nombre
d’études d’analyse de graphes, de fouille de données et de recherche d’informations
appliquées au web et aux réseaux sociaux.
Nous présentons dans cette thèse plusieurs composantes utiles dans l’analyse et la
compréhension du trafic web. Notre unité d’information est la visite, qui est définie
comme l’ensemble ou la séquence de pages visionnées par un utilisateur durant une
séance de navigation. Nos analyses s’appliquent surtout lorsque l’on cherche à comprendre la globalité du trafic sur un site donné. Notre objectif est le développement de
méthodes et d’algorithmes capables de produire des aperçus utiles sur la base d’un
grand ensemble de visites, tout en demeurant d’une basse complexité computationelle.
Le premier thème que nous abordons est celui de la découverte du “coeur” d’un site
web. En effet, pour un site qui héberge des milliers ou même des millions de pages, il
s’agirait là d’une tâche très difficile sans recourir à un outil analytique. Nous formalisons
cette question en présentant le problème Core-Web, qui consiste à trouver, pour un
nombre entier b, l’ensemble de b pages du site qui contient pleinement autant de visites
que possible. En d’autres termes, l’objectif est de saisir un nombre maximal de visites
entières, de leur début jusqu’à leur fin. Il se trouve que typiquement, dans un site, un
ensemble de pages relativement petit est responsable de la majorité du trafic. Nous
documentons ce phénomène avec des données réelles, et l’utilisons pour présenter
vii
viii
Résumé
une heuristique de complexité linéaire pour le problème Core-Web. Nous montrons
qu’elle produit de très bons résultats en pratique. Une borne supérieure de la fonction
à optimiser, également calculable en un temps linéaire, est développée, ce qui permet
d’évaluer la qualité des résultats de l’heuristique.
Une fois que le coeur d’un site web est cartographié, une autre question d’intérêt se
pose: comment les visiteurs se déplacent-ils dans le site, c’est-à-dire, quelles trajectoires typiques utilisent-ils en naviguant de page en page? En termes de visites,
l’objectif est de découvrir des motifs récurrents dans un ensemble de séquences de
pages, ce qui peut être résolu à l’aide de techniques de fouille de données. Bon nombre
de ces dernières ont cependant tendance à découvrir un grand ensemble de motifs, et
il s’avère très utile de pouvoir trier ces motifs dans un ordre décroissant de leur “degré
d’intérêt”. Une telle méthode de classement est présentée pour le type de motif d’ordre
partiel. Elle se base sur le niveau de significativité statistique des motifs par rapport à
une chaı̂ne de Markov, un modèle probabiliste qui a déjà été utilisé dans le domaine
du web avec grand succès. Notre méthode de classement repose sur la faculté de
calculer la probabilité d’observer un motif donné sous la dynamique d’une chaı̂ne de
Markov donnée. Nous présentons un algorithme qui effectue ce calcul, et décrivons
également une manière de transformer des chaı̂nes par la technique de censure, de
manière à obtenir les résultats intermédiaires de l’algorithme plus efficacement.
La dernière contribution de cette thèse est de caractériser des structures typiques que
l’on retrouve dans de nombreuses visites individuelles. En particulier, nous montrons
que bon nombre de bases de données de visites contiennent une proportion élevée de
palindromes imbriqués. Ceci peut s’expliquer par la présence des boutons “recharger”
et “page prédédente” dans l’interface de quasiment tous les navigateurs web. Nous
montrons comment extraire de manière efficace ce type de structure des données, et
proposons des interprétations directes des mesures qui en résultent, ainsi que des
techniques de préparation des données, afin d’obtenir des résultats plus riches par les
algorithmes de fouille de données existants ou futurs.
Les méthodes proposées permettent un traitement et une interprétation améliorés du
trafic web. Elles peuvent être utilisées pour faciliter la compréhension de la demande
sous-jacente d’information, ainsi que pour modifier la structure d’un site web afin de
mieux satisfaire cette demande.

Actionable Analytics for Massive Clickstream Data - ETH E

Transcription

Documents pareils

Le nouveau conteur vaudois et romand Band (Jahr - E

Wingo in 77 Städten und Gemeinden verfügbar Wingo est

Besinnung

Wir sind eine zweisprachig geführte, private Kindertagesstätte und

Notiz zu einigen Gemälden von Wolfgang Seierl

Visions de la fin des temps l`apocalypse au XXe siècle

valras plage du siehst mich an mit magischen blicken stand halten

Nicole Aknin Nicole Aknin - Sigmund Freud Privatuniversität

Link2 - Cyclope

Bach, Cantate 106 - Traduction et phonétique

Nouveau: informations sur la goutte sur rheumaliga.ch Kunst kaufen

Wenig Korn viel Spreu Eindrücke von der 15. Musik

candace von

Adcubum eröffnet Niederlassung in Lausanne

Frankreich

Sehr geehrte Damen und Herren, liebe Mitglieder, chers amis,

Flyer Erbarme dich

Un pionnier du fast-food sain trainé en justice par

Eine Beziehung Zwischen einem Symbol und einem

Nordine le Nordec: Une fille tellement jolie (2014) Infos zum Sänger

2001 avec descriptions - websites van arie de jong

Anleitung für Speicherschutz (Best.-Nr. 291805)