Actionable Analytics for Massive Clickstream Data - ETH E

Transcription

Actionable Analytics for Massive Clickstream Data - ETH E
DISS. ETH NO. 21465
Actionable Analytics for Massive
Clickstream Data
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
MICHEL FABIAN SPEISER
MSc Mathematical Sciences, EPFL
MSc Computer Science and Engineering, EPFL
MSc Complex Adaptive Systems, Chalmers University of Technology
born 16 July 1981
citizen of Basel (BS)
accepted on the recommendation of
Prof. Juliana Sutanto, examiner
PD Dr. Marco Laumanns, co-examiner
2013
Abstract
We have witnessed a phenomenal growth in online activity over the past decade, propelled by advances in computer and networking technologies, increasingly innovative
uses of the world wide web, and the continuously rising number of people and devices
connected to the internet. This growth is poised to continue, as the rapid adoption of
mobile devices is enabling a large number of previously unconnected people to gain
access to the global network, and as economic and even social interactions are taking
an increasingly strong foothold online. Since this activity is becoming more important
in so many spheres of human civilization, the demand for tools to analyze this activity
is also on the rise. In particular, academic literature has seen a surge in the number of
studies in the fields of network analysis, data mining and information retrieval applied
to the web and social media.
In this thesis, we propose several building blocks for analyzing and understanding web
traffic. Our main unit of information is the clickstream, or visit, which is defined as the set
or sequence of pages viewed by a user during a web browsing session. The analyses
presented are targeted towards understanding the traffic to a given website. Our focus
is to develop methods and algorithms that provide useful insights into large collections
of clickstreams, while staying highly computationally tractable.
The first problem we address is that of finding the “heart” of a website. Indeed, for a site
hosting thousands or even millions of pages, this is a very difficult task without the use of
analytical tools. We formalize this as the Core-Web problem, which consists in finding,
given an integer b, the set of b pages in the website that fully contains as many complete
visits as possible. In other words, the objective is to capture a maximal number of visits
in their entirety, from beginning to end. It turns out that typically, in a website, a relatively
small set of pages accounts for the bulk of the traffic. We document this fact with real
data, and use it to derive a linear-time heuristic for the Core-Web problem, showing that
it yields very good results in practice. An upper bound for the objective function, also
computable in linear time, is provided to assess the quality of the heuristic’s results.
iii
iv
Abstract
Once the heart of a website is mapped, another question of interest is how visitors tend
to move around in that website, that is, which typical trajectories they take while navigating the pages. In terms of clickstreams, the objective is to find recurring features within
a set of page sequences, which is typically achieved using pattern mining techniques.
The latter tend to discover a large number of patterns, so it is helpful to be able to rank
patterns according to their “interestingness”. Such a ranking method is proposed for a
type of pattern called partial order. It is based on the degree of statistical significance
of patterns with respect to a Markov chain, which is a probabilistic model that has been
applied in the web domain repeatedly with great success. Our ranking method is predicated on the ability to calculate the probability of occurrence of a given pattern under
a given Markov model. We provide an efficient algorithm to achieve this task, and also
show how to transform large Markov models using censoring techniques, so that individual probability queries posed by the algorithm can be computed with much greater
speed.
The final contribution of this thesis is to characterize typical structures found within individual clickstreams. In particular, we show that many clickstream databases contain
a high proportion of nested palindromic structures, that is, many pieces of clickstreams
are symmetrical. This can be largely explained by the widespread use of the “reload”
and “back” buttons found on nearly all web browsers. We show how these structures
can be efficiently extracted from a clickstream database, and propose ways of interpreting the results directly, as well as using them to pre-process data in order to obtain
richer outputs from existing or future pattern mining techniques.
Our methods allow an improved processing and interpretation of web traffic. They can
be used to better understand the underlying demand for information, and to improve
website structure in order to better address this demand.
Zusammenfassung
Im vergangenen Jahrzehnt hat die allgemeine Online-Aktivität stark zugenommen, angetrieben durch Fortschritte in der Informatik und der Netzwerktechnologie, durch konstante Innovation in der Nutzung des World Wide Web, und durch das anhaltende Wachstum der Anzahl am Internet angeschlossenen Menschen und Maschinen. Dieses
Wachstum wird sich wahrscheinlich fortsetzen, da der Zugang zum globalen Netz durch
die mobile Telefonie auf neue Bevölkerungen erweitert wird, und da sich stetig weitere
wirtschaftliche und sogar soziale Prozesse online etablieren. Mit der steigenden Bedeutung dieser Aktivitäten wächst auch die Nachfrage nach analytischen Werkzeugen,
um die Vorgänge besser erfassen und verstehen zu können. In der wissenschaftlichen
Literatur werden immer mehr Studien zu diesen Themen veröffentlicht. Insbesondere
finden Graphen-Analysen, Data-Mining und Information Retrieval spezifische Anwendungen in den Bereichen Web und soziale Medien.
In dieser Dissertation präsentieren wir einige neue Bausteine der Analyse von WebVerkehr. Unsere Informationseinheit ist der Besuch, definiert als die Menge oder Sequenz der Seiten, die sich ein Nutzer innerhalb einer Session anschaut. Unsere
Analysen sind vor allem dafür ausgelegt, den gesamten Verkehr in einer einzelnen
Website zu verstehen. Der Fokus liegt darin, Methoden und Algorithmen herzuleiten,
die nützliche Erkenntnisse aus grossen Besuchsmengen gewinnen können, jedoch
eine niedrige rechnerische Komplexität aufweisen.
Im ersten Thema geht as darum, das “Herz” einer Website ausfindig zu machen. Dazu
braucht es analytische Werkzeuge, vorallem für die Analyse von Websites mit Tausenden oder gar Millionen Seiten. Wir formalisieren diese Fragestellung mit dem Core-Web
Problem, welches darin besteht, für eine gegebene ganze Zahl b, eine Seitenmenge
von Kardinalität b zu finden, die so viele Besuche wie möglich komplett enthält. Mit anderen Worten: Das Ziel ist, eine maximale Anzahl von Besuchen in ihrer Gesamtheit,
also vom ersten bis zum letzten Click, zu erfassen. In den untersuchten Datensätzen
ist typischerwise eine relativ niedrige Anzahl von Seiten für den Grossteil des Verkehrs
verantwortlich. Wir belegen dies statistisch, und nutzen diese Eigenschaft um eine
v
vi
Zusammenfassung
Heuristik von linearer Komplexität zu entwickeln, die bei realen Daten sehr gute Resultate erzielt. Wir leiten zusätzlich eine obere Schranke für die Zielfunktion her, die
ebenfalls in linearer Zeit berechenbar ist, und mit der sich die Ergebnisse der Heuristik
quantitativ bewerten lassen.
Wenn das Herz der Website einmal kartiert ist, stellt sich die Frage, auf welche Art
und Weise sich die Besucher in der Website bewegen. Gibt es typische Laufbahnen
der Navigation? Im mathematischen Sinn geht as darum, wiederkehrende Muster in
einer Besuchsmenge ausfindig zu machen, was oft mit Algorithmen aus dem Bereich
Data-Mining angegangen wird. Letztere Algorithmen entdecken jedoch tendenziell sehr
viele Muster. Daher ist es hilfreich, eine Rangliste zu erstellen, welche diese Muster
nach absteigendender Wichtigkeit oder Bedeutung sortiert darstellt. Wir entwickeln
eine solche Methode für den Mustertyp partielle Ordnung. Sie basiert auf der statistischen Signifikanz der Muster mit Bezug auf eine Markov-Kette, welche ein probabilistisches Modell ist, das im Bereich des Webs wiederholt mit grossem Erfolg eingesetzt
wurde. Unsere Methode erfordert die Fähigkeit, die Wahrscheinlichkeit, ein gegebenes
Muster unter der Dynamik einer gegebenen Markov-Kette zu beobachten, auszurechnen. Wir entwickeln einen Algorithmus der diese Aufgabe erfüllt, und zeigen zusätzlich
wie man grosse Markov-Ketten mit Zensurverfahren transformieren kann, um einzelne
Wahrscheinlichkeitsberechnungen viel effizienter durchführen zu können.
Der letzte Beitrag dieser Dissertation liegt in der Charakterisierung von typischen Strukturen einzelner Besuche. Insbesondere belegen wir, dass viele Besuchsdatensätze
einen hohen Anteil an verschachtelten Palindromen enthalten, d.h. dass Besuche
oft symmetrische Stücke aufweisen. Dies kann durch die Anwesenheit der Knöpfe
“Zurück” und “Erneut laden” in praktisch jedem Web-Browser erklärt werden. Wir
zeigen, wie solche Strukturen effizient aus einem Datensatz extrahiert werden können,
und wie man die daraus resultierenden Messungen direkt interpretieren kann, um
gewisse Aspekte der Dynamik der Website zu verstehen. Weiter schlagen wir
Möglichkeiten vor, die Daten mit diesen Strukturen explizit zu bereichern, um aussagekräftigere Ergebnisse aus herkömmlichen oder zukünftigen Data-Mining Algorithmen zu gewinnen.
Mit unseren Methoden kann der Online-Verkehr besser erfasst und interpretiert werden.
Damit kann die zugrunde liegende Informationsnachfrage besser verstanden werden,
und eine verbesserte Struktur der Website kann erzielt werden, um diese Nachfrage
genauer zu erfüllen.
Résumé
Durant la dernière décennie, l’activité en ligne a connu une croissance phénoménale,
propulsée par des avancées technologiques dans l’informatique et les réseaux de communication, ainsi que par des utilisations de plus en plus innovantes du web et par
le nombre sans cesse grandissant de personnes et d’appareils connectés à internet.
Cette croissance va vraisemblablement se poursuivre, puisque les téléphones mobiles
permettent à de nombreux nouveaux utilisateurs préalablement déconnectés d’accéder
au réseau global, et que bon nombre d’activités économiques et même sociales forment une empreinte grandissante en ligne. Comme cette activité croı̂t en importance,
la demande pour les outils qui permettent de l’analyser est également en plein essor. En particulier, la littérature scientifique recense une forte hausse dans le nombre
d’études d’analyse de graphes, de fouille de données et de recherche d’informations
appliquées au web et aux réseaux sociaux.
Nous présentons dans cette thèse plusieurs composantes utiles dans l’analyse et la
compréhension du trafic web. Notre unité d’information est la visite, qui est définie
comme l’ensemble ou la séquence de pages visionnées par un utilisateur durant une
séance de navigation. Nos analyses s’appliquent surtout lorsque l’on cherche à comprendre la globalité du trafic sur un site donné. Notre objectif est le développement de
méthodes et d’algorithmes capables de produire des aperçus utiles sur la base d’un
grand ensemble de visites, tout en demeurant d’une basse complexité computationelle.
Le premier thème que nous abordons est celui de la découverte du “coeur” d’un site
web. En effet, pour un site qui héberge des milliers ou même des millions de pages, il
s’agirait là d’une tâche très difficile sans recourir à un outil analytique. Nous formalisons
cette question en présentant le problème Core-Web, qui consiste à trouver, pour un
nombre entier b, l’ensemble de b pages du site qui contient pleinement autant de visites
que possible. En d’autres termes, l’objectif est de saisir un nombre maximal de visites
entières, de leur début jusqu’à leur fin. Il se trouve que typiquement, dans un site, un
ensemble de pages relativement petit est responsable de la majorité du trafic. Nous
documentons ce phénomène avec des données réelles, et l’utilisons pour présenter
vii
viii
Résumé
une heuristique de complexité linéaire pour le problème Core-Web. Nous montrons
qu’elle produit de très bons résultats en pratique. Une borne supérieure de la fonction
à optimiser, également calculable en un temps linéaire, est développée, ce qui permet
d’évaluer la qualité des résultats de l’heuristique.
Une fois que le coeur d’un site web est cartographié, une autre question d’intérêt se
pose: comment les visiteurs se déplacent-ils dans le site, c’est-à-dire, quelles trajectoires typiques utilisent-ils en naviguant de page en page? En termes de visites,
l’objectif est de découvrir des motifs récurrents dans un ensemble de séquences de
pages, ce qui peut être résolu à l’aide de techniques de fouille de données. Bon nombre
de ces dernières ont cependant tendance à découvrir un grand ensemble de motifs, et
il s’avère très utile de pouvoir trier ces motifs dans un ordre décroissant de leur “degré
d’intérêt”. Une telle méthode de classement est présentée pour le type de motif d’ordre
partiel. Elle se base sur le niveau de significativité statistique des motifs par rapport à
une chaı̂ne de Markov, un modèle probabiliste qui a déjà été utilisé dans le domaine
du web avec grand succès. Notre méthode de classement repose sur la faculté de
calculer la probabilité d’observer un motif donné sous la dynamique d’une chaı̂ne de
Markov donnée. Nous présentons un algorithme qui effectue ce calcul, et décrivons
également une manière de transformer des chaı̂nes par la technique de censure, de
manière à obtenir les résultats intermédiaires de l’algorithme plus efficacement.
La dernière contribution de cette thèse est de caractériser des structures typiques que
l’on retrouve dans de nombreuses visites individuelles. En particulier, nous montrons
que bon nombre de bases de données de visites contiennent une proportion élevée de
palindromes imbriqués. Ceci peut s’expliquer par la présence des boutons “recharger”
et “page prédédente” dans l’interface de quasiment tous les navigateurs web. Nous
montrons comment extraire de manière efficace ce type de structure des données, et
proposons des interprétations directes des mesures qui en résultent, ainsi que des
techniques de préparation des données, afin d’obtenir des résultats plus riches par les
algorithmes de fouille de données existants ou futurs.
Les méthodes proposées permettent un traitement et une interprétation améliorés du
trafic web. Elles peuvent être utilisées pour faciliter la compréhension de la demande
sous-jacente d’information, ainsi que pour modifier la structure d’un site web afin de
mieux satisfaire cette demande.

Documents pareils