Actionable Analytics for Massive Clickstream Data - ETH E
Transcription
Actionable Analytics for Massive Clickstream Data - ETH E
DISS. ETH NO. 21465 Actionable Analytics for Massive Clickstream Data A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by MICHEL FABIAN SPEISER MSc Mathematical Sciences, EPFL MSc Computer Science and Engineering, EPFL MSc Complex Adaptive Systems, Chalmers University of Technology born 16 July 1981 citizen of Basel (BS) accepted on the recommendation of Prof. Juliana Sutanto, examiner PD Dr. Marco Laumanns, co-examiner 2013 Abstract We have witnessed a phenomenal growth in online activity over the past decade, propelled by advances in computer and networking technologies, increasingly innovative uses of the world wide web, and the continuously rising number of people and devices connected to the internet. This growth is poised to continue, as the rapid adoption of mobile devices is enabling a large number of previously unconnected people to gain access to the global network, and as economic and even social interactions are taking an increasingly strong foothold online. Since this activity is becoming more important in so many spheres of human civilization, the demand for tools to analyze this activity is also on the rise. In particular, academic literature has seen a surge in the number of studies in the fields of network analysis, data mining and information retrieval applied to the web and social media. In this thesis, we propose several building blocks for analyzing and understanding web traffic. Our main unit of information is the clickstream, or visit, which is defined as the set or sequence of pages viewed by a user during a web browsing session. The analyses presented are targeted towards understanding the traffic to a given website. Our focus is to develop methods and algorithms that provide useful insights into large collections of clickstreams, while staying highly computationally tractable. The first problem we address is that of finding the “heart” of a website. Indeed, for a site hosting thousands or even millions of pages, this is a very difficult task without the use of analytical tools. We formalize this as the Core-Web problem, which consists in finding, given an integer b, the set of b pages in the website that fully contains as many complete visits as possible. In other words, the objective is to capture a maximal number of visits in their entirety, from beginning to end. It turns out that typically, in a website, a relatively small set of pages accounts for the bulk of the traffic. We document this fact with real data, and use it to derive a linear-time heuristic for the Core-Web problem, showing that it yields very good results in practice. An upper bound for the objective function, also computable in linear time, is provided to assess the quality of the heuristic’s results. iii iv Abstract Once the heart of a website is mapped, another question of interest is how visitors tend to move around in that website, that is, which typical trajectories they take while navigating the pages. In terms of clickstreams, the objective is to find recurring features within a set of page sequences, which is typically achieved using pattern mining techniques. The latter tend to discover a large number of patterns, so it is helpful to be able to rank patterns according to their “interestingness”. Such a ranking method is proposed for a type of pattern called partial order. It is based on the degree of statistical significance of patterns with respect to a Markov chain, which is a probabilistic model that has been applied in the web domain repeatedly with great success. Our ranking method is predicated on the ability to calculate the probability of occurrence of a given pattern under a given Markov model. We provide an efficient algorithm to achieve this task, and also show how to transform large Markov models using censoring techniques, so that individual probability queries posed by the algorithm can be computed with much greater speed. The final contribution of this thesis is to characterize typical structures found within individual clickstreams. In particular, we show that many clickstream databases contain a high proportion of nested palindromic structures, that is, many pieces of clickstreams are symmetrical. This can be largely explained by the widespread use of the “reload” and “back” buttons found on nearly all web browsers. We show how these structures can be efficiently extracted from a clickstream database, and propose ways of interpreting the results directly, as well as using them to pre-process data in order to obtain richer outputs from existing or future pattern mining techniques. Our methods allow an improved processing and interpretation of web traffic. They can be used to better understand the underlying demand for information, and to improve website structure in order to better address this demand. Zusammenfassung Im vergangenen Jahrzehnt hat die allgemeine Online-Aktivität stark zugenommen, angetrieben durch Fortschritte in der Informatik und der Netzwerktechnologie, durch konstante Innovation in der Nutzung des World Wide Web, und durch das anhaltende Wachstum der Anzahl am Internet angeschlossenen Menschen und Maschinen. Dieses Wachstum wird sich wahrscheinlich fortsetzen, da der Zugang zum globalen Netz durch die mobile Telefonie auf neue Bevölkerungen erweitert wird, und da sich stetig weitere wirtschaftliche und sogar soziale Prozesse online etablieren. Mit der steigenden Bedeutung dieser Aktivitäten wächst auch die Nachfrage nach analytischen Werkzeugen, um die Vorgänge besser erfassen und verstehen zu können. In der wissenschaftlichen Literatur werden immer mehr Studien zu diesen Themen veröffentlicht. Insbesondere finden Graphen-Analysen, Data-Mining und Information Retrieval spezifische Anwendungen in den Bereichen Web und soziale Medien. In dieser Dissertation präsentieren wir einige neue Bausteine der Analyse von WebVerkehr. Unsere Informationseinheit ist der Besuch, definiert als die Menge oder Sequenz der Seiten, die sich ein Nutzer innerhalb einer Session anschaut. Unsere Analysen sind vor allem dafür ausgelegt, den gesamten Verkehr in einer einzelnen Website zu verstehen. Der Fokus liegt darin, Methoden und Algorithmen herzuleiten, die nützliche Erkenntnisse aus grossen Besuchsmengen gewinnen können, jedoch eine niedrige rechnerische Komplexität aufweisen. Im ersten Thema geht as darum, das “Herz” einer Website ausfindig zu machen. Dazu braucht es analytische Werkzeuge, vorallem für die Analyse von Websites mit Tausenden oder gar Millionen Seiten. Wir formalisieren diese Fragestellung mit dem Core-Web Problem, welches darin besteht, für eine gegebene ganze Zahl b, eine Seitenmenge von Kardinalität b zu finden, die so viele Besuche wie möglich komplett enthält. Mit anderen Worten: Das Ziel ist, eine maximale Anzahl von Besuchen in ihrer Gesamtheit, also vom ersten bis zum letzten Click, zu erfassen. In den untersuchten Datensätzen ist typischerwise eine relativ niedrige Anzahl von Seiten für den Grossteil des Verkehrs verantwortlich. Wir belegen dies statistisch, und nutzen diese Eigenschaft um eine v vi Zusammenfassung Heuristik von linearer Komplexität zu entwickeln, die bei realen Daten sehr gute Resultate erzielt. Wir leiten zusätzlich eine obere Schranke für die Zielfunktion her, die ebenfalls in linearer Zeit berechenbar ist, und mit der sich die Ergebnisse der Heuristik quantitativ bewerten lassen. Wenn das Herz der Website einmal kartiert ist, stellt sich die Frage, auf welche Art und Weise sich die Besucher in der Website bewegen. Gibt es typische Laufbahnen der Navigation? Im mathematischen Sinn geht as darum, wiederkehrende Muster in einer Besuchsmenge ausfindig zu machen, was oft mit Algorithmen aus dem Bereich Data-Mining angegangen wird. Letztere Algorithmen entdecken jedoch tendenziell sehr viele Muster. Daher ist es hilfreich, eine Rangliste zu erstellen, welche diese Muster nach absteigendender Wichtigkeit oder Bedeutung sortiert darstellt. Wir entwickeln eine solche Methode für den Mustertyp partielle Ordnung. Sie basiert auf der statistischen Signifikanz der Muster mit Bezug auf eine Markov-Kette, welche ein probabilistisches Modell ist, das im Bereich des Webs wiederholt mit grossem Erfolg eingesetzt wurde. Unsere Methode erfordert die Fähigkeit, die Wahrscheinlichkeit, ein gegebenes Muster unter der Dynamik einer gegebenen Markov-Kette zu beobachten, auszurechnen. Wir entwickeln einen Algorithmus der diese Aufgabe erfüllt, und zeigen zusätzlich wie man grosse Markov-Ketten mit Zensurverfahren transformieren kann, um einzelne Wahrscheinlichkeitsberechnungen viel effizienter durchführen zu können. Der letzte Beitrag dieser Dissertation liegt in der Charakterisierung von typischen Strukturen einzelner Besuche. Insbesondere belegen wir, dass viele Besuchsdatensätze einen hohen Anteil an verschachtelten Palindromen enthalten, d.h. dass Besuche oft symmetrische Stücke aufweisen. Dies kann durch die Anwesenheit der Knöpfe “Zurück” und “Erneut laden” in praktisch jedem Web-Browser erklärt werden. Wir zeigen, wie solche Strukturen effizient aus einem Datensatz extrahiert werden können, und wie man die daraus resultierenden Messungen direkt interpretieren kann, um gewisse Aspekte der Dynamik der Website zu verstehen. Weiter schlagen wir Möglichkeiten vor, die Daten mit diesen Strukturen explizit zu bereichern, um aussagekräftigere Ergebnisse aus herkömmlichen oder zukünftigen Data-Mining Algorithmen zu gewinnen. Mit unseren Methoden kann der Online-Verkehr besser erfasst und interpretiert werden. Damit kann die zugrunde liegende Informationsnachfrage besser verstanden werden, und eine verbesserte Struktur der Website kann erzielt werden, um diese Nachfrage genauer zu erfüllen. Résumé Durant la dernière décennie, l’activité en ligne a connu une croissance phénoménale, propulsée par des avancées technologiques dans l’informatique et les réseaux de communication, ainsi que par des utilisations de plus en plus innovantes du web et par le nombre sans cesse grandissant de personnes et d’appareils connectés à internet. Cette croissance va vraisemblablement se poursuivre, puisque les téléphones mobiles permettent à de nombreux nouveaux utilisateurs préalablement déconnectés d’accéder au réseau global, et que bon nombre d’activités économiques et même sociales forment une empreinte grandissante en ligne. Comme cette activité croı̂t en importance, la demande pour les outils qui permettent de l’analyser est également en plein essor. En particulier, la littérature scientifique recense une forte hausse dans le nombre d’études d’analyse de graphes, de fouille de données et de recherche d’informations appliquées au web et aux réseaux sociaux. Nous présentons dans cette thèse plusieurs composantes utiles dans l’analyse et la compréhension du trafic web. Notre unité d’information est la visite, qui est définie comme l’ensemble ou la séquence de pages visionnées par un utilisateur durant une séance de navigation. Nos analyses s’appliquent surtout lorsque l’on cherche à comprendre la globalité du trafic sur un site donné. Notre objectif est le développement de méthodes et d’algorithmes capables de produire des aperçus utiles sur la base d’un grand ensemble de visites, tout en demeurant d’une basse complexité computationelle. Le premier thème que nous abordons est celui de la découverte du “coeur” d’un site web. En effet, pour un site qui héberge des milliers ou même des millions de pages, il s’agirait là d’une tâche très difficile sans recourir à un outil analytique. Nous formalisons cette question en présentant le problème Core-Web, qui consiste à trouver, pour un nombre entier b, l’ensemble de b pages du site qui contient pleinement autant de visites que possible. En d’autres termes, l’objectif est de saisir un nombre maximal de visites entières, de leur début jusqu’à leur fin. Il se trouve que typiquement, dans un site, un ensemble de pages relativement petit est responsable de la majorité du trafic. Nous documentons ce phénomène avec des données réelles, et l’utilisons pour présenter vii viii Résumé une heuristique de complexité linéaire pour le problème Core-Web. Nous montrons qu’elle produit de très bons résultats en pratique. Une borne supérieure de la fonction à optimiser, également calculable en un temps linéaire, est développée, ce qui permet d’évaluer la qualité des résultats de l’heuristique. Une fois que le coeur d’un site web est cartographié, une autre question d’intérêt se pose: comment les visiteurs se déplacent-ils dans le site, c’est-à-dire, quelles trajectoires typiques utilisent-ils en naviguant de page en page? En termes de visites, l’objectif est de découvrir des motifs récurrents dans un ensemble de séquences de pages, ce qui peut être résolu à l’aide de techniques de fouille de données. Bon nombre de ces dernières ont cependant tendance à découvrir un grand ensemble de motifs, et il s’avère très utile de pouvoir trier ces motifs dans un ordre décroissant de leur “degré d’intérêt”. Une telle méthode de classement est présentée pour le type de motif d’ordre partiel. Elle se base sur le niveau de significativité statistique des motifs par rapport à une chaı̂ne de Markov, un modèle probabiliste qui a déjà été utilisé dans le domaine du web avec grand succès. Notre méthode de classement repose sur la faculté de calculer la probabilité d’observer un motif donné sous la dynamique d’une chaı̂ne de Markov donnée. Nous présentons un algorithme qui effectue ce calcul, et décrivons également une manière de transformer des chaı̂nes par la technique de censure, de manière à obtenir les résultats intermédiaires de l’algorithme plus efficacement. La dernière contribution de cette thèse est de caractériser des structures typiques que l’on retrouve dans de nombreuses visites individuelles. En particulier, nous montrons que bon nombre de bases de données de visites contiennent une proportion élevée de palindromes imbriqués. Ceci peut s’expliquer par la présence des boutons “recharger” et “page prédédente” dans l’interface de quasiment tous les navigateurs web. Nous montrons comment extraire de manière efficace ce type de structure des données, et proposons des interprétations directes des mesures qui en résultent, ainsi que des techniques de préparation des données, afin d’obtenir des résultats plus riches par les algorithmes de fouille de données existants ou futurs. Les méthodes proposées permettent un traitement et une interprétation améliorés du trafic web. Elles peuvent être utilisées pour faciliter la compréhension de la demande sous-jacente d’information, ainsi que pour modifier la structure d’un site web afin de mieux satisfaire cette demande.