Social Networking for Shared Music Collections
Transcription
Social Networking for Shared Music Collections
Social Networking for Shared Music Collections Gert Kauntz LFE Medieninformatik Ludwig-Maximilians-Universität München Amalienstraße 17, 80333 München, Germany [email protected] Zusammenfassung Mit Freunden über Musik sprechen und sich neue Empfehlungen holen ist ein Teil unserer sozialen Interaktion. An diese Empfehlungen über virtuelle Communities und soziale Netzwerke zu gelangen ist ein Teil der Musiksuche übers Internet, der von immer mehr Musikplattformen eingesetzt wird. Dem steht der kontent-basierte Ansatz gegenüber, der darauf abzielt Musik zu finden, die möglichst ähnlich der Suchanfrage ist. Beide Ansätze werden gegeneinander abgewogen und es wird auf die jeweiligen Probleme aufmerksam gemacht. Die Kombination von beiden Ansätzen soll zur Behebung der Schwächen beitragen und so eine Musikempfehlung via Internet ermöglichen, die den Musikgeschmack des Users am besten trifft. 1 Einführung Ob eMule, Musicload, Amazon oder iTunes, alle verbinden zwei Gemeinsamkeiten: Musik und Internet. So wird das virtuelle Netzt zunehmend als Ersatz vom Musikladen um die Ecke. Die Vorteile sind offensichtlich: es ist bequem, spart Zeit und die Auswahl ist unbegrenzt. Dies zieht jedoch einen wesentlichen Nachteil mit sich. Wer blickt noch durch, bei dieser Fülle von Angeboten und Information? Beim Musikladen nebenan, kann man meist auf die Fachkundigkeit des Musikfachverkäufers vertrauen. Er informiert über Neuheiten und gibt Tipps die den persönlichen Musikgeschmak treffen. In der virtuellen Welt fehlt solch ein Ansprechpartner. Wie kann dieses Problem gelöst werden. Wie kann eine Applikation einem dabei behilflich sein neue Musikgruppen und Lieder, die gefallen, zu entdecken? Dazu wurden zwei verschiedene Ansätze entwickelt: Der kontent-basierte und der kollaborativ-basierte Ansatz. Die Vorgehensweise ist bei beiden Ansätzen gleich. Der User interessiert sich für eine bestimmte Band, bzw. einen bestimmten Song. Das System ermittelt daraufhin eine Reihe von Songs und/oder Bands die dem User ebenfalls gefallen könnten. Die Methode mit der die Applikation die passenden Bands und Lieder filtert ist jedoch grundverschieden. Abbildung 1. Architektur von „Recommender Systemen“ 2 Kontent-basierte Filterung in Recommender Systemen 2.1 Kontent-basierte Filterung im Bereich Musik Bei der kontent-basierten Filterung wird versucht Musikgruppen bzw. Songs herauszufiltern, die jenen ähnlich sind, welche der User in der Vergangenheit als gut erachtet hat[1]. Dies geschieht nach diversen Kriterien wie Rhythmus, Tempo, Stilrichtung und/oder Sprache/Land. Sollte sich der Benutzer beispielsweise für „Morcheeba“ interessieren, deren Stil eher langsame Beats sind, könnte das System „Massive Attack“ ermitteln, die diesem Schema ebenfalls entsprechen. Bei der Eingabe von „Oasis“, einer Pop Gruppe aus Großbritannien, könnte das Ergebnis „The Verve“ lauten, die aus dem gleichen Land stammen und deren Stil eine hohe Ähnlichkeit zu dem der Gruppe „Oasis“ aufweist. Diese Methode ist eng verwandt mit dem so genannten „Information Retrieval“[8]. 2.2 Attribute für kontent-basierte Filterung im Bereich Musik Land und Sprache werden meist als Metadaten gespeichert, während andere Attribute dynamisch ermittelt werden können. So ist es beispielsweise möglich bestimmte wiederkehrende Beatfrequenzen zu messen und daraus ein Schema zu kreieren. Dieses Schema kann mit dem anderer Songs verglichen werden und so diejenigen filtern, die vom Stil her am ähnlichsten sind[2]. Hinter Country, Heavy Metal, Brit-Pop, etc. stecken meist ähnliche Rythmen und Klangfarben. So können die meisten Lieder anhand von diesen Attributen einem Genre zugeordnet werden, und beliebig weiter spezialisiert werden. Der Kreis der gewünschten Lieder kann so anhand eines „Lieblingsliedes“ immer weiter eingeschränkt werden, abhängig davon wie sehr die Attribute spezialisiert werden. Abbildung 2. Darstellung einer kontent-basierter Filtermaschine 2.3 Probleme und Nachteile kontent-basierter Filterung Dieser Ansatz birgt jedoch diverse Nachteile und Probleme in sich. • Die Überspezialisierung ist ein generelles Problem von inhaltsbezogenen Recommender Systemen. Das System liefert dem Benutzer nur eine sehr eingeschränkte Bandbreite an Items, da evt. die Attribute zu genau spezialisiert wurden und somit gewisse Items nicht gefunden werden, obwohl sie von Interesse wären.[3] • Ein weiters Problem dieser Art von Filterung ist die Tatsache, dass davon ausgegangen wird, dass der User ähnliche Songs und Interpreten mag, wie seine Suchanfrage. Es ist somit nicht möglich in unbekannten Kategorien Empfehlungen zu erlangen. Somit geht dem Benutzer evt. Musik aus anderen Genres, die für ihn ebenfalls von Interesse wären verloren. • Ebenfalls zu erwähnen ist, dass durch diese Technik kein Feedback durch die Benutzer der Plattform erlangt wird. • Die Suchanfrage ist statisch, solange keine neuen Objekte hinzugefügt werden. Die Empfehlungen sind dadurch stark limitiert. Eine Suchanfrage wird meist immer die gleichen Ergebnisse liefern. 3 Kollaborativ-basierte Filterung in Recommender Systemen 3.1 Kollaborativ-basierte Filterung im Bereich Musik Musik beinhaltet von Natur aus eine starke soziale Komponente. Oft werden neue Songs und Interpreten durch Freunde entdeckt, indem man gemeinsam Musik hört und sich gegenseitig neue Lieder empfiehlt[7]. Dieses Prinzip versucht die kollaborativ-basierte Filterung aufzugreifen. Van Schyndel definiert es folgendermaßen: Kollaborative Filterung macht sich das Feedback der Benutzer zum Nutzen, um die Qualität des Materials, welches dem Benutzer präsentiert wird zu verbessern[8]. 3.2 Explizites vs. Implizites Rating Um personalisierte Empfehlungen geben zu können, muss die Applikation über ein Rating-System verfügen, anhand welchem die gewünschten Items ermittelt werden. Beim expliziten Rating wird der User aufgefordert ein bestimmtes Item zu bewerten. Anhand dieser expliziten Bewertungen wird dieses dem nächsten Benutzer empfohlen oder nicht empfohlen. Der wesentliche Nachteil dieser Methode ist jedoch, dass damit dem User die „Last“ der Bewertung auferlegt wird[10], was oft als unangenehm empfunden wird. Dies führt auch dazu, dass viele Benutzer überhaupt nicht werten, und damit spiegeln die Ratings nur eine Minderheit wieder, was wiederum die Qualität der Empfehlungen beeinträchtigt. Abhilfe schafft hier das implizite Rating, welches darauf beruht, dass der User seine Bewertungen „en passe“ abgibt. Indikatoren die ein explizites Rating ersetzten sind beispielsweise die Häufigkeit, die ein User ein bestimmtes Item aufruft, die Zeit die auf einer Seite verbracht wird, auf der das Item angezeigt wird, die Anzahl der Klicks auf ein Item, oder die Kombination dieser Kriterien. Hauptproblem bei diesem Vorgehen ist der Datenschutz. Selbst wenn die Anonymität des Users gewährleistet wird, wird es doch von vielen Benutzern nicht gewünscht vom System analysiert zu werden. 3.3 Techniken kollaborativ-basierter Filterung Es gibt diverse Techniken mit denen kollaboratives Filtern realisiert werden kann. Manche verwenden Data Mining Algorithmen, wobei andere auf k-nearest neighbour Anfragen setzten. Ein weiterer Algorithmus nennt sich „Eigentaste“ und ist ein kollaborativ-basierter Filterungsalgorithmus in konstanter Zeit[11]. Er verwendet „universal queries“ um User ratings auf einem bestimmten Satz von Items zu eruieren und wendet dann eine Komponenten Analyse (PCA) an, um die Fülle der Ergebnismatrix zu spezialisieren. Dies ermöglicht eine schnelle Verarbeitung der Daten und Erstellung einer Empfehlung. Bei einer Datenbank mit n Usern braucht ein herkömmlicher Algorithmus, der auf die nearest-neighbour Technik setzt eine Laufzeit von O(n), wohingegen Eigentaste bei gleicher Präzision konstante Laufzeit O(1) erreicht. Abbildung 3: Darstellung einer kollaborativ-basierten Filtermaschine 3.4 Beispiele für kollaborativ-basierte Filterung • Die wohl bekannteste Firma die kollaborativ-basierte Filterung einsetzt ist amazon. Bei einer Anfrage erscheinen sofort diverse andere Produkte die ebenfalls gefallen könnten. Bei Eingabe von der irischen Gruppe „Coldplay“ erscheint neben den Alben auch die Gruppe Keane mit ihrem aktuellen Album. Sie steht unter der Rubrik: „Das könnte Ihnen gefallen“[9]. Amazon bedient sich hier sowohl einer impliziten als auch einer expliziten kollaborativen Filterung. Amazon verfolgt nach welche Kunden, welche Art von Musik gekauft haben. Die Empfehlung wird dann nach dem Prinzip: „Kunden die diese CD gekauft haben, haben auch jene CD gekauft.“ geliefert. Neben dieser impliziten Form verwendet amazon ein Bewertungssystem, dass die Möglichkeit bietet Produkte nach dem Kauf explizit zu bewerten, und somit potentiellen Neukunden dieses Produkt zu empfehlen. Abbildung 4. Empfehlungen von Amazon (linke Spalte) • Eine Idee von Hewlett Packard war ein kollaborativ-basiertes System zu erstellen, das Musik und Freundschaft kombiniert, der „Music Buddy“[7]. Die Applikation beruht auf der Annahme, dass bei Leuten die zum Teil gleiche Musik auf ihrem Computer gespeichert haben die Wahrscheinlichkeit hoch ist neue Musik zu entdecken, die ebenfalls interessiert. Anfangs wird die Musik Sammlung vom User auf einen zentralen Server hochgeladen und angezeigt. Bei einem Klick auf ein Lied werden die User angezeigt die ebenfalls dieses Lied in ihrer Sammlung haben. Es besteht nun die Möglichkeit in den Sammlungen jener User zu browsen und so neue Musik zu entdecken. Abbildung 4. Die Music Buddy Applikation 3.5 Probleme kollaborativ-basierter Filterung • Eines der Hauptprobleme dieser Filtertechnik ist das „Kaltstartproblem“[3]. Da dieser Ansatz besser funktioniert, je mehr User ihre Empfehlungen abgeben haben, bzw. je mehr Leute bereits die entsprechende Plattform genutzt haben, ist es für eine treffsichere Suche essentiell ein gewisses Maß von Benutzern zählen zu können. Wird aber eine Recommender Plattform freigeschaltet, die diese Technik verwendet, führt dies häufig zu ungenauen oder schlimmer noch gar keinen Ergebnissen bei der Suche, da noch niemand oder sehr wenige das System verwenden. Die Konsequenz ist oft Frustration und Abwanderung der Benutzer. Wenn wir das Beispiel Amazon.de betrachten, werden wir feststellen, dass einige Artikel noch keine Kundenrezessionen haben. Dies wird oft als schlechtes Zeichen interpretiert und der Kauf nicht getätigt. • Ein weiteres Problem von einigen (nicht aller) Systeme ist die Spärlichkeit der Rezessionen. Jene Systeme die auf ein nachträgliches Rating des Kunden bauen und daraus ihre Empfehlungen für potentielle neue Kunden erstellen, haben oft mit dem Problem zu kämpfen, dass sehr wenige Kunden das Produkt bewerten. Nur etwa 1% der Käufer im Nachhinein Bewertungen tätigen[4]. • Verwand mit dem „Kaltstartproblem“ ist das „New Item Problem“. Wenn ein neues Lied in die Datenbank hinzugefügt wird, wird es anfangs sehr selten oder gar nicht empfohlen, da noch keine Rezessionen über es bestehen, bzw. da es noch nie referenziert wurde. • Bei dem „Black Box Problem“ tritt die Schwierigkeit der Undurchsichtbarkeit auf. Die Ausgabe kann nicht gesteuert werden[3] Es werden mit manchmal auch Songs und Interpreten gefunden, die rein „zufällig“ mit der Suchanfrage verlinkt sind. Angenommen, man sucht nach einer Band, die sehr neu oder noch relativ unbekannt ist. Wurde diese Band erst von wenigen Usern ermittelt oder bewertet, so werden abstruse Verlinkungen mit dieser Band entstehen, die mehr nach Zufall als nach Empfehlung aussehen könnten. • User mit eher außergewöhnlichem Musikgeschmack werden bei kollaborativ-basierten Systemen oft auf der Strecke bleiben, da mit großer Wahrscheinlichkeit wenig oder gar keine anderen User vorhanden sind mit demselben Musikgeschmack. Folglich scheitert hier das Grundprinzip und es werden keine treffenden Ergebnisse ermittelt. 4 Kombination von Kollaboration und Inhalt 4.1 Prinzip Wie eingangs erwähnt ist es möglich durch eine Kombination von kontent-basierter Suche und kollaborativ-basierter Suche die Nachteile bieder Filterungsverfahren auf ein Minimum zu begrenzen, aber dennoch die Vorteile beider Techniken genießen zu können. Es werden also sowohl inhaltliche, als auch kollaborative Kriterien auf die Suchanfrage angewendet. Dabei ist das Maß, wie stark die jeweiligen Anteile auf die letztendliche Empfehlung einfließen noch zu bestimmen. Dies stellt eine Schwierigkeit dar, die aber, verglichen mit den Problemen beider Methoden, eine überschaubare Fehlerquelle ist. Ein oft verwendeter Ansatz ist die Kombination von kollaborativer Filterung mit personellen Agenten, auch personal Agents genannt. 4.2 Kombination von kollaborativ-basierter Filterung und Personal Agents Studien haben gezeigt, dass mit kollaborativer Filterung bessere Empfehlungen gegeben werden können als mit inhaltsbasierter[12]. Der Ansatz sollte also sein den kollaborativen Algorithmus um eine kontent-basierte Komponente zu erweitern, nicht umgekehrt. Wir betrachten also die Schwächen von kollaborativen Filterungstechniken und die Möglichkeit diese zu beheben. Dazu ist der Einsatz von Agenten notwendig, die bestimmte Kriterien wie Rhythmus, Klangfarbe, etc, aber auch Metadaten wie Land, Sprache, usw. spezifizieren. Diese fließen dann in das kollaborativ-basierte Suchergebnis mit ein. Dies hätte den Effekt der Lösung des Kaltstart Problems, da bereits Empfehlungen gemacht werden können, auch wenn noch keine Userwertungen vorhanden sind. Auf diese Weise würden auch das New Item Problem, sowie das Problem der Spärlichkeit der Rezession gelöst. User mit außergewöhnlichem Musikgeschmack würden bei dieser Methode ebenfalls mit Empfehlungen bedient werden, wodurch die implizit selbst wieder Empfehlungen abgeben über jene Musik, und so diese auch kollaborativ referenziert werden kann. Das Black-Box Problem würde so ebenfalls unterbunden, da eine Willkür bei wenigen Ratings durch Kontentbasierung unterbunden wird. Abbildung 5. Vier Typen von Recommender System. Die Abbildung links-oben verwendet User Empfehlungen, während die Abbildungen unten nur auf Agenten basieren. Die Kombination davon ist die Abbildung rechts-oben. 4.3 Beispiele für inhalts- und kollaborativ kombinierte Systeme • Liveplasma ist ein Music Recommender System, welches hauptsächlich auf kollaborativ-basierte Filterung baut, jedoch auch kontent-basierte Filterung verwendet[13]. Der Ablauf ist folgender: Der User gibt in das Suchfeld eine Band ein, die er gerne hört. Darauf hin ermittelt Liveplasma eine Karte mit diversen Bands, die unterschiedlich nahe zu der Suchanfrage angeordnet sind. Dabei ist die Wahrscheinlichkeit bei jenen Bands die näher dem Item sind höher, das sie den Benutzer interessieren. Die Größe der Kugeln sagt aus wie populär die jeweilige Band ist, bzw. wie oft sie referenziert wird. Neben den kollaborativen Kriterien sind die Daten auch nach inhaltsbasierten Kriterien gruppiert, wie beispielsweise Stil, Epoche, etc. Abbildung 6. Das Music Recommender System LivePlasma • Pandora, ein früher reines kontent-basiertes System hat, hat nun ebenfalls kollaborativ-basierte Filterung mit aufgenommen. Das Prinzip ist folgendes: Nach Eingabe einer Band oder eines Liedes wird ein persönlicher Radiosender erstellt. Die Idee von Pandora ist Lieder nicht nach Genre, Land oder anderen Metadaten zu empfehlen, sondern rein danach, wie ein Stück klingt. Dabei spielen Attribute wie Melodie, Harmonie, Rhythmus, Instrumente, Arrangement, etc eine Rolle. Dies klingt nach einem rein inhaltsbezogenen Ansatz, der anfangs auch alleine so verwendet wurde. Pandora räumte jedoch ein, dass es eine Breite von Songs gibt, die nicht von musikspezifischen Kriterien erfasst werden können, also nicht durch Rhythmus, Melodie oder Instrumente. Diese Lieder sollen durch die neu eingesetzte kollaborative Filterung ebenfalls gefunden und empfohlen werden[14]. Zusätzlich bietet Pandora jetzt auch die Möglichkeit jeden Song zu bewerten und so zu verhindern, das, im Falle einer negativen Bewertung, der gleiche Song erneut in das „persönliche Radio“ aufgenommen wird. Gleichzeitig wird auch der Schluss gezogen, wenn viele User eine Band oder ein Lied negativ bewerten, wird dieses nicht mehr so oft in „persönlichen Radiostationen“ erscheinen. Abbildung 7. Das Music Recommender System Pandora 5 Zusammenfassung Bei der Diskussion von inhaltsbezogener Filterung gegenüber kollaborativ-basierter Filterung schneidet die kollaborative besser ab. Jedoch beinhaltet sie diverse Probleme, wie das Black-Box, das Kaltstart und das New Item Problem. Es ergibt sich evt. auch ein Problem bei Spärlichkeit der Rezessionen. Die Kombination von Kontent-Basierung und Kollaborationsbasierung schafft Abhilfe. Hier werden so genannte Agenten eingesetzt, die das kollaborativ-basierte Ergebnis genauer spezifizieren. Applikationen die auf diese Technik bauen sind u.a. Pandora und Liveplasma. Literatur 1. Marko Balabanovic, Yoav Shoham. Fab: Content-based, Collaborative Recommendation 2. Otmar Hilliges, Phillip Holzer, Rene Klüber, Andreas Butz. AudioRadar: A metaphorical visualization for the navigation of large music collections 3. Sabine Kuzdas. Schwachstellen von Recommender Systemen 4. Badrul M., Sarwar, Joseph A. Konstan, Al Borchers, Jon Herlocker, Brad Miller and John Riedl. Using Filtering Agents to Improve Prediction Quality in the GroupLens Research Collaborative Filtering System 5. Loren Terveen and Will Hill. Beyond Recommender Systems: Helping People Help Each Other 6. Marko Recommender systems: Interfaces and Architectures 7. Barry Brown1, Abigail J. Sellen, Erik Geelhoed. Music Sharing as a Computer Supported Collaborative Application 8. Alexandra Uitdenbogerd and Ron van Schyndel. A Review of Factors Affecting Music Recommender Success 9. Deutsche Website von dem amerikanischen Konzern Amazon. http://www.amazon.de 10. Lee Becker, David Brown, Mark Claypool and Carolina Ruiz. Research in Recommender Systems at Worcester Polytechnic Institute. http://www.cs.wpi.edu/Research/refer 11. Ken Goldberg, Theresa Roeder, Dhruv Gupta, and Chris Perkins. Eigentaste: A Constant Time Collaborative Filtering Algorithm. http://eigentaste.berkeley.edu/ 12. Nathaniel Good, J. Ben Schafer, Joseph A. Konstan, Al Borchers, Badrul Sarwar, Jon Herlocker, and John Riedl. Combining Collaborative Filtering with Personal Agents for Better Recommendations 13. Das Music Recommender System Liveplasma. http://www.liveplasma.com 14. Das Music Recommender System Pandora. http://www.pandora.com