Social Networking for Shared Music Collections

Transcription

Social Networking for Shared Music Collections
Social Networking for Shared Music Collections
Gert Kauntz
LFE Medieninformatik
Ludwig-Maximilians-Universität München
Amalienstraße 17, 80333 München, Germany
[email protected]
Zusammenfassung Mit Freunden über Musik sprechen und sich neue
Empfehlungen holen ist ein Teil unserer sozialen Interaktion. An diese
Empfehlungen über virtuelle Communities und soziale Netzwerke zu gelangen
ist ein Teil der Musiksuche übers Internet, der von immer mehr
Musikplattformen eingesetzt wird. Dem steht der kontent-basierte Ansatz
gegenüber, der darauf abzielt Musik zu finden, die möglichst ähnlich der
Suchanfrage ist. Beide Ansätze werden gegeneinander abgewogen und es wird
auf die jeweiligen Probleme aufmerksam gemacht. Die Kombination von
beiden Ansätzen soll zur Behebung der Schwächen beitragen und so eine
Musikempfehlung via Internet ermöglichen, die den Musikgeschmack des
Users am besten trifft.
1
Einführung
Ob eMule, Musicload, Amazon oder iTunes, alle verbinden zwei Gemeinsamkeiten:
Musik und Internet. So wird das virtuelle Netzt zunehmend als Ersatz vom
Musikladen um die Ecke.
Die Vorteile sind offensichtlich: es ist bequem, spart Zeit und die Auswahl ist
unbegrenzt. Dies zieht jedoch einen wesentlichen Nachteil mit sich. Wer blickt noch
durch, bei dieser Fülle von Angeboten und Information? Beim Musikladen nebenan,
kann man meist auf die Fachkundigkeit des Musikfachverkäufers vertrauen.
Er informiert über Neuheiten und gibt Tipps die den persönlichen Musikgeschmak
treffen. In der virtuellen Welt fehlt solch ein Ansprechpartner. Wie kann dieses
Problem gelöst werden. Wie kann eine Applikation einem dabei behilflich sein neue
Musikgruppen und Lieder, die gefallen, zu entdecken?
Dazu wurden zwei verschiedene Ansätze entwickelt: Der kontent-basierte und der
kollaborativ-basierte Ansatz. Die Vorgehensweise ist bei beiden Ansätzen gleich. Der
User interessiert sich für eine bestimmte Band, bzw. einen bestimmten Song. Das
System ermittelt daraufhin eine Reihe von Songs und/oder Bands die dem User
ebenfalls gefallen könnten.
Die Methode mit der die Applikation die passenden Bands und Lieder filtert ist
jedoch grundverschieden.
Abbildung 1. Architektur von „Recommender Systemen“
2
Kontent-basierte Filterung in Recommender Systemen
2.1
Kontent-basierte Filterung im Bereich Musik
Bei der kontent-basierten Filterung wird versucht Musikgruppen bzw. Songs
herauszufiltern, die jenen ähnlich sind, welche der User in der Vergangenheit als gut
erachtet hat[1].
Dies geschieht nach diversen Kriterien wie Rhythmus, Tempo, Stilrichtung
und/oder Sprache/Land. Sollte sich der Benutzer beispielsweise für „Morcheeba“
interessieren, deren Stil eher langsame Beats sind, könnte das System „Massive
Attack“ ermitteln, die diesem Schema ebenfalls entsprechen.
Bei der Eingabe von „Oasis“, einer Pop Gruppe aus Großbritannien, könnte das
Ergebnis „The Verve“ lauten, die aus dem gleichen Land stammen und deren Stil eine
hohe Ähnlichkeit zu dem der Gruppe „Oasis“ aufweist.
Diese Methode ist eng verwandt mit dem so genannten „Information Retrieval“[8].
2.2
Attribute für kontent-basierte Filterung im Bereich Musik
Land und Sprache werden meist als Metadaten gespeichert, während andere
Attribute dynamisch ermittelt werden können. So ist es beispielsweise möglich
bestimmte wiederkehrende Beatfrequenzen zu messen und daraus ein Schema zu
kreieren. Dieses Schema kann mit dem anderer Songs verglichen werden und so
diejenigen filtern, die vom Stil her am ähnlichsten sind[2].
Hinter Country, Heavy Metal, Brit-Pop, etc. stecken meist ähnliche Rythmen und
Klangfarben. So können die meisten Lieder anhand von diesen Attributen einem
Genre zugeordnet werden, und beliebig weiter spezialisiert werden. Der Kreis der
gewünschten Lieder kann so anhand eines „Lieblingsliedes“ immer weiter
eingeschränkt werden, abhängig davon wie sehr die Attribute spezialisiert werden.
Abbildung 2. Darstellung einer kontent-basierter Filtermaschine
2.3
Probleme und Nachteile kontent-basierter Filterung
Dieser Ansatz birgt jedoch diverse Nachteile und Probleme in sich.
• Die Überspezialisierung ist ein generelles Problem von
inhaltsbezogenen Recommender Systemen. Das System liefert dem
Benutzer nur eine sehr eingeschränkte Bandbreite an Items, da evt. die
Attribute zu genau spezialisiert wurden und somit gewisse Items nicht
gefunden werden, obwohl sie von Interesse wären.[3]
• Ein weiters Problem dieser Art von Filterung ist die Tatsache, dass
davon ausgegangen wird, dass der User ähnliche Songs und Interpreten
mag, wie seine Suchanfrage. Es ist somit nicht möglich in unbekannten
Kategorien Empfehlungen zu erlangen. Somit geht dem Benutzer evt.
Musik aus anderen Genres, die für ihn ebenfalls von Interesse wären
verloren.
• Ebenfalls zu erwähnen ist, dass durch diese Technik kein Feedback
durch die Benutzer der Plattform erlangt wird.
• Die Suchanfrage ist statisch, solange keine neuen Objekte hinzugefügt
werden. Die Empfehlungen sind dadurch stark limitiert. Eine
Suchanfrage wird meist immer die gleichen Ergebnisse liefern.
3
Kollaborativ-basierte Filterung in Recommender Systemen
3.1
Kollaborativ-basierte Filterung im Bereich Musik
Musik beinhaltet von Natur aus eine starke soziale Komponente. Oft werden neue
Songs und Interpreten durch Freunde entdeckt, indem man gemeinsam Musik hört
und sich gegenseitig neue Lieder empfiehlt[7]. Dieses Prinzip versucht die
kollaborativ-basierte Filterung aufzugreifen. Van Schyndel definiert es
folgendermaßen: Kollaborative Filterung macht sich das Feedback der Benutzer zum
Nutzen, um die Qualität des Materials, welches dem Benutzer präsentiert wird zu
verbessern[8].
3.2
Explizites vs. Implizites Rating
Um personalisierte Empfehlungen geben zu können, muss die Applikation über ein
Rating-System verfügen, anhand welchem die gewünschten Items ermittelt werden.
Beim expliziten Rating wird der User aufgefordert ein bestimmtes Item zu
bewerten. Anhand dieser expliziten Bewertungen wird dieses dem nächsten Benutzer
empfohlen oder nicht empfohlen. Der wesentliche Nachteil dieser Methode ist jedoch,
dass damit dem User die „Last“ der Bewertung auferlegt wird[10], was oft als
unangenehm empfunden wird. Dies führt auch dazu, dass viele Benutzer überhaupt
nicht werten, und damit spiegeln die Ratings nur eine Minderheit wieder, was
wiederum die Qualität der Empfehlungen beeinträchtigt.
Abhilfe schafft hier das implizite Rating, welches darauf beruht, dass der User
seine Bewertungen „en passe“ abgibt. Indikatoren die ein explizites Rating ersetzten
sind beispielsweise die Häufigkeit, die ein User ein bestimmtes Item aufruft, die Zeit
die auf einer Seite verbracht wird, auf der das Item angezeigt wird, die Anzahl der
Klicks auf ein Item, oder die Kombination dieser Kriterien. Hauptproblem bei diesem
Vorgehen ist der Datenschutz. Selbst wenn die Anonymität des Users gewährleistet
wird, wird es doch von vielen Benutzern nicht gewünscht vom System analysiert zu
werden.
3.3
Techniken kollaborativ-basierter Filterung
Es gibt diverse Techniken mit denen kollaboratives Filtern realisiert werden kann.
Manche verwenden Data Mining Algorithmen, wobei andere auf k-nearest neighbour
Anfragen setzten.
Ein weiterer Algorithmus nennt sich „Eigentaste“ und ist ein kollaborativ-basierter
Filterungsalgorithmus in konstanter Zeit[11]. Er verwendet „universal queries“ um
User ratings auf einem bestimmten Satz von Items zu eruieren und wendet dann eine
Komponenten Analyse (PCA) an, um die Fülle der Ergebnismatrix zu spezialisieren.
Dies ermöglicht eine schnelle Verarbeitung der Daten und Erstellung einer
Empfehlung. Bei einer Datenbank mit n Usern braucht ein herkömmlicher
Algorithmus, der auf die nearest-neighbour Technik setzt eine Laufzeit von O(n),
wohingegen Eigentaste bei gleicher Präzision konstante Laufzeit O(1) erreicht.
Abbildung 3: Darstellung einer kollaborativ-basierten Filtermaschine
3.4
Beispiele für kollaborativ-basierte Filterung
• Die wohl bekannteste Firma die kollaborativ-basierte Filterung einsetzt
ist amazon. Bei einer Anfrage erscheinen sofort diverse andere Produkte
die ebenfalls gefallen könnten. Bei Eingabe von der irischen Gruppe
„Coldplay“ erscheint neben den Alben auch die Gruppe Keane mit
ihrem aktuellen Album. Sie steht unter der Rubrik: „Das könnte Ihnen
gefallen“[9]. Amazon bedient sich hier sowohl einer impliziten als auch
einer expliziten kollaborativen Filterung. Amazon verfolgt nach welche
Kunden, welche Art von Musik gekauft haben. Die Empfehlung wird
dann nach dem Prinzip: „Kunden die diese CD gekauft haben, haben
auch jene CD gekauft.“ geliefert. Neben dieser impliziten Form
verwendet amazon ein Bewertungssystem, dass die Möglichkeit bietet
Produkte nach dem Kauf explizit zu bewerten, und somit potentiellen
Neukunden dieses Produkt zu empfehlen.
Abbildung 4. Empfehlungen von Amazon (linke Spalte)
• Eine Idee von Hewlett Packard war ein kollaborativ-basiertes System zu
erstellen, das Musik und Freundschaft kombiniert, der „Music
Buddy“[7]. Die Applikation beruht auf der Annahme, dass bei Leuten
die zum Teil gleiche Musik auf ihrem Computer gespeichert haben die
Wahrscheinlichkeit hoch ist neue Musik zu entdecken, die ebenfalls
interessiert. Anfangs wird die Musik Sammlung vom User auf einen
zentralen Server hochgeladen und angezeigt. Bei einem Klick auf ein
Lied werden die User angezeigt die ebenfalls dieses Lied in ihrer
Sammlung haben. Es besteht nun die Möglichkeit in den Sammlungen
jener User zu browsen und so neue Musik zu entdecken.
Abbildung 4. Die Music Buddy Applikation
3.5
Probleme kollaborativ-basierter Filterung
• Eines
der
Hauptprobleme
dieser
Filtertechnik
ist
das
„Kaltstartproblem“[3]. Da dieser Ansatz besser funktioniert, je mehr
User ihre Empfehlungen abgeben haben, bzw. je mehr Leute bereits die
entsprechende Plattform genutzt haben, ist es für eine treffsichere Suche
essentiell ein gewisses Maß von Benutzern zählen zu können. Wird aber
eine Recommender Plattform freigeschaltet, die diese Technik
verwendet, führt dies häufig zu ungenauen oder schlimmer noch gar
keinen Ergebnissen bei der Suche, da noch niemand oder sehr wenige
das System verwenden. Die Konsequenz ist oft Frustration und
Abwanderung der Benutzer. Wenn wir das Beispiel Amazon.de
betrachten, werden wir feststellen, dass einige Artikel noch keine
Kundenrezessionen haben. Dies wird oft als schlechtes Zeichen
interpretiert und der Kauf nicht getätigt.
• Ein weiteres Problem von einigen (nicht aller) Systeme ist die
Spärlichkeit der Rezessionen. Jene Systeme die auf ein nachträgliches
Rating des Kunden bauen und daraus ihre Empfehlungen für potentielle
neue Kunden erstellen, haben oft mit dem Problem zu kämpfen, dass
sehr wenige Kunden das Produkt bewerten. Nur etwa 1% der Käufer im
Nachhinein Bewertungen tätigen[4].
• Verwand mit dem „Kaltstartproblem“ ist das „New Item Problem“.
Wenn ein neues Lied in die Datenbank hinzugefügt wird, wird es
anfangs sehr selten oder gar nicht empfohlen, da noch keine
Rezessionen über es bestehen, bzw. da es noch nie referenziert wurde.
• Bei dem „Black Box Problem“ tritt die Schwierigkeit der
Undurchsichtbarkeit auf. Die Ausgabe kann nicht gesteuert werden[3]
Es werden mit manchmal auch Songs und Interpreten gefunden, die rein
„zufällig“ mit der Suchanfrage verlinkt sind. Angenommen, man sucht
nach einer Band, die sehr neu oder noch relativ unbekannt ist. Wurde
diese Band erst von wenigen Usern ermittelt oder bewertet, so werden
abstruse Verlinkungen mit dieser Band entstehen, die mehr nach Zufall
als nach Empfehlung aussehen könnten.
• User mit eher außergewöhnlichem Musikgeschmack werden bei
kollaborativ-basierten Systemen oft auf der Strecke bleiben, da mit
großer Wahrscheinlichkeit wenig oder gar keine anderen User
vorhanden sind mit demselben Musikgeschmack. Folglich scheitert hier
das Grundprinzip und es werden keine treffenden Ergebnisse ermittelt.
4
Kombination von Kollaboration und Inhalt
4.1
Prinzip
Wie eingangs erwähnt ist es möglich durch eine Kombination von kontent-basierter
Suche und kollaborativ-basierter Suche die Nachteile bieder Filterungsverfahren auf
ein Minimum zu begrenzen, aber dennoch die Vorteile beider Techniken genießen zu
können.
Es werden also sowohl inhaltliche, als auch kollaborative Kriterien auf die
Suchanfrage angewendet. Dabei ist das Maß, wie stark die jeweiligen Anteile auf die
letztendliche Empfehlung einfließen noch zu bestimmen. Dies stellt eine
Schwierigkeit dar, die aber, verglichen mit den Problemen beider Methoden, eine
überschaubare Fehlerquelle ist. Ein oft verwendeter Ansatz ist die Kombination von
kollaborativer Filterung mit personellen Agenten, auch personal Agents genannt.
4.2
Kombination von kollaborativ-basierter Filterung und Personal Agents
Studien haben gezeigt, dass mit kollaborativer Filterung bessere Empfehlungen
gegeben werden können als mit inhaltsbasierter[12]. Der Ansatz sollte also sein den
kollaborativen Algorithmus um eine kontent-basierte Komponente zu erweitern, nicht
umgekehrt.
Wir betrachten also die Schwächen von kollaborativen Filterungstechniken und die
Möglichkeit diese zu beheben. Dazu ist der Einsatz von Agenten notwendig, die
bestimmte Kriterien wie Rhythmus, Klangfarbe, etc, aber auch Metadaten wie Land,
Sprache, usw. spezifizieren. Diese fließen dann in das kollaborativ-basierte
Suchergebnis mit ein.
Dies hätte den Effekt der Lösung des Kaltstart Problems, da bereits Empfehlungen
gemacht werden können, auch wenn noch keine Userwertungen vorhanden sind.
Auf diese Weise würden auch das New Item Problem, sowie das Problem der
Spärlichkeit der Rezession gelöst.
User mit außergewöhnlichem Musikgeschmack würden bei dieser Methode
ebenfalls mit Empfehlungen bedient werden, wodurch die implizit selbst wieder
Empfehlungen abgeben über jene Musik, und so diese auch kollaborativ referenziert
werden kann.
Das Black-Box Problem würde so ebenfalls unterbunden, da eine Willkür bei
wenigen Ratings durch Kontentbasierung unterbunden wird.
Abbildung 5. Vier Typen von Recommender System. Die Abbildung links-oben
verwendet User Empfehlungen, während die Abbildungen unten nur auf Agenten
basieren. Die Kombination davon ist die Abbildung rechts-oben.
4.3
Beispiele für inhalts- und kollaborativ kombinierte Systeme
• Liveplasma ist ein Music Recommender System, welches hauptsächlich
auf kollaborativ-basierte Filterung baut, jedoch auch kontent-basierte
Filterung verwendet[13]. Der Ablauf ist folgender: Der User gibt in das
Suchfeld eine Band ein, die er gerne hört. Darauf hin ermittelt
Liveplasma eine Karte mit diversen Bands, die unterschiedlich nahe zu
der Suchanfrage angeordnet sind. Dabei ist die Wahrscheinlichkeit bei
jenen Bands die näher dem Item sind höher, das sie den Benutzer
interessieren. Die Größe der Kugeln sagt aus wie populär die jeweilige
Band ist, bzw. wie oft sie referenziert wird. Neben den kollaborativen
Kriterien sind die Daten auch nach inhaltsbasierten Kriterien gruppiert,
wie beispielsweise Stil, Epoche, etc.
Abbildung 6. Das Music Recommender System LivePlasma
• Pandora, ein früher reines kontent-basiertes System hat, hat nun
ebenfalls kollaborativ-basierte Filterung mit aufgenommen. Das Prinzip
ist folgendes: Nach Eingabe einer Band oder eines Liedes wird ein
persönlicher Radiosender erstellt. Die Idee von Pandora ist Lieder nicht
nach Genre, Land oder anderen Metadaten zu empfehlen, sondern rein
danach, wie ein Stück klingt. Dabei spielen Attribute wie Melodie,
Harmonie, Rhythmus, Instrumente, Arrangement, etc eine Rolle. Dies
klingt nach einem rein inhaltsbezogenen Ansatz, der anfangs auch
alleine so verwendet wurde. Pandora räumte jedoch ein, dass es eine
Breite von Songs gibt, die nicht von musikspezifischen Kriterien erfasst
werden können, also nicht durch Rhythmus, Melodie oder Instrumente.
Diese Lieder sollen durch die neu eingesetzte kollaborative Filterung
ebenfalls gefunden und empfohlen werden[14]. Zusätzlich bietet
Pandora jetzt auch die Möglichkeit jeden Song zu bewerten und so zu
verhindern, das, im Falle einer negativen Bewertung, der gleiche Song
erneut in das „persönliche Radio“ aufgenommen wird. Gleichzeitig wird
auch der Schluss gezogen, wenn viele User eine Band oder ein Lied
negativ bewerten, wird dieses nicht mehr so oft in „persönlichen
Radiostationen“ erscheinen.
Abbildung 7. Das Music Recommender System Pandora
5
Zusammenfassung
Bei der Diskussion von inhaltsbezogener Filterung gegenüber kollaborativ-basierter
Filterung schneidet die kollaborative besser ab. Jedoch beinhaltet sie diverse
Probleme, wie das Black-Box, das Kaltstart und das New Item Problem. Es ergibt
sich evt. auch ein Problem bei Spärlichkeit der Rezessionen. Die Kombination von
Kontent-Basierung und Kollaborationsbasierung schafft Abhilfe. Hier werden so
genannte Agenten eingesetzt, die das kollaborativ-basierte Ergebnis genauer
spezifizieren. Applikationen die auf diese Technik bauen sind u.a. Pandora und
Liveplasma.
Literatur
1. Marko Balabanovic, Yoav Shoham. Fab: Content-based, Collaborative Recommendation
2. Otmar Hilliges, Phillip Holzer, Rene Klüber, Andreas Butz. AudioRadar: A metaphorical
visualization for the navigation of large music collections
3. Sabine Kuzdas. Schwachstellen von Recommender Systemen
4. Badrul M., Sarwar, Joseph A. Konstan, Al Borchers, Jon Herlocker, Brad Miller and John
Riedl. Using Filtering Agents to Improve Prediction Quality in the GroupLens Research
Collaborative Filtering System
5. Loren Terveen and Will Hill. Beyond Recommender Systems: Helping People Help Each
Other
6. Marko
Recommender systems: Interfaces and Architectures
7. Barry Brown1, Abigail J. Sellen, Erik Geelhoed. Music Sharing as a Computer Supported
Collaborative Application
8. Alexandra Uitdenbogerd and Ron van Schyndel. A Review of Factors Affecting Music
Recommender Success
9. Deutsche Website von dem amerikanischen Konzern Amazon. http://www.amazon.de
10. Lee Becker, David Brown, Mark Claypool and Carolina Ruiz. Research in Recommender
Systems at Worcester Polytechnic Institute. http://www.cs.wpi.edu/Research/refer
11. Ken Goldberg, Theresa Roeder, Dhruv Gupta, and Chris Perkins. Eigentaste: A Constant
Time Collaborative Filtering Algorithm. http://eigentaste.berkeley.edu/
12. Nathaniel Good, J. Ben Schafer, Joseph A. Konstan, Al Borchers, Badrul Sarwar, Jon
Herlocker, and John Riedl. Combining Collaborative Filtering with Personal Agents for
Better Recommendations
13. Das Music Recommender System Liveplasma. http://www.liveplasma.com
14. Das Music Recommender System Pandora. http://www.pandora.com