Présentation Alexandre Spaeth
Transcription
Présentation Alexandre Spaeth
Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Application de filtres collaboratifs et de fouille de texte pour sites de rencontres Alexandre SPAETH 26 avril 2011 Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 1/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 2/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Cadre Revue de littérature Problématique Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 3/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Cadre de la recherche Depuis l’avènement du web 2.0, de nombreuses applications ont vu le jour. Parmi celles-ci : les sites de rencontres en ligne. Mais avec 20 millions de membres sur eHarmony et 15 millions sur Match.com, comment trouver l’âme sœur ? La mise en ligne des magasins nécessite de bons outils de recherche. Notamment, certains sites ont mis en place des techniques de recommandation utilisent les filtres collaboratifs. Peut-on adapter ces techniques aux particularités des sites de rencontres afin d’améliorer les résultats de recherche ? Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 4/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Cadre de la recherche Depuis l’avènement du web 2.0, de nombreuses applications ont vu le jour. Parmi celles-ci : les sites de rencontres en ligne. Mais avec 20 millions de membres sur eHarmony et 15 millions sur Match.com, comment trouver l’âme sœur ? La mise en ligne des magasins nécessite de bons outils de recherche. Notamment, certains sites ont mis en place des techniques de recommandation utilisent les filtres collaboratifs. Peut-on adapter ces techniques aux particularités des sites de rencontres afin d’améliorer les résultats de recherche ? Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 4/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Les filtres collaboratifs Ils sont apparus au milieu des années 90 pour les groupes de discussion [Resnick et al.(1994)]. Il y a eu beaucoup de travail au tournant du siècle [Breese et al.(1998)]. Amazon les a grandement popularisé au début des années 2000 [Linden et al.(2003)]. La compétition Netflix a permis un grand coup de projecteur à la fin des années 2000. [Töscher et al.(2009)]. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 5/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Sites de rencontres et filtres collaboratifs On sait tous de quoi il s’agit. Il en existe probablement des milliers. Peu de recherches scientifiques publiées sur le sujet. C’est un milieu très fermé. Une des plus intéressantes : [Hitsch et al.(2004)]. Avec les filtres collaboratifs : là encore, peu de recherches. Une application des techniques classiques : [Brozovsky(2006)]. Une étude plus intéressante : [Pizzato et al.(2010a)]. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 6/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Sites de rencontres et filtres collaboratifs On sait tous de quoi il s’agit. Il en existe probablement des milliers. Peu de recherches scientifiques publiées sur le sujet. C’est un milieu très fermé. Une des plus intéressantes : [Hitsch et al.(2004)]. Avec les filtres collaboratifs : là encore, peu de recherches. Une application des techniques classiques : [Brozovsky(2006)]. Une étude plus intéressante : [Pizzato et al.(2010a)]. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 6/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique L’extraction de texte Beaucoup de travaux dans ce domaine. Un article de synthèse [Kukich(1992)] et un livre [Jurafsky et Martin(2009)]. Peut-être faudra-t-il regarder aussi les travaux d’analyse de sentiments et d’émotion ? [Mishne et al.(2007)], [Inkpen et al.(2005)]. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 7/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Cadre Revue de littérature Problématique Problématique Le nombre d’utilisateurs sur un site de rencontres en ligne est bien trop grand. Les « algorithmes » existants ne sont pas efficaces. Problématique Peut-on améliorer les performances des algorithmes de filtres collaboratifs en utilisant les particularités du problème des sites de rencontre en ligne ? Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 8/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 9/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Filtres collaboratifs : le cas général Dans le cas classique, on dispose d’une matrice utilisateur-objet de ce type : Objet I1 I2 I3 I4 U1 5 1 2 U2 4 1 0 3 U3 4 2 1 2 U4 1 4 3 2 On calcule alors la similarité entre utilisateurs ou entre objets. Et on déduit la note en fonction des voisins. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 10/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques L’adaptation aux sites de rencontres en ligne Nous ne disposons pas des notes explicites. On va les inférer à partir de l’historique : Profil vu : 1 ; Profil mis en favori : 4 ; Profil contacté via clin d’œil : 5. Les objets sont aussi des utilisateurs. Voici alors la matrice telle que nous l’obtenons : U1 U1 U2 U3 U4 U5 Alexandre SPAETH U2 U3 U4 U5 5 1 1 4 1 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 11/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques L’adaptation aux sites de rencontres en ligne Nous ne disposons pas des notes explicites. On va les inférer à partir de l’historique : Profil vu : 1 ; Profil mis en favori : 4 ; Profil contacté via clin d’œil : 5. Les objets sont aussi des utilisateurs. Voici le genre de graphe que nous obtenons : U3 U1 1 U4 Alexandre SPAETH 1 U2 4 1 5 U5 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 11/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Notre algorithme On cherche les voisins avec un calcul de similarité cosinus. On recommande ceux que nos voisins ont aimé en pondérant par la similarité et par la note donnée par le voisin. Au final, c’est comme si on cherchait les liens U → U ← U → U. Mais comme la matrice est bien trop grande, on la coupe afin que ce soit gérable en mémoire. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 12/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Méthode de validation En général, la validation se fait en supprimant certains liens dans le graphe et en vérifiant si l’algorithme les retrouve. Mais dans notre cas, un lien absent peut vouloir dire que l’utilisateur n’a pas eu le loisir de trouver l’utilisateur dans ses résultats de recherche On prend les clins d’œil et on considère que ce n’est qu’un “vu”. Parmi tous les profils vus, on prédit lesquels devraient être des “clins d’œil”. On trace la courbe ROC et on regarde l’aire sous la courbe. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 13/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Méthode de validation En général, la validation se fait en supprimant certains liens dans le graphe et en vérifiant si l’algorithme les retrouve. Mais dans notre cas, un lien absent peut vouloir dire que l’utilisateur n’a pas eu le loisir de trouver l’utilisateur dans ses résultats de recherche On prend les clins d’œil et on considère que ce n’est qu’un “vu”. Parmi tous les profils vus, on prédit lesquels devraient être des “clins d’œil”. On trace la courbe ROC et on regarde l’aire sous la courbe. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 13/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Résultats du filtre collaboratif 0.6 0.4 0.2 0.0 Taux de bonnes prédictions 0.8 1.0 AUC = 0,652 0.0 0.2 0.4 0.6 0.8 1.0 Taux de mauvaises prédictions Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 14/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Présentation des données On dispose des données de navigation : Profils vus Liste de favoris et de blocs Messages envoyés (clins d’œil ou message libre) Mais aussi de beaucoup d’autres informations : âge, religion, éducation, race, taille, etc. Et enfin, de données libres : films, auteurs, etc. préférés positions sur divers sujets (politique, alimentation, etc.) essais libres Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 15/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Présentation des données On dispose des données de navigation : Profils vus Liste de favoris et de blocs Messages envoyés (clins d’œil ou message libre) Mais aussi de beaucoup d’autres informations : âge, religion, éducation, race, taille, etc. Et enfin, de données libres : films, auteurs, etc. préférés positions sur divers sujets (politique, alimentation, etc.) essais libres Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 15/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Présentation des données On dispose des données de navigation : Profils vus Liste de favoris et de blocs Messages envoyés (clins d’œil ou message libre) Mais aussi de beaucoup d’autres informations : âge, religion, éducation, race, taille, etc. Et enfin, de données libres : films, auteurs, etc. préférés positions sur divers sujets (politique, alimentation, etc.) essais libres Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 15/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Utilisation de la régression logistique On effectue une régression logistique avec : comme variable expliquée l’échange ou non de clin d’œil après un visionnement de profil ; comme variables prédictives un ensemble de données démographiques parmi les précitées. âge distance entre les deux utilisateurs éducation religion race etc. Cela nous donne une probabilité de réalisation de l’échange. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 16/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Résultats de la régression 0.6 0.4 0.0 0.2 Taux de bonnes prédictions 0.8 1.0 AUC = 0,658 0.0 0.2 0.4 0.6 0.8 1.0 Taux de mauvaises prédictions Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 17/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Résultats de la combinaison 0.6 0.4 0.2 0.0 Taux de bonnes prédictions 0.8 1.0 AUC = 0,730 0.0 0.2 0.4 0.6 0.8 1.0 Taux de mauvaises prédictions Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 18/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 19/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Biais Un biais existe dans le modèle de validation. L’algorithme fonctionne très bien pour certains utilisateurs, et très mal pour d’autres. Mais si l’algorithme est bon pour une partie des utilisateurs, la courbe ROC est tout de même très bonne. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 20/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Biais Exemple Récepteur R1 R2 R3 R4 Réel 0 0 1 1 Prédiction 0 0.1 0.9 1 0.6 0.4 0.0 0.2 True positive rate 0.8 1.0 Émetteur S1 S1 S1 S1 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 20/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Biais Exemple Récepteur R1 R2 R3 R4 Réel 0 0 1 1 Prédiction 0.4 0.6 0.45 0.55 0.6 0.4 0.0 0.2 True positive rate 0.8 1.0 Émetteur S2 S2 S2 S2 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 20/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Biais 0.6 0.4 0.0 0.2 True positive rate 0.8 1.0 Exemple AUC = 0.875 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 20/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Biais 0.6 0.4 0.0 0.2 Average true positive rate 0.8 1.0 Exemple AUC = 0.750 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 20/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Résolution : nouveau modèle de validation Pour éviter cela, on calcule maintenant une courbe ROC par utilisateur plutôt qu’une courbe ROC globale. La courbe ROC finale sera alors la moyenne des courbes ROC par utilisateur. Et on fait de même pour les aires sous la courbe (AUC) : on prend la moyenne. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 21/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouvel algorithme Étape 1 S1 4 R1 Alexandre SPAETH R2 R3 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 22/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouvel algorithme Étape 2 S1 S2 R3 R1 4 R2 Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 22/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouvel algorithme Étape 3 S1 S2 S3 4 R2 Alexandre SPAETH R1 R3 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 22/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouvel algorithme Étape 4 S1 S2 R1 R3 S3 4 R2 Alexandre SPAETH R4 Filtres collaboratifs et fouille de texte pour sites de rencontres R5 26 avril 2011 22/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouvel algorithme S1 S2 R1 R3 S3 4 R2 R4 R5 On calcule le cosinus avec les Si . La prédiction est la moyenne des cosinus des parents. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 22/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Nouveaux résultats 1.0 0.8 0.6 0.4 0.2 0.0 Average true positive rate En appliquant le nouvel algorithme avec le nouveau modèle de validation, on obtient les résultats suivants : AUC = 0.68 0.0 0.2 0.4 0.6 0.8 1.0 False positive rate Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 23/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Comparaison à l’algorithme basique Afin d’avoir une idée de la performance de cet algorithme, on le compare à l’algorithme suivant : Pour chaque utilisateur, on range les cibles potentielles en fonction de leur popularité. Cette popularité est mesurée par le nombre de clins d’œil total qu’elles ont reçu. La comparaison des résultats donne : Approche Filtre collab. Base-line Alexandre SPAETH AUC 0,68 0,44 écart-type 0,03 0,02 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 24/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Comparaison à l’algorithme basique Afin d’avoir une idée de la performance de cet algorithme, on le compare à l’algorithme suivant : Pour chaque utilisateur, on range les cibles potentielles en fonction de leur popularité. Cette popularité est mesurée par le nombre de clins d’œil total qu’elles ont reçu. La comparaison des résultats donne : Approche Filtre collab. Base-line Alexandre SPAETH AUC 0,68 0,44 écart-type 0,03 0,02 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 24/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Résultats de la régression logistique On a aussi appliqué cette nouvelle approche de validation à la régression logistique. Mais cette fois les résultats ne sont pas bons. Cela justifie qu’il y avait un biais dans l’approche précédente. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 25/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 26/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Modèle de classification Les travaux de [Pizzato et al.(2010b)] prouvent que c’est possible d’utiliser ces données. Nous allons modifier l’approche, probablement en calculant un modèle par utilisateur. Mais comme le nombre de données d’entraînement sera bien plus faible, un modèle plus simple pourrait être envisagé. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 27/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Nouvelle approche d’inclusion des données Une autre idée serait d’inclure les données démographiques directement dans le graphe des relations. trait1 p1 p2 S2 1 R2 Alexandre SPAETH 4 S1 S3 1 1 R1 R3 Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 28/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Symétrie des liens utilisateur-produit Par la suite, une autre approche n’a pas encore été utilisée : la symétrie des liens. La première partie des travaux consistera à reproduire les travaux de [Pizzato et al.(2010a)]. Par la suite, il faudra se poser deux questions : Peut-on améliorer les résultats des recommandations ? Peut-on améliorer l’expérience utilisateur ? Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 29/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Extraction de texte On dispose de texte à plusieurs niveaux : Un essai libre pour se décrire ; Un essai libre sur ce que l’on cherche ; Des réponses courtes sur des sujets très divers. On va utiliser les textes plus longs dans un premier temps. Et les réponses courtes dans un second temps. En fonction des résultats, on pourrait fouiller plus profondément dans les textes longs. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 30/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Extraction de texte On dispose de texte à plusieurs niveaux : Un essai libre pour se décrire ; Un essai libre sur ce que l’on cherche ; Des réponses courtes sur des sujets très divers. On va utiliser les textes plus longs dans un premier temps. Et les réponses courtes dans un second temps. En fonction des résultats, on pourrait fouiller plus profondément dans les textes longs. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 30/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Utilisation dans la similarité Il existe des techniques de calcul de similarité entre des textes. On va appliquer ces techniques pour déterminer des similarités : entre deux utilisateurs qui ont les mêmes cibles (pour améliorer les similarités cosinus). entre un utilisateur et sa cible pour améliorer la prédiction (multiplication de probabilités). Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 31/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Ajout de nouveaux liens dans la matrice On peut aussi utiliser la même technique que pour les liens démographiques : Aime les fumeurs p1 S1 1 R1 S2 4 1 R2 SW: ep.V p2 p3 SW: ep.IV p1 S3 S1 1 1 R3 R1 S2 4 1 S3 p3 R2 1 R3 p2 fume Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 32/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion 1 2 3 4 5 Retour sur les travaux effectués Rappel des travaux à effectuer Perspectives Introduction Recherches préliminaires Filtre collaboratif Adaptation du filtre collaboratif aux sites de rencontres en ligne Méthode de validation Les données démographiques Nouveaux développements Biais et nouvel algorithme Nouveau résultats Incidence sur l’intégration des données démographiques Travaux à faire Données démographiques Symétrie des liens utilisateur-produit Extraction de texte Conclusion Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 33/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Retour sur les travaux effectués Rappel des travaux à effectuer Perspectives Retour sur les travaux effectués Nous avons mis en place un algorithme classique de filtre collaboratif en utilisant l’historique des utilisateurs Les résultats nous montrent qu’il fonctionne correctement Nous avons essayé d’utiliser les données démographiques Pour l’instant, pas de résultats probants mais d’autres études sont optimistes, il faut persévérer Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 34/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Retour sur les travaux effectués Rappel des travaux à effectuer Perspectives Retour sur les travaux effectués Nous avons mis en place un algorithme classique de filtre collaboratif en utilisant l’historique des utilisateurs Les résultats nous montrent qu’il fonctionne correctement Nous avons essayé d’utiliser les données démographiques Pour l’instant, pas de résultats probants mais d’autres études sont optimistes, il faut persévérer Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 34/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Retour sur les travaux effectués Rappel des travaux à effectuer Perspectives Rappel des travaux à effectuer Nous allons essayer d’autres techniques pour l’inclusion des données démographiques Il faut introduire la symétrie des liens pour améliorer : les résultats ; l’expérience utilisateur. Nous allons exploiter les textes présents en l’intégrant dans le calcul de similarité ; si possible, en l’intégrant dans le graphe des relations. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 35/ 41 Introduction Recherches préliminaires Nouveaux développements Travaux à faire Conclusion Retour sur les travaux effectués Rappel des travaux à effectuer Perspectives Perspectives Aujourd’hui, les utilisateurs sont près à donner beaucoup d’informations sur eux pour obtenir un service (par exemple Google ou Facebook). Les systèmes de recommandation doivent donc pouvoir utiliser ces informations pour améliorer les résultats de la recherche. Et cela peut s’appliquer à n’importe quel système de recommandation si on dispose d’assez de données. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 36/ 41 Références I BREESE, J. S., HECKERMAN, D. et KADIE, C. (1998). Empirical Analysis of Predictive Algorithms for Collaborative Filtering. Proceedings of the14th Annual Conference on Uncertainty in Artificial Intelligence (UAI98). Morgan Kaufmann, 43–52. BROZOVSKY, L. (2006). Recommender System for a Dating Service. Mémoire de maîtrise, Charles University in Prague. HITSCH, G., HORTACSU, A. et ARIELY, D. (2004). What makes you click ? : An Empirical Analysis of Online Dating. Rapport technique, Department of Economics, UC Santa Cruz. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 37/ 41 Références II INKPEN, D. Z., FEIGUINA, O. et HIRST, G. (2005). Generating more-positive or more-negative text . J. G. Shanahan, Y. Qu et J. Wiebe, éditeurs, Computing Attitude and Affect in Text, Springer. JURAFSKY, D. et MARTIN, J. H. (2009). Speech and Language Processing (2nd Edition), Prentice Hall, Upper Saddle River, NJ, USA, chapitre 22. 725–764. KUKICH, K. (1992). Technique for automatically correcting words in text. ACM Computing Surveys, 24, 377. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 38/ 41 Références III LINDEN, G., SMITH, B. et YORK, J. (2003). Amazon.com recommendations : item-to-item collaborative filtering. IEEE Internet Computing, 7, 76. MISHNE, G., BALOG, K., RIJKE, M. et ERNSTING, B. (2007). Abstract MoodViews : Tracking and Searching Mood-Annotated Blog Posts. A. Press, éditeur, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006). 153–154. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 39/ 41 Références IV PIZZATO, L., REJ, T., CHUNG, T., KOPRINSKA, I. et KAY, J. (2010a). RECON : a reciprocal recommender for online dating. Proceedings of the fourth ACM conference on Recommender systems - RecSys ’10. ACM, New York, NY, USA, RecSys ’10, 207–214. PIZZATO, L., REJ, T., CHUNG, T., KOPRINSKA, I., YACEF, K. et KAY, J. (2010b). Learning User Preferences in Online Dating. Proceedings of the Preference Learning (PL-10) Tutorial and Workshop, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD). Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 40/ 41 Références V RESNICK, P., IACOVOU, N., SUCHAK, M., BERGSTROM, P. et RIEDL, J. (1994). GroupLens : An open architecture for collaborative filtering of netnews. Proceedings of the 1994 ACM conference on Computer supported cooperative work - CSCW ’94. 175. TÖSCHER, A., JAHRER, M., BELL, R. M. et PARK, F. (2009). The BigChaos Solution to the Netflix Grand Prize. Most, 1–52. Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26 avril 2011 41/ 41