Présentation Alexandre Spaeth

Transcription

Présentation Alexandre Spaeth
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Application de filtres collaboratifs et de fouille de
texte pour sites de rencontres
Alexandre SPAETH
26 avril 2011
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
1/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
2/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Cadre
Revue de littérature
Problématique
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
3/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Cadre de la recherche
Depuis l’avènement du web 2.0, de nombreuses applications
ont vu le jour.
Parmi celles-ci : les sites de rencontres en ligne.
Mais avec 20 millions de membres sur eHarmony et 15
millions sur Match.com, comment trouver l’âme sœur ?
La mise en ligne des magasins nécessite de bons outils de
recherche.
Notamment, certains sites ont mis en place des techniques de
recommandation utilisent les filtres collaboratifs.
Peut-on adapter ces techniques aux particularités des sites de
rencontres afin d’améliorer les résultats de recherche ?
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
4/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Cadre de la recherche
Depuis l’avènement du web 2.0, de nombreuses applications
ont vu le jour.
Parmi celles-ci : les sites de rencontres en ligne.
Mais avec 20 millions de membres sur eHarmony et 15
millions sur Match.com, comment trouver l’âme sœur ?
La mise en ligne des magasins nécessite de bons outils de
recherche.
Notamment, certains sites ont mis en place des techniques de
recommandation utilisent les filtres collaboratifs.
Peut-on adapter ces techniques aux particularités des sites de
rencontres afin d’améliorer les résultats de recherche ?
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
4/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Les filtres collaboratifs
Ils sont apparus au milieu des années 90 pour les groupes de
discussion [Resnick et al.(1994)].
Il y a eu beaucoup de travail au tournant du
siècle [Breese et al.(1998)].
Amazon les a grandement popularisé au début des années
2000 [Linden et al.(2003)].
La compétition Netflix a permis un grand coup de projecteur à
la fin des années 2000. [Töscher et al.(2009)].
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
5/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Sites de rencontres et filtres collaboratifs
On sait tous de quoi il s’agit. Il en existe probablement des
milliers.
Peu de recherches scientifiques publiées sur le sujet. C’est un
milieu très fermé.
Une des plus intéressantes : [Hitsch et al.(2004)].
Avec les filtres collaboratifs : là encore, peu de recherches.
Une application des techniques classiques : [Brozovsky(2006)].
Une étude plus intéressante : [Pizzato et al.(2010a)].
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
6/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Sites de rencontres et filtres collaboratifs
On sait tous de quoi il s’agit. Il en existe probablement des
milliers.
Peu de recherches scientifiques publiées sur le sujet. C’est un
milieu très fermé.
Une des plus intéressantes : [Hitsch et al.(2004)].
Avec les filtres collaboratifs : là encore, peu de recherches.
Une application des techniques classiques : [Brozovsky(2006)].
Une étude plus intéressante : [Pizzato et al.(2010a)].
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
6/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
L’extraction de texte
Beaucoup de travaux dans ce domaine.
Un article de synthèse [Kukich(1992)] et un livre
[Jurafsky et Martin(2009)].
Peut-être faudra-t-il regarder aussi les travaux d’analyse de
sentiments et d’émotion ? [Mishne et al.(2007)],
[Inkpen et al.(2005)].
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
7/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Cadre
Revue de littérature
Problématique
Problématique
Le nombre d’utilisateurs sur un site de rencontres en ligne est
bien trop grand.
Les « algorithmes » existants ne sont pas efficaces.
Problématique
Peut-on améliorer les performances des algorithmes de filtres
collaboratifs en utilisant les particularités du problème des sites de
rencontre en ligne ?
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
8/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
9/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Filtres collaboratifs : le cas général
Dans le cas classique, on dispose d’une matrice utilisateur-objet de
ce type :
Objet
I1
I2
I3
I4
U1
5
1
2
U2
4
1
0
3
U3
4
2
1
2
U4
1
4
3
2
On calcule alors la similarité entre utilisateurs ou entre objets.
Et on déduit la note en fonction des voisins.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
10/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
L’adaptation aux sites de rencontres en ligne
Nous ne disposons pas des notes explicites. On va les inférer à
partir de l’historique :
Profil vu : 1 ;
Profil mis en favori : 4 ;
Profil contacté via clin d’œil : 5.
Les objets sont aussi des utilisateurs.
Voici alors la matrice telle que nous l’obtenons :
U1
U1
U2
U3
U4
U5
Alexandre SPAETH
U2
U3
U4
U5
5
1
1
4
1
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
11/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
L’adaptation aux sites de rencontres en ligne
Nous ne disposons pas des notes explicites. On va les inférer à
partir de l’historique :
Profil vu : 1 ;
Profil mis en favori : 4 ;
Profil contacté via clin d’œil : 5.
Les objets sont aussi des utilisateurs.
Voici le genre de graphe que nous obtenons :
U3
U1
1
U4
Alexandre SPAETH
1
U2
4 1 5
U5
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
11/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Notre algorithme
On cherche les voisins avec un calcul de similarité cosinus.
On recommande ceux que nos voisins ont aimé en pondérant
par la similarité et par la note donnée par le voisin.
Au final, c’est comme si on cherchait les liens
U → U ← U → U.
Mais comme la matrice est bien trop grande, on la coupe afin
que ce soit gérable en mémoire.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
12/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Méthode de validation
En général, la validation se fait en supprimant certains liens
dans le graphe et en vérifiant si l’algorithme les retrouve.
Mais dans notre cas, un lien absent peut vouloir dire que
l’utilisateur n’a pas eu le loisir de trouver l’utilisateur dans ses
résultats de recherche
On prend les clins d’œil et on considère que ce n’est qu’un
“vu”.
Parmi tous les profils vus, on prédit lesquels devraient être des
“clins d’œil”.
On trace la courbe ROC et on regarde l’aire sous la courbe.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
13/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Méthode de validation
En général, la validation se fait en supprimant certains liens
dans le graphe et en vérifiant si l’algorithme les retrouve.
Mais dans notre cas, un lien absent peut vouloir dire que
l’utilisateur n’a pas eu le loisir de trouver l’utilisateur dans ses
résultats de recherche
On prend les clins d’œil et on considère que ce n’est qu’un
“vu”.
Parmi tous les profils vus, on prédit lesquels devraient être des
“clins d’œil”.
On trace la courbe ROC et on regarde l’aire sous la courbe.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
13/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Résultats du filtre collaboratif
0.6
0.4
0.2
0.0
Taux de bonnes prédictions
0.8
1.0
AUC = 0,652
0.0
0.2
0.4
0.6
0.8
1.0
Taux de mauvaises prédictions
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
14/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Présentation des données
On dispose des données de navigation :
Profils vus
Liste de favoris et de blocs
Messages envoyés (clins d’œil ou message libre)
Mais aussi de beaucoup d’autres informations :
âge, religion, éducation, race, taille, etc.
Et enfin, de données libres :
films, auteurs, etc. préférés
positions sur divers sujets (politique, alimentation, etc.)
essais libres
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
15/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Présentation des données
On dispose des données de navigation :
Profils vus
Liste de favoris et de blocs
Messages envoyés (clins d’œil ou message libre)
Mais aussi de beaucoup d’autres informations :
âge, religion, éducation, race, taille, etc.
Et enfin, de données libres :
films, auteurs, etc. préférés
positions sur divers sujets (politique, alimentation, etc.)
essais libres
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
15/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Présentation des données
On dispose des données de navigation :
Profils vus
Liste de favoris et de blocs
Messages envoyés (clins d’œil ou message libre)
Mais aussi de beaucoup d’autres informations :
âge, religion, éducation, race, taille, etc.
Et enfin, de données libres :
films, auteurs, etc. préférés
positions sur divers sujets (politique, alimentation, etc.)
essais libres
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
15/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Utilisation de la régression logistique
On effectue une régression logistique avec :
comme variable expliquée l’échange ou non de clin d’œil après
un visionnement de profil ;
comme variables prédictives un ensemble de données
démographiques parmi les précitées.
âge
distance entre les deux utilisateurs
éducation
religion
race
etc.
Cela nous donne une probabilité de réalisation de l’échange.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
16/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Résultats de la régression
0.6
0.4
0.0
0.2
Taux de bonnes prédictions
0.8
1.0
AUC = 0,658
0.0
0.2
0.4
0.6
0.8
1.0
Taux de mauvaises prédictions
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
17/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en ligne
Méthode de validation
Les données démographiques
Résultats de la combinaison
0.6
0.4
0.2
0.0
Taux de bonnes prédictions
0.8
1.0
AUC = 0,730
0.0
0.2
0.4
0.6
0.8
1.0
Taux de mauvaises prédictions
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
18/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
19/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Biais
Un biais existe dans le modèle de validation.
L’algorithme fonctionne très bien pour certains utilisateurs, et
très mal pour d’autres.
Mais si l’algorithme est bon pour une partie des utilisateurs, la
courbe ROC est tout de même très bonne.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
20/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Biais
Exemple
Récepteur
R1
R2
R3
R4
Réel
0
0
1
1
Prédiction
0
0.1
0.9
1
0.6
0.4
0.0
0.2
True positive rate
0.8
1.0
Émetteur
S1
S1
S1
S1
0.0
0.2
0.4
0.6
0.8
1.0
False positive rate
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
20/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Biais
Exemple
Récepteur
R1
R2
R3
R4
Réel
0
0
1
1
Prédiction
0.4
0.6
0.45
0.55
0.6
0.4
0.0
0.2
True positive rate
0.8
1.0
Émetteur
S2
S2
S2
S2
0.0
0.2
0.4
0.6
0.8
1.0
False positive rate
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
20/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Biais
0.6
0.4
0.0
0.2
True positive rate
0.8
1.0
Exemple
AUC = 0.875
0.0
0.2
0.4
0.6
0.8
1.0
False positive rate
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
20/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Biais
0.6
0.4
0.0
0.2
Average true positive rate
0.8
1.0
Exemple
AUC = 0.750
0.0
0.2
0.4
0.6
0.8
1.0
False positive rate
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
20/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Résolution : nouveau modèle de validation
Pour éviter cela, on calcule maintenant une courbe ROC par
utilisateur plutôt qu’une courbe ROC globale.
La courbe ROC finale sera alors la moyenne des courbes ROC
par utilisateur.
Et on fait de même pour les aires sous la courbe (AUC) : on
prend la moyenne.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
21/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouvel algorithme
Étape 1
S1
4
R1
Alexandre SPAETH
R2
R3
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
22/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouvel algorithme
Étape 2
S1
S2
R3
R1
4
R2
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
22/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouvel algorithme
Étape 3
S1
S2
S3
4
R2
Alexandre SPAETH
R1
R3
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
22/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouvel algorithme
Étape 4
S1
S2
R1
R3
S3
4
R2
Alexandre SPAETH
R4
Filtres collaboratifs et fouille de texte pour sites de rencontres
R5
26 avril 2011
22/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouvel algorithme
S1
S2
R1
R3
S3
4
R2
R4
R5
On calcule le cosinus avec les Si .
La prédiction est la moyenne des cosinus des parents.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
22/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Nouveaux résultats
1.0
0.8
0.6
0.4
0.2
0.0
Average true positive rate
En appliquant le nouvel algorithme avec le nouveau modèle de
validation, on obtient les résultats suivants :
AUC = 0.68
0.0
0.2
0.4
0.6
0.8
1.0
False positive rate
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
23/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Comparaison à l’algorithme basique
Afin d’avoir une idée de la performance de cet algorithme, on le
compare à l’algorithme suivant :
Pour chaque utilisateur, on range les cibles potentielles en
fonction de leur popularité.
Cette popularité est mesurée par le nombre de clins d’œil total
qu’elles ont reçu.
La comparaison des résultats donne :
Approche
Filtre collab.
Base-line
Alexandre SPAETH
AUC
0,68
0,44
écart-type
0,03
0,02
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
24/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Comparaison à l’algorithme basique
Afin d’avoir une idée de la performance de cet algorithme, on le
compare à l’algorithme suivant :
Pour chaque utilisateur, on range les cibles potentielles en
fonction de leur popularité.
Cette popularité est mesurée par le nombre de clins d’œil total
qu’elles ont reçu.
La comparaison des résultats donne :
Approche
Filtre collab.
Base-line
Alexandre SPAETH
AUC
0,68
0,44
écart-type
0,03
0,02
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
24/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Résultats de la régression logistique
On a aussi appliqué cette nouvelle approche de validation à la
régression logistique.
Mais cette fois les résultats ne sont pas bons.
Cela justifie qu’il y avait un biais dans l’approche précédente.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
25/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
26/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Modèle de classification
Les travaux de [Pizzato et al.(2010b)] prouvent que c’est
possible d’utiliser ces données.
Nous allons modifier l’approche, probablement en calculant un
modèle par utilisateur.
Mais comme le nombre de données d’entraînement sera bien
plus faible, un modèle plus simple pourrait être envisagé.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
27/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Nouvelle approche d’inclusion des données
Une autre idée serait d’inclure les données démographiques
directement dans le graphe des relations.
trait1
p1 p2
S2
1
R2
Alexandre SPAETH
4
S1
S3
1
1
R1
R3
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
28/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Symétrie des liens utilisateur-produit
Par la suite, une autre approche n’a pas encore été utilisée : la
symétrie des liens.
La première partie des travaux consistera à reproduire les
travaux de [Pizzato et al.(2010a)].
Par la suite, il faudra se poser deux questions :
Peut-on améliorer les résultats des recommandations ?
Peut-on améliorer l’expérience utilisateur ?
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
29/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Extraction de texte
On dispose de texte à plusieurs niveaux :
Un essai libre pour se décrire ;
Un essai libre sur ce que l’on cherche ;
Des réponses courtes sur des sujets très divers.
On va utiliser les textes plus longs dans un premier temps.
Et les réponses courtes dans un second temps.
En fonction des résultats, on pourrait fouiller plus
profondément dans les textes longs.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
30/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Extraction de texte
On dispose de texte à plusieurs niveaux :
Un essai libre pour se décrire ;
Un essai libre sur ce que l’on cherche ;
Des réponses courtes sur des sujets très divers.
On va utiliser les textes plus longs dans un premier temps.
Et les réponses courtes dans un second temps.
En fonction des résultats, on pourrait fouiller plus
profondément dans les textes longs.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
30/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Utilisation dans la similarité
Il existe des techniques de calcul de similarité entre des textes.
On va appliquer ces techniques pour déterminer des
similarités :
entre deux utilisateurs qui ont les mêmes cibles (pour améliorer
les similarités cosinus).
entre un utilisateur et sa cible pour améliorer la prédiction
(multiplication de probabilités).
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
31/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Ajout de nouveaux liens dans la matrice
On peut aussi utiliser la même technique que pour les liens
démographiques :
Aime les fumeurs
p1
S1
1
R1
S2
4
1
R2
SW: ep.V
p2
p3
SW: ep.IV
p1
S3
S1
1
1
R3
R1
S2
4
1
S3
p3
R2
1
R3
p2
fume
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
32/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
1
2
3
4
5
Retour sur les travaux effectués
Rappel des travaux à effectuer
Perspectives
Introduction
Recherches préliminaires
Filtre collaboratif
Adaptation du filtre collaboratif aux sites de rencontres en
ligne
Méthode de validation
Les données démographiques
Nouveaux développements
Biais et nouvel algorithme
Nouveau résultats
Incidence sur l’intégration des données démographiques
Travaux à faire
Données démographiques
Symétrie des liens utilisateur-produit
Extraction de texte
Conclusion
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
33/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Retour sur les travaux effectués
Rappel des travaux à effectuer
Perspectives
Retour sur les travaux effectués
Nous avons mis en place un algorithme classique de filtre
collaboratif en utilisant l’historique des utilisateurs
Les résultats nous montrent qu’il fonctionne correctement
Nous avons essayé d’utiliser les données démographiques
Pour l’instant, pas de résultats probants mais d’autres études
sont optimistes, il faut persévérer
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
34/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Retour sur les travaux effectués
Rappel des travaux à effectuer
Perspectives
Retour sur les travaux effectués
Nous avons mis en place un algorithme classique de filtre
collaboratif en utilisant l’historique des utilisateurs
Les résultats nous montrent qu’il fonctionne correctement
Nous avons essayé d’utiliser les données démographiques
Pour l’instant, pas de résultats probants mais d’autres études
sont optimistes, il faut persévérer
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
34/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Retour sur les travaux effectués
Rappel des travaux à effectuer
Perspectives
Rappel des travaux à effectuer
Nous allons essayer d’autres techniques pour l’inclusion des
données démographiques
Il faut introduire la symétrie des liens pour améliorer :
les résultats ;
l’expérience utilisateur.
Nous allons exploiter les textes présents
en l’intégrant dans le calcul de similarité ;
si possible, en l’intégrant dans le graphe des relations.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
35/ 41
Introduction
Recherches préliminaires
Nouveaux développements
Travaux à faire
Conclusion
Retour sur les travaux effectués
Rappel des travaux à effectuer
Perspectives
Perspectives
Aujourd’hui, les utilisateurs sont près à donner beaucoup
d’informations sur eux pour obtenir un service (par exemple
Google ou Facebook).
Les systèmes de recommandation doivent donc pouvoir utiliser
ces informations pour améliorer les résultats de la recherche.
Et cela peut s’appliquer à n’importe quel système de
recommandation si on dispose d’assez de données.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
36/ 41
Références I
BREESE, J. S., HECKERMAN, D. et KADIE, C. (1998).
Empirical Analysis of Predictive Algorithms for Collaborative
Filtering.
Proceedings of the14th Annual Conference on Uncertainty in
Artificial Intelligence (UAI98). Morgan Kaufmann, 43–52.
BROZOVSKY, L. (2006).
Recommender System for a Dating Service.
Mémoire de maîtrise, Charles University in Prague.
HITSCH, G., HORTACSU, A. et ARIELY, D. (2004).
What makes you click ? : An Empirical Analysis of Online
Dating.
Rapport technique, Department of Economics, UC Santa Cruz.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
37/ 41
Références II
INKPEN, D. Z., FEIGUINA, O. et HIRST, G. (2005).
Generating more-positive or more-negative text .
J. G. Shanahan, Y. Qu et J. Wiebe, éditeurs, Computing
Attitude and Affect in Text, Springer.
JURAFSKY, D. et MARTIN, J. H. (2009).
Speech and Language Processing (2nd Edition), Prentice Hall,
Upper Saddle River, NJ, USA, chapitre 22.
725–764.
KUKICH, K. (1992).
Technique for automatically correcting words in text.
ACM Computing Surveys, 24, 377.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
38/ 41
Références III
LINDEN, G., SMITH, B. et YORK, J. (2003).
Amazon.com recommendations : item-to-item collaborative
filtering.
IEEE Internet Computing, 7, 76.
MISHNE, G., BALOG, K., RIJKE, M. et ERNSTING, B.
(2007).
Abstract MoodViews : Tracking and Searching
Mood-Annotated Blog Posts.
A. Press, éditeur, AAAI 2006 Spring Symposium on
Computational Approaches to Analysing Weblogs
(AAAI-CAAW 2006). 153–154.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
39/ 41
Références IV
PIZZATO, L., REJ, T., CHUNG, T., KOPRINSKA, I. et KAY,
J. (2010a).
RECON : a reciprocal recommender for online dating.
Proceedings of the fourth ACM conference on Recommender
systems - RecSys ’10. ACM, New York, NY, USA, RecSys ’10,
207–214.
PIZZATO, L., REJ, T., CHUNG, T., KOPRINSKA, I., YACEF,
K. et KAY, J. (2010b).
Learning User Preferences in Online Dating.
Proceedings of the Preference Learning (PL-10) Tutorial and
Workshop, European Conference on Machine Learning and
Principles and Practice of Knowledge Discovery in Databases
(ECML PKDD).
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
40/ 41
Références V
RESNICK, P., IACOVOU, N., SUCHAK, M., BERGSTROM,
P. et RIEDL, J. (1994).
GroupLens : An open architecture for collaborative filtering of
netnews.
Proceedings of the 1994 ACM conference on Computer
supported cooperative work - CSCW ’94. 175.
TÖSCHER, A., JAHRER, M., BELL, R. M. et PARK, F.
(2009).
The BigChaos Solution to the Netflix Grand Prize.
Most, 1–52.
Alexandre SPAETH
Filtres collaboratifs et fouille de texte pour sites de rencontres
26 avril 2011
41/ 41

Documents pareils