Modélisation du processus de développement des profils

Transcription

Modélisation du processus de développement des profils
Modélisation du processus de développement des profils utilisateurs dans les systèmes
d’information
Dieudonné TCHUENTE, André PENINOU, Marie-Francoise CANUT, Nadine Baptiste-JESSEL, Florence SEDES
Universtité de Toulouse
Institut de Recherche en Informatique de Toulouse,
Système d’Information Généralisés
118, route de narbonne, 31062, Toulouse - France
{tchuente, baptiste, canut, peninou, sedes}@irit.fr
Mots clés : profil utilisateur, modèle utilisateur, personnalisation, recommandation, adaptation.
Keywords : user profile, user model, personalization, recommandation, adaptation.
Palabras clave : perfil del usuario, usuario modelo, personalización, recomendación, la adaptación.
Résumé. Le développement des profils utilisateurs se situe toujours en amont des mécanismes (ou services) d’adaptation, recommandation, ou
de personnalisation des informations pour répondre aux besoins spécifiques de chaque utilisateur et réduire au maximum les problèmes liés aux
surcharges cognitives. Il est indéniable que des profils utilisateurs de qualité conditionnent des mécanismes de qualité. Cependant, la quasitotalité des travaux relatifs à ces mécanismes s’intéressent beaucoup plus aux mécanismes en eux-mêmes, qu’à la qualité des profils utilisateurs
développés. Ainsi, dans cet article, nous nous intéressons à la modélisation des données du processus de développement des profils utilisateurs
dans les systèmes d’information, dans le but d’améliorer en amont la qualité des profils construits. Ce travail se distingue des travaux actuels de
la littérature qui s’intéressent uniquement à la modélisation du contenu ou des catégories de données d'un profil utilisateur. Le modèle proposé
permet d’identifier et de structurer les concepts clés à considérer dans chacune des étapes du processus. La démarche proposée permet alors
d’assurer une bonne traçabilité du processus et d’obtenir un modèle de processus sur lequel peut s’appuyer toute plateforme souhaitant intégrer le
développement et l’usage de profils utilisateurs dans son fonctionnement (adaptation, personnalisation, recommandation, analyses
comportementales, etc.).
1 Introduction
Des masses de données sont de plus en plus importantes dans les systèmes d’information ou sur la toile. Il devient crucial d’aider l’utilisateur à accéder
facilement à l’information qui correspond à ses besoins spécifiques. Depuis plus d’une décennie, la conception de profils utilisateurs dans les systèmes
d’information est devenue un enjeu majeur pour l’amélioration de la qualité des services rendus aux utilisateurs, en témoigne par exemple la croissance
fulgurante des publications scientifiques qui adressent cette problématique [6]. Les profils utilisateurs construits sont alors utilisés dans divers systèmes tels
que les systèmes de personnalisation, les systèmes adaptatifs, les systèmes de recommandation, les systèmes d’analyses comportementales, etc. Les domaines
d’applications sont multiples (moteurs de recherche, e-commerce, e-learning, librairies digitales, médecine, télécommunications, sécurité, etc.). De manière
procédurale, l’usage des profils dans ces systèmes implique les étapes :
a) de développement des profils utilisateurs qui nécessite généralement la collecte de données sur les traces d’activités des utilisateurs et l’usage des
techniques d’apprentissage automatique sur ces données [6].
b) de représentation des profils utilisateurs construits qui implique généralement la structuration des données du profil (profil multidimensionnels et
profils contextuels par exemple), la représentation des éléments du profil d’un utilisateur (vecteurs pondérés de mots, réseaux sémantiques de mots, ou
utilisation d'ontologies par exemple) [3, 4, 5, 6].
c) d’usage proprement dit des profils construits. Dans les systèmes de personnalisation ou de recommandation par exemple, des techniques couramment
utilisées sont le filtrage par contenus (application d’une mesure de similarité entre des profils et des documents par exemple), le filtrage collaboratif
(application d’une mesure de similarité entre profils utilisateurs), ou le filtrage hybride (usage des deux techniques précédentes) [4, 17, 18, 19, 21, 34].
La diversité des données et des domaines d’application qui se rapportent au profilage utilisateur a amené de nombreux auteurs à se pencher sur la
conception de modèles génériques de profils utilisateurs [6, 7, 8, 9, 10]. Cependant, les modèles existants ne s’intéressent qu’à la représentation des éléments
du profil utilisateur (étape b). Or, au-delà de la représentation de profils utilisateurs, l’enjeu majeur aujourd'hui dans la conception de ces profils s’oriente plus
vers la pertinence des profils construits. Pertinence de profils qui conditionne la qualité des mécanismes utilisant les profils. Toutefois, la plupart des travaux
actuels ne s’intéressent plus à la validation de la qualité des mécanismes d’usage profils (étape c) [4, 17, 18, 19, 21, 34], sans s’assurer de a la pertinence de
profils construits en amont (étape a). Les profils construits ne sont en général pas évalués en amont. Ainsi, lorsque les mécanismes ne produisent pas de
résultats satisfaisants, il faut en général recommencer le cycle de développement avec éventuellement de nouvelles techniques d’apprentissage, ce qui
implique des surcoûts (temps, ressources humaines, etc.). Pour éviter ces surcoûts dans l’industrie (dans un cadre beaucoup plus général), un accent très
important est porté sur la qualité du processus de fabrication des produits [2]. Dans le même ordre d’idée, afin d’améliorer en amont la pertinence des profils
construits ainsi que les coûts d’éventuelles reprises dans le cycle de développement de ces profils, nous nous intéressons à la modélisation non pas du contenu
des profils utilisateurs, mais du processus de développement de ces profils (étape a). Ceci dans la mesure où nous pensons que la pertinence d’un profil
développé dépend également de nombreux facteurs liés à la manière dont le profil a été construit : notamment la qualité des sources de données (données
publiques ou privées par exemple), la qualité des producteurs de données (utilisateur ou réseau social par exemple), la qualité des actions ou feedback de
l’utilisateur dans ses traces d’activités (une action impliquant un intérêt explicite de l’utilisateur ou un commentaire par exemple), la structuration des données
analysées (données de contexte ou données liées à la sémantique par exemple).
La suite de cet article se présente comme suit : dans la section 2 nous présentons une brève revue de littérature sur les modèles génériques de profils
utilisateurs. Dans la section 3 nous proposons et discutons le modèle générique du processus développement de profils utilisateurs. Enfin la conclusion et les
perspectives de notre travail sont présentées dans la section 4.
2 Modèles de profils utilisateurs dans la littérature
Dans cette partie nous nous intéressons aux modèles génériques de profils utilisateurs actuellement proposés dans la littérature. Nous les regroupons
dans trois grandes catégories : les modèles fonctionnels (à quoi servent les profils utilisateurs ?), les modèles de catégorisation (que contiennent les profils
utilisateurs ?), et les modèles de représentation des profils utilisateurs (comment sont représentés les profils utilisateurs ?).
Les modèles fonctionnels s’intéressent à la description des fonctionnalités d’un profil utilisateur. Une bonne illustration de ce type de modèle est
proposée par Gao et al. [6] qui définissent 3 modèles fonctionnels de profils utilisateurs : les modèles comportementaux (behavior modeling) pour l’analyse
du comportement des utilisateurs, les modèles basés sur les centres d’intérêts (interest modeling) pour l’apprentissage des centres d’intérêts des utilisateurs, et
les modèles prédictifs (predictive modeling) pour prédire le comportement ou les centres d’intérêts des utilisateurs. Pour chacun de ces modèles, l’auteur
propose une classification des techniques d’apprentissage ou de fouille de données appropriées pour construire les profils utilisateurs correspondants (règles
d’associations, arbres de décision, réseaux bayésiens, etc.).
Les modèles de représentation visent à définir les structures de données appropriées pour représenter les modèles construits (modèles fonctionnels par
exemple). Gauch et al. 07 [3] font une synthèse de ces structures de données parmi lesquelles on peut citer : les vecteurs pondérés de mots clés, les réseaux
sémantiques, et les ontologies. Comme pour les modèles fonctionnels, ces représentations ne fournissent pas d’éléments pour la compréhension des données
utilisées pour construire et représenter ces profils.
Les modèles de catégorisation visent à définir les catégories (ou dimensions) d’informations que l’on peut retrouver dans un profil utilisateur. Cette tâche
est très difficile compte tenu de l’extrême diversité d’informations que l’on peut retrouver dans un profil en fonction du domaine étudié. Toutefois, certains
auteurs ont défini des modèles qui se veulent génériques. Zayani et al., 08 [4] propose un modèle dans lequel un profil utilisateur est composé de
caractéristiques permanentes (données d’identité et données démographiques) et de caractéristiques évolutives (centres d’intérêts et préférences) qui sont
apprises au fur et à mesure des interactions de l’utilisateur avec le système d’information. FIDIS 10 [10] va dans le même sens en proposant une catégorisation
beaucoup plus complexe des informations contenues dans un profil utilisateur. Celui-ci contient des éléments classifiés en trois grands groupes : les éléments
temporels (éléments permanents invariants, permanents acquis, temporaires persistants, temporaires), les éléments fonctionnels (données personnelles,
biologiques, d’identification, de géo localisation, communautaire), et les éléments par domaine (santé, justice, travail, etc.).Plutôt que d’essayer d’être
exhaustif dans les catégories d’information d’un profil, certains auteurs [8][11] regroupent les informations d’un profil utilisateur au sein de plusieurs
dimensions extensibles. Par exemple [11] distingue les dimensions de données personnelles, domaines d’intérêts, préférences matérielles, historique de
requêtes, qualité de service attendue, sécurité. Bien que ces dimensions soient assez caractéristiques du processus de développement des profils, ils restent
assez peu compréhensibles et réutilisables d’un point de vu processus. Ceci dans la mesure où elles se situent toutes à un même niveau dans les travaux en
question.
3 Modèles du processus de développement des profils utilisateurs
Les modèles que nous présentons dans ce papier sont complémentaires à ceux présentés dans la littérature, mais diffèrent dans le sens où ils s’inscrivent
dans une approche de modélisation de processus plutôt dans une vision statique des données liées au développement des profils utilisateurs. Nous partons de
l'hypothèse selon laquelle le processus de développement des profils utilisateurs est similaire à tout processus d’extraction de connaissances à partir de
données [1]. Nous distinguons quatre grandes étapes dans ce processus : la collecte de données, la préparation (ou structuration) des données, l’analyse de
données et la représentation des données (figure 1). Les profils construits sont évalués ou utilisés dans différents systèmes (personnalisation, recommandation,
etc.) qui peuvent nécessiter la reprise du processus (étape évaluation/usage).
Collecte
[Producteurs]
[Sources]
Préparation (structuration)
[Identité]
[Sécurité]
[Traces d'activités]
Analyse
[Sémantique]
[Contexte]
Representation
[Intérêts]
[Vecteurs]
Evaluation/Usage
[Préférences]
Figure 1. Représentation sous forme de diagramme d’activités du processus de développement (quatre premières activités) et d’usage (activité évaluation/usage) des profils
utilisateurs.
3.1 Collecte de données
Le premier enjeu du profilage des utilisateurs consiste en la collecte de données devant servir à construire les profils. Ces données peuvent être fournies par
les utilisateurs de manière explicite (via des formulaires par exemple) ou de manière implicite (collecte automatique des traces d’activités). Quelle que soit la
méthode de collecte de données, nous pensons que les deux questions fondamentales à se poser à ce niveau sont : d’où proviennent ces données ? (sources de
données) et qui produit ces données ? (producteurs de données).
a) Par sources de données, nous entendons les systèmes (systèmes d’exploitation, logs de bases de données, logs de serveurs Web, etc.) et les applications
(email, social bookmarking, etc.) par lesquels les données utilisateurs peuvent être collectées. Deux principales problématiques se dégagent par rapport aux
sources de données : leur multiplicité et leur fiabilité.
La multiplicité des sources de données : de nos jours les utilisateurs disposent de plus en plus d’interfaces par lesquelles ils génèrent des traces
d’activités dans les systèmes d’information. C’est le cas particulièrement du Web 2.0 et la multiplication des identités numériques. Ainsi les utilisateurs
disposent de plus en plus de données partagées au sein de diverses applications, et l’un des premiers challenges actuellement consiste à recouper ces données
ou à faire interopérer ces applications. De plus en plus de technologies visent à recouper facilement ces données dans les systèmes d’information par fusion
des identités partielles d’utilisateurs (OpenID, Shibboleth, CardSpace, Liberty Alliance, etc) [14]. Dans la littérature, le partage de données utilisateurs entre
plusieurs applications est souvent géré par des approches de standardisation et des approches de médiation [15]. Les approches de standardisation s’appuient
sur l’usage de spécifications standardisées pour inter opérer (exemple : UUCM - Unified User Context Model-, UserML -User Modeling Markup Language-,
APML - Attention Profile Markup Language-, FOAF- Friend Of A Friend, etc.). Les approches de médiation quant à elles visent à réconcilier les standards
existants dans le but de prendre en compte les spécificités d’un système donné (exemple : GUC- Generic User model Component). Dans les intranets, la
collecte de données en provenance d’applications multiples peut être réalisée via des outils comme les ERP (Entreprise Resource Planning).
La fiabilité des sources de données : une fois la multiplicité des sources de données considérée, la fiabilité de chaque source est un aspect très
important qui peut considérablement impacter la pertinence des profils construits. Elle se rapproche de la dimension qualité attendue du modèle de profil
multimensionnel proposé par Bouzhegoub et al., 05 [11]. Des auteurs comme Ido et al, 08 [17] démontrent clairement, via une expérimentation, l’impact de la
fiabilité d’une source de données sur la qualité des profils construits. Dans leur expérimentation, des poids sont affectés à plusieurs sources de données (email,
tchat, blogs, social bookmarks, etc.) utilisées pour construire des profils utilisateurs au sein d’intranets chez IBM. L’expérimentation montre que la variation
du système de pondération des sources de données impacte considérablement la qualité des profils construits. Dans le modèle proposé (figure 2), nous
distinguons particulièrement les sources de données publiques (figure 7, exemple : blogs, profils publics, réseaux sociaux, etc.) et les sources données privées
(email, tchat, etc.) comme concepts fondamentaux [17]. Ces concepts restent très généraux et peuvent bien sûr être étendues, car la notion de fiabilité peut être
vue de manière beaucoup plus large.
b) Au-delà des applications ou systèmes représentant les sources de données, il est également intéressant de prendre en compte les utilisateurs qui
produisent ces données : les producteurs de données (figure 2). Par producteurs de données, nous entendons les utilisateurs à partir desquels le profil de
chaque utilisateur est construit. Le plus souvent, le profil de l’utilisateur est construit à partir des seules traces d’activités de l’utilisateur. Cependant, ce profil
étant généralement construit et enrichi au fur et à mesure des interactions entre l’utilisateur et le système, l’usage des seules traces d’activités s’avère
insuffisant dans plusieurs cas. Il s’agit par exemple des utilisateurs quasi inactifs qui interagissent très peu avec le système (on ne dispose donc pas de
suffisamment d’information pour construire leur profil) ou des utilisateurs pour lesquels le profil n’est que partiellement connu (profil connu dans le domaine
du sport, mais pas dans le domaine de la culture par exemple). La première approche de solution à ces problèmes a consisté à inférer les éléments du profil de
l’utilisateur à partir des individus ou groupes d’individus (figure 2) qui lui sont similaires (à la manière du filtrage collaboratif) [6][18][19]. Ceci est par
exemple très utilisé dans les sites de e-commerce (cas d’Amazon) utilisant des règles d’associations (les utilisateurs qui ont acheté le produit de gamme X, ont
également acheté les produits de gamme Y. Donc intuitivement, pour un utilisateur ayant acheté un produit de gamme X, les produits de gamme Y peuvent
être utilisés pour enrichir son profil). La seconde approche de solution qui se développe de plus en plus vise à améliorer la précédente en n’inférant le profil
d’un utilisateur qu’à partir des individus qui lui sont similaires, mais en qui il a pleinement confiance ou qui influencent réellement son comportement. Ceci
implique l’usage de nouvelles données relationnelles entre les utilisateurs, les réseaux de confiance par exemple, ou de manière plus générale les réseaux
sociaux (figure 7). Très peu de travaux sont actuellement réalisés dans ce sens, mais ceux-ci semblent très prometteurs [21, 22, 23], avec par exemple
l’explosion du Web social. Dans le cas de l’usage du réseau social de l’utilisateur pour inférer son profil, la question du choix de la portion du réseau à
analyser est également importante. A partir des travaux existants dans la sociologie, on distingue les analyses sociocentrées et les analyses égocentrées
(figure 2). Les analyses sociocentrées utilisent tout le graphe social (ou réseau social), et s’appuient très souvent des mesures de centralité (dégré,
intermédiarité, etc.) ou des algorithmes d’extraction de communautés dans les grands graphes [13]. Ces analyses supposent l’accès au graphe social entier (ce
qui n’est pas souvent le cas dans la réalité) et les temps de calculs (mesures de centralité par exemple) deviennent très importants et pourraient pénaliser les
systèmes nécessitant la construction temps réel de profils utilisateurs. Les analyses égocentrées pour leur part, s’intéressent uniquement aux relations entre les
individus situés à distance 1 (« amis ») de l’utilisateur. Ici, les données sont plus faciles à collecter, moins complexes à traiter [28] et peuvent, de ce fait,
favoriser un calcul temps réel du profil de l’utilisateur. Les analyses égocentrées sont très utilisées en sociologie, mais très peu de techniques sont éprouvées
par des tests automatisés à grande échelle.
Data Collection
Données
proviennent de
produites par
Sources
Producteurs
produisent
Sources publiques
Profil public
Site Web
Sources privées
Email
Chat
Groupes
Similarité Comportementale
Utilisateurs
Similarité intérêts
Reseaux sociaux
Egocentrique
Sociocentrique
Figure 2 : Modèle de données de la phase de collecte de données
Les données issues de cette phase peuvent être considérées comme des données brutes non structurées, qui nécessitent d’être structurées pour une meilleure
compréhension du processus de développement des profils utilisateurs.
3.2 Préparation ou structuration de données
L'étape de structuration de données est assez similaire à la catégorisation des éléments d’un profil utilisateur tel que présenté dans la littérature (section 2)
[8, 9, 11, 4, 10]. Plutôt que d’énumérer un ensemble de catégories (qui peuvent s’étendre en fonction des domaines d’applications), nous insistons sur trois
principales catégories génériques de données : les données d’identité, les données d’activité, et les données de sécurité (figure 3).
Par données d’identité, nous entendons les caractéristiques personnelles de l’utilisateur. Ce sont en général des données statiques qui varient très peu au
cours du temps [10]. Elles sont généralement fournies de manière explicite par les utilisateurs (via des formulaires d’inscription par exemple). Par analogie,
ces données peuvent être comparées à celles qu’on retrouve dans un curriculum vitae. On peut ainsi y retrouver les données personnelles (nom, sexe, taille,
couleur des yeux, etc.), les données démographiques (pays, ville, adresse, etc.), le cursus académique, l’historique des emplois, les distractions, les centres
d’intérêts explicitement déclarés par l’utilisateur, etc. Ces données font partie des informations du profil utilisateur qui sont directement exploitables (créer par
exemple des segments d’utilisateurs par région). Toutefois, elles sont rarement renseignées de manière exhaustive par les utilisateurs ou alors, inexploitables
du fait de restrictions législatives [30]. En général, les profils sont donc construits à partir des traces d’activités des utilisateurs.
b) Par données d’activité, nous entendons les traces d’activités issues de l’interaction entre l’utilisateur et le système d’information (parcours de navigation
sur un site Web, fichiers log d’un serveur Web, fichiers log d’une base de données, activités sur un réseau social numérique, etc.). Ces données sont très
importantes, car elles sont utilisées pour construire et enrichir les centres d’intérêts de l’utilisateur au fil du temps. La manière avec laquelle ces données sont
structurées peut ainsi avoir un impact très fort sur la qualité des profils construits. Nous considérons ces données comme des feedback utilisateurs qui peuvent
être regroupés en trois grandes catégories en fonction de leur qualité : les feedback explicites, les feedback implicites et les feedback externes. Les feedback
explicites fournissent le moyen d’évaluer a priori et sans ambigüité la pertinence d’une activité de l’utilisateur pour le calcul de ses centres d’intérêts.
Structuration (preparation) de données
Note
Demographique
Emplois
Recommendation
Opinion
Tags
Annotations
Commentaires
Charactéristiques physiques
Feedback Implicite
Distractions
Feedback Explicit e
Eyes Tracking
Feedback Externe
Cursus academique
Feedback
Données personnelles
Centres d'intérêts explicites
contiennent
contient
contient
Identité
Sur
contienent
Sécurité
contienent
Sur
Traces activités
contienent
Données
Figure 3. Modèle de données de la phase de structuration de données
Les feedback explicites peuvent exister sous différentes formes. Ils peuvent, par exemple, consister à : fournir une note sur une échelle de valeurs
prédéfinies (notes que les internautes indiquent sur des produits qu’ils achètent sur Internet), faire une action de recommandation (article qu’un utilisateur
recommande à un autre utilisateur), exprimer une opinion polarisée sur un objet (exemple du bouton « j’aime » sur Facebook), etc. Les feedback des
utilisateurs sur des pages Web étudiés par Claypool et al. [31] peuvent être rangés dans cette catégorie, avec notamment les actions de lecture, d’impression,
de visites répétées, etc. Les feedback implicites se rapportent aux actions des utilisateurs qui génèrent des contenus nécessitant des analyses plus approfondies
nécessaires pour le calcul des centres d’intérêts. Il s’agit, par exemple, des commentaires, tags, ou annotations qui, a priori ne donnent aucune information
qualitative permettant de juger de la pertinence d’un centre d’intérêts pour l’utilisateur. Malgré cette difficulté, certains auteurs s’intéressent aux techniques
permettant de dériver des profils utilisateurs à partir de ce type de données. C’est le cas par exemple de Ching-man et al. [32] qui construisent des profils
utilisateurs à partir de personomies (tous les tags d’un utilisateur dans une folksonomie). Les feedback externes se rapportent plus à des données
comportementales extraites par des capteurs externes à partir des activités liées aux organes physiques de l’utilisateur. Ce type de données est par exemple
extrait au moyen de détecteurs de mensonge (au cours d’un entretien) ou par des capteurs de suivi du mouvement des yeux sur une interface utilisateur (eyes
tracking) [33].
c) Par données de sécurité, nous entendons les paramètres de sécurité que l’utilisateur définit pour limiter ou autoriser le traitement de ses données afin de
construire son profil. Ces données de sécurité prennent également en compte les législations des états en ce qui concerne la manipulation des données
personnelles des utilisateurs [30]. De part la nature très sensible des données utilisateurs, il est donc très important de prendre en compte les paramètres de
sécurité définis par les utilisateurs et les restrictions liées à la législation dans le processus de développement de profils utilisateurs. Dans le cas d’Internet et de
l’explosion du Web social en particulier, des tiers disposent de plus en plus d’outils leur permettant de collecter de masses importantes de données utilisateurs,
et les législations des états ne sont pas forcément à jour pour contrôler ces accès. Aujourd’hui, la protection de la vie privée est devenue un enjeu majeur sur
Internet avec toutes les questions liées à l’identité numérique (identités multiples, identités certifiées, usurpation d’identités, etc.) [10].
Une fois les données structurées à cette étape, les traces d’activités sont analysées pour construire le profil de l’utilisateur.
3.3 Traitement des données
Généralement, les données d’identité et les données de sécurité sont explicitement renseignées par les utilisateurs. La partie implicite du profil est, pour
sa part, obtenue après analyse des traces d’activités des utilisateurs. Après leur structuration (voir section précédente), elles doivent subir des traitements
appropriés afin d’y extraire les centres d’intérêts pertinents de l’utilisateur. Ici, nous ne nous intéressons pas aux algorithmes utilisés dans cette phase [6], mais
plutôt à la modélisation des données qui sont utilisées. A partir des traces d’activités, ces données peuvent être décomposées en trois grandes dimensions :
contenu, contexte et sémantique (figure 4).
a) Le contenu représente les données (au sens propre du terme) extraites à partir des traces d’activités des utilisateurs. Le contenu dépend du type de
feedback utilisateur [31], et peut désigner le contenu généré par l’utilisateur (exemple : la note ou le contenu d’un commentaire sur un article dans le ecommerce) ou la description de la ressource avec laquelle l’utilisateur a interagi (description d’un article noté par l’utilisateur, description d’un document
recommandé par un utilisateur, etc.). Au-delà du texte, le contenu peut également désigner des données multimédias (audio, image, vidéo). La seule différence
résidera dans la nature des algorithmes de fouille de données nécessaires pour les analyses.
b) Par rapport au contenu, le contexte est plutôt vu comme des métadonnées de circonstance qui pourraient influencer les activités ou feedback de
l’utilisateur. Le contexte est une notion très large. Dans la modélisation des profils utilisateurs, certains auteurs s’intéressent à la définition de catégories de
données de contexte. Il s’agit généralement du contexte temporel (lié au temps), du contexte spatial (lié à la localisation géographique), du contexte matériel
(lié au matériel utilisé, exemple : ordinateur, téléphone mobile, etc.), du contexte environnemental (lié aux caractéristiques ambiantes, exemple : la
température), du contexte psychologique ou émotionnel (lié à l’humeur) [34]. Dans la vie réelle, le profil ou les goûts d’un utilisateur varient très souvent en
fonction du contexte dans lequel il se trouve. Par exemple, un utilisateur peut être intéressé par des jeux vidéos uniquement pendant les week-ends, mais
beaucoup moins ou pas du tout pendant les autres jours de la semaine. Ainsi les données de contexte sont fondamentales et doivent être prises en considération
pour obtenir des profils plus élaborés. Beaucoup de travaux sont encore à réaliser dans ce sens.
c) Les données de sémantique quant à elles concernent surtout les analyses textuelles et visent à apporter plus de sens à la terminologie manipulée selon
des domaines précis. Il serait par exemple important de lever l’ambigüité sur un terme tel que « java » en fonction du domaine dans lequel le profil de
l’utilisateur est modélisé (dans le sens d’un lieu touristique ou dans le sens langage de programmation). Les techniques actuelles utilisées pour apporter plus de
sémantique dans la construction de profil s’appuient principalement sur des ontologies. Il peut s’agir de réutiliser des ontologies de référence existantes
(Wordnet ou ODP par exemple) ou construire une nouvelle ontologie à partir des textes analysés (cette dernière pratique étant généralement lourde à réaliser)
[24]. Les textes à analyser étant multi-langages, un des enjeux actuel consiste à développer des ontologies multilingues [35]. De manière alternative aux
ontologies, les données sémantiques peuvent provenir de dictionnaires ou de thesaurus [25]. Les données de contenu, de contexte et de sémantique sont
utilisées (par des algorithmes appropriés) pour construire les centres d’intérêts qui représentent le profil implicite de l’utilisateur.
Traitement de données et représentation des profils
Matériel
Temporel
Spatiale
Preferences
Psychique
Environemental
Contexte
ordonné
derivé à partir
Traces d'activités
utilisé pour construire
contiennent
Centre d'intérêt
Contenu
utilisé pour construire
Text
Audio
Image
Video
+associé à
utilisé pour construire
contient
externes ou dérivé à partir
Semantique
Ontologies
Vecteurs
Thesaurus
Figure 4 : Modèle de données des phases de traitement et de représentation des profils
3.4 Représentation du profil
Le profil (implicite) de l’utilisateur est constitué d’un ensemble de centres d’intérêts obtenus après traitement des traces d’activités (figure 4). Ces centres
d’intérêts sont généralement pondérés et regroupés par domaine dans des vecteurs, ou associés entre eux sous forme de réseaux sémantiques ou via une
ontologie (cf. section 2). En fonction des objectifs, certains auteurs préfèrent juste établir des relations d’ordre entre les centres d’intérêts sous forme de
préférences. Il s’agira par exemple de spécifier qu’un utilisateur donné est plus fan de football que de rugby. L’usage des préférences est très souvent utilisé
pour réordonner le résultat des requêtes utilisateur (exemple : langage comme PreferenceSQL [20]).
La figure 5, présente le modèle de processus récapitulant les modèles de toutes les phases du processus présentés dans ce papier. Ce modèle permet d’avoir
une vision globale des concepts et relations utiles dans un processus de développement de profils utilisateurs.
4- Conclusions et perspectives
A partir d’un regroupement, d’une structuration et d’une extension des travaux de la littérature, nous avons présenté les concepts clés à prendre en compte
dans un processus de développement de profils utilisateurs dans un système d’information. La plupart de ces concepts sont plus ou moins étudiés de manière
séparée dans la littérature. Toutefois, ces concepts sont assemblés dans ce papier suivant différentes étapes d’un processus de développement de profils
utilisateurs, afin de rendre ce processus plus claire et réutilisable. Les profils sont généralement évalués, après avoir été construits, par des processus tels que
les validations croisées ou des confrontations à la perception humaine (évaluation en aval). Notre démarche vise plutôt l’amélioration en amont de la qualité
des profils utilisateurs construits via une bonne structuration et une bonne traçabilité du processus de développement de ces profils. Bien évidemment, cette
approche reste complémentaire aux évaluations en aval à partir des mécanismes utilisant les profils.
Structuration (préparation des données)
Note
Demographique
Emplois
Recommendation
Caractéristiques physiques
Opinion
Tags
Annotations Commentaires
Feedback Explicite
Feedback Implicite
Distractions
Eyes Tracking
Feedback Externe
Cursus académique
Traitement de données et représentation des profils
Feedback
Données personnelles
centre d'intérêts explicites
Matériel
Temporel
Spatial
ciontiennent
consist of
consist of
Identité
Psychique
Sécurité
Sur
Sur
Traces d'activités
Environemental
Contexte
est derivé
utilisé pour construire
contient
utilisé pour construire
Texte
Collecte de données
ordonné
Content
est derivé
contient
contient
Préférences
Centres d'intérêts
+associé à
Video
Image
Audio
utilisé pour construire
contient
Données
externes ou dérivés
Semantique
Vecteurs
By
From
Ontologies
Data Sources
Thesaurus
Producteurs
produisent
Sources publiques
Profil public
Site Web
Sources privées
Email
Chat
Groupes
Similarité Comportementale
Utilisateurs
Similarité intérêts
Réseaux sociaux
Egocentrique
Sociocentrique
Figure 5 : modèle proposé pour le processus de développement des profils utilisateurs dans les systèmes d’information
Les modèles des différentes étapes du processus de développement des profils proposés dans ce papier peuvent servir de socle pour tout système
nécessitant le développement de profils utilisateurs, et ceci de manière indépendante aux usages qui en seront faits (personnalisation, recommandation,
adaptation, analyses comportementales, etc.). La première perspective de ce travail consiste à développer un prototype d’environnement permettant d’importer
des données et de développer des profils utilisateurs respectant le modèle de processus (ensemble de modèles des différentes étapes) décrit. Les composants du
modèle proposé sont des concepts qui sont plus ou moins étudiés dans la littérature. Certains de ces concepts nécessitent une attention particulière car les
travaux qui s’y réfèrent sont très récents et très prometteurs. Il s’agit par exemple des données du réseau social de l’utilisateur qui peuvent être utilisées pour
l’enrichissement de son profil par diverses techniques à explorer, tout en prenant en compte la vie privée des utilisateurs…
Bibliographie
1.USAMA M. FAYYAD, GREGORY PIATETSKY-SHAPIRO, PADHRAIC SMYTH: The KDD Process for Extracting Useful Knowledge from Volumes of Data. Commun. ACM 39(11): 2734 (1996).
2. PEISI ZHONG, DAZHI LIU, XIAOJUN MENG, MEI LIU, METHODOLOGY of knowledge-based process modeling for concurrent product development, : The 8th International
Conference on Computer Supported Cooperative Work in Design, 2004.
3. GAUCH SUSAN, MIRCO S., ARAVIND C., ALESSANDRO M. (2007). User profiles for Personalized Information Access. In The Adaptive Web, Vol. 4321, pp. 54--89
(2007)
4. CORINE ZAYANI, ANDRE PENINOU, MARIE-FRANÇOISE CANUT, FLORENCE SEDES. Upstream adaptation mechanism for semi-structured documents querying with XQuery. In:
IJCSST, International Science Press India, Vol. 1 N. 1, pp. 39--44 (2008).
5. XU, JINGQIU; ZHU, ZHENGYU; REN, XIANG; TIAN, YUNYAN; LUO, YING; , "Personalized Web Search Using User Profile" Computational Intelligence and Security, 2007
International Conference on , vol., no., pp.222--226 (2007).
6. MIN GAO, KECHENG LIU, ZHONGFU WU: Personalisation in web computing and informatics: Theories, techniques, applications, and future research. Information Systems Frontiers
12(5): pp. 607--629 (2010).
7. CHEVALIER M., JULIEN C., SOULÉ-DUPUY C.,VALLÉS-PARLANGEAU N. Personalized Information Access Through Flexible and Interoperable Profiles.WISE-PAWI
2007, Personalized Access to Web Information - Web Information Systems Engineering, Nancy-France, Vol. LNCS 4832, p. 374 – 385 (2007).
8. AMATO GIUSEPPE, UMBERTO STRACCIA: User Profile Modeling and Applications to Digital Libraries (199). In ECDL 1999, European Conference on Research and
Advanced Technology for Digital Libraries: pp184—197 (1999).
9. MARIA GOLEMATI, AKRIVI KATIFORI, COSTAS VASSILAKIS, GEORGE LEPOURAS, CONSTANTIN HALATSIS: Creating an Ontology for the User Profile: Method
and Applications. In RCIS 2007, Research Challenges in Information Science: pp. 407-- 412 (2007).
10. fidis (the Future of Identity in the Information Society) http://www.fidis.net/publications/)
11. MOKRANE BOUZEGHOUB, DIMITRE KOSTADINOV: Personnalisation de l’information: aperçu de l’état de l’art et definition d’un modèle flexible de profils. In CORIA
2005, COnférence en Recherche d'Infomations et Applications, 201—218 (2005).
12. ALFRED KOBSA: Privacy-Enhanced Web Personalization. The Adaptive Web 2007: pp. 628--670 (2007).
13. FOGELMAN F. S. (2010).Mise en œuvre industrielle d’un composant de data mining sur les réseaux sociaux. Quelques exemples d’application. Journée Réseaux sociaux
analyse et data mining, SFDS, Paris, 16 Février 2010.
14. SHIBBOLETH, “Web Single Sign-On and Federating Software”, http://www.internet2.edu/pubs/shibboleth-infosheet.pdf
15. M. VIVIANI, N. BENNANI, E. EGYED-ZSIGMOND: A Survey on User Modeling in Multi-Application Environments. In The Third International Conference on Advances in Humanoriented and Personalized Mechanisms, Technologies, and Services CENTRIC'10, Nice, France.. IEEE. pp. 111--116 (2010).
16. PETRA SCHUBERT, MICHAEL KOCH: The Power of Personalization: Customer Collaboration and Virtual Communities, in AMCIS 2002, pp.1953--1965 (2002).
17. IDO GUY, MICHAL JACOVI, ELAD SHAHAR, NOGA MESHULAM, VLADIMIR SOROKA, STEPHEN FARRELL: Harvesting with SONAR: the value of aggregating social network
information. In CHI 2008, Computer Human Interaction: pp. 1017-1026 (2008).
18. JAIME TEEVAN, MEREDITH RINGEL MORRIS, STEVE BUSH: Discovering and using groups to improve personalized search. In WSDM 2009, Web Search and Data Mining: pp.
15—24 (2009).
19. YOU-JIN PARK, KUN-NYEONG CHANG: Individual and group behavior-based customer profile model for personalized product recommendation. In Expert Syst. Appl. 36(2): pp. 1932-1939 (2009).
20. WERNER KIEßLING, Foundations of preferences in database systems, VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases, pp. 61--82 (2002).
21. DAVID CARMEL, NAAMA ZWERDLING, IDO GUY, SHILA OFEK-KOIFMAN, NADAV HAR'EL, INBAL RONEN, EREL UZIEL, SIVAN YOGEV, SERGEY CHERNOV:
Personalized social search based on the user's social network. In CIKM 2009, Conference on Information and Knowledge Management: pp. 1227--1236 (2009).
22. ALAN MISLOVE, BIMAL VISWANATH, P. KRISHNA GUMMADI, PETER DRUSCHEL: You are who you know: inferring user profiles in online social networks. In WSDM 2010,
Web Search and Data Mining: pp. 251--260 (2010).
23. HENRY A. KAUTZ, BART SELMAN, MEHUL A. SHAH: Referral Web: Combining Social Networks and Collaborative Filtering. In ACM 40(3): pp. 63--65 (1997).
24. SUSAN GAUCH, MIRCO SPERETTA, ALEXANDER PRETSCHNER: Ontology-based user profiles for personalization search, Integrated Series in Information Systems, 2007, Volume
14, Part 3, pp. 665-694, Springer (2007).
25. DIEUDONNÉ TCHUENTE, C. MARIE-FRANÇOISE CANUT, NADINE BAPTISTE-JESSEL, ANDRÉ PÉNINOU, ANASS EL HADDADI: Visualizing the Evolution of Users' Profiles
from Online Social Networks. ASONAM 2010, Advances in Social Networks Analysis and Mining: pp. 370--374 (2010).
26. ULDIS BOJARS, ALEXANDRE PASSANT, RICHARD CYGANIAK, JOHN BRESLIN., Weaving SIOC into the Web of Linked Data, In LDOW2008, Linked Data on the Web, April 22,
2008, Beijing, China. [on line] http://events.linkeddata.org/ldow2008/papers/01-bojars-passant-weaving-sioc.pdf (2008).
27. GRANOVETTER M.S. (1973). The Strength of Weak Ties. The American Journal of Sociology, Vol. 78. No. 6, May 1973, pp. 1360—1380 (1973).
28. PRANTIK BHATTACHARYYA, ANKUSH GARG, SHYHTSUN FELIX WU: Analysis of user keyword similarity in online social networks, In Social Network Analysis and Mining (28
October 2010), Springer (2010).
29. PETER V. MASRDEN: Egocentric and sociocentric measures of network centrality, Social Networks, Vol. 24, No. 4. (2002), pp. 407--422 (2002).
30. KOBSA A., Generic User Modeling Systems, User Modeling and User Adapted interaction, Vol 11. No. 1-2, pp.49--63, (2001).
31. MARK CLAYPOOL, PHONG LE, MAKOTO WASEDA, DAVID BROWN: Implicit interest indicators. In IUI 2001, International Conference on Intelligent User Interfaces: pp. 33--40
(2001).
32. CHING-MAN AU YEUNG, NICHOLAS GIBBINS, NIGEL SHADBOLT: A Study of User Profile Generation from Folksonomies. In SWKM 2008, Social Web and Knowledge
Management (2008).
33. WEI, HAOLIN AND MOLDOVAN, ARTHIR-NICOLAE AND MUNTEAN, CRISTINA: Sensing learner interest through eye tracking. Ninth IT & T Conference, Dublin Institute of
Technology, Dublin, Ireland, 22nd.-23rd. October (2009).
34. SOFIANE ABBAR, MOKRANE BOUZEGHOUB, DIMITRE KOSTADINOV, STÉPHANE LOPES, ARMEN AGHASARYAN, STÉPHANE BETGÉ-BREZETZ: A personalized access
model: concepts and services for content delivery platforms. iiWAS 2008, Information Integration and Web-based Applications & Services: pp. 41--47 (2008).
35. ERNESTO WILLIAM DE LUCA, TILL PLUMBAUM, JERÔME KUNEGIS, SAHIN ALBAYRAK: Multilingual Ontology-based User Profile Enrichment, In WWW’2010, International
Conference on World Wide Web, pp:41--42 (2010).

Documents pareils