Modélisation du processus de développement des profils
Transcription
Modélisation du processus de développement des profils
Modélisation du processus de développement des profils utilisateurs dans les systèmes d’information Dieudonné TCHUENTE, André PENINOU, Marie-Francoise CANUT, Nadine Baptiste-JESSEL, Florence SEDES Universtité de Toulouse Institut de Recherche en Informatique de Toulouse, Système d’Information Généralisés 118, route de narbonne, 31062, Toulouse - France {tchuente, baptiste, canut, peninou, sedes}@irit.fr Mots clés : profil utilisateur, modèle utilisateur, personnalisation, recommandation, adaptation. Keywords : user profile, user model, personalization, recommandation, adaptation. Palabras clave : perfil del usuario, usuario modelo, personalización, recomendación, la adaptación. Résumé. Le développement des profils utilisateurs se situe toujours en amont des mécanismes (ou services) d’adaptation, recommandation, ou de personnalisation des informations pour répondre aux besoins spécifiques de chaque utilisateur et réduire au maximum les problèmes liés aux surcharges cognitives. Il est indéniable que des profils utilisateurs de qualité conditionnent des mécanismes de qualité. Cependant, la quasitotalité des travaux relatifs à ces mécanismes s’intéressent beaucoup plus aux mécanismes en eux-mêmes, qu’à la qualité des profils utilisateurs développés. Ainsi, dans cet article, nous nous intéressons à la modélisation des données du processus de développement des profils utilisateurs dans les systèmes d’information, dans le but d’améliorer en amont la qualité des profils construits. Ce travail se distingue des travaux actuels de la littérature qui s’intéressent uniquement à la modélisation du contenu ou des catégories de données d'un profil utilisateur. Le modèle proposé permet d’identifier et de structurer les concepts clés à considérer dans chacune des étapes du processus. La démarche proposée permet alors d’assurer une bonne traçabilité du processus et d’obtenir un modèle de processus sur lequel peut s’appuyer toute plateforme souhaitant intégrer le développement et l’usage de profils utilisateurs dans son fonctionnement (adaptation, personnalisation, recommandation, analyses comportementales, etc.). 1 Introduction Des masses de données sont de plus en plus importantes dans les systèmes d’information ou sur la toile. Il devient crucial d’aider l’utilisateur à accéder facilement à l’information qui correspond à ses besoins spécifiques. Depuis plus d’une décennie, la conception de profils utilisateurs dans les systèmes d’information est devenue un enjeu majeur pour l’amélioration de la qualité des services rendus aux utilisateurs, en témoigne par exemple la croissance fulgurante des publications scientifiques qui adressent cette problématique [6]. Les profils utilisateurs construits sont alors utilisés dans divers systèmes tels que les systèmes de personnalisation, les systèmes adaptatifs, les systèmes de recommandation, les systèmes d’analyses comportementales, etc. Les domaines d’applications sont multiples (moteurs de recherche, e-commerce, e-learning, librairies digitales, médecine, télécommunications, sécurité, etc.). De manière procédurale, l’usage des profils dans ces systèmes implique les étapes : a) de développement des profils utilisateurs qui nécessite généralement la collecte de données sur les traces d’activités des utilisateurs et l’usage des techniques d’apprentissage automatique sur ces données [6]. b) de représentation des profils utilisateurs construits qui implique généralement la structuration des données du profil (profil multidimensionnels et profils contextuels par exemple), la représentation des éléments du profil d’un utilisateur (vecteurs pondérés de mots, réseaux sémantiques de mots, ou utilisation d'ontologies par exemple) [3, 4, 5, 6]. c) d’usage proprement dit des profils construits. Dans les systèmes de personnalisation ou de recommandation par exemple, des techniques couramment utilisées sont le filtrage par contenus (application d’une mesure de similarité entre des profils et des documents par exemple), le filtrage collaboratif (application d’une mesure de similarité entre profils utilisateurs), ou le filtrage hybride (usage des deux techniques précédentes) [4, 17, 18, 19, 21, 34]. La diversité des données et des domaines d’application qui se rapportent au profilage utilisateur a amené de nombreux auteurs à se pencher sur la conception de modèles génériques de profils utilisateurs [6, 7, 8, 9, 10]. Cependant, les modèles existants ne s’intéressent qu’à la représentation des éléments du profil utilisateur (étape b). Or, au-delà de la représentation de profils utilisateurs, l’enjeu majeur aujourd'hui dans la conception de ces profils s’oriente plus vers la pertinence des profils construits. Pertinence de profils qui conditionne la qualité des mécanismes utilisant les profils. Toutefois, la plupart des travaux actuels ne s’intéressent plus à la validation de la qualité des mécanismes d’usage profils (étape c) [4, 17, 18, 19, 21, 34], sans s’assurer de a la pertinence de profils construits en amont (étape a). Les profils construits ne sont en général pas évalués en amont. Ainsi, lorsque les mécanismes ne produisent pas de résultats satisfaisants, il faut en général recommencer le cycle de développement avec éventuellement de nouvelles techniques d’apprentissage, ce qui implique des surcoûts (temps, ressources humaines, etc.). Pour éviter ces surcoûts dans l’industrie (dans un cadre beaucoup plus général), un accent très important est porté sur la qualité du processus de fabrication des produits [2]. Dans le même ordre d’idée, afin d’améliorer en amont la pertinence des profils construits ainsi que les coûts d’éventuelles reprises dans le cycle de développement de ces profils, nous nous intéressons à la modélisation non pas du contenu des profils utilisateurs, mais du processus de développement de ces profils (étape a). Ceci dans la mesure où nous pensons que la pertinence d’un profil développé dépend également de nombreux facteurs liés à la manière dont le profil a été construit : notamment la qualité des sources de données (données publiques ou privées par exemple), la qualité des producteurs de données (utilisateur ou réseau social par exemple), la qualité des actions ou feedback de l’utilisateur dans ses traces d’activités (une action impliquant un intérêt explicite de l’utilisateur ou un commentaire par exemple), la structuration des données analysées (données de contexte ou données liées à la sémantique par exemple). La suite de cet article se présente comme suit : dans la section 2 nous présentons une brève revue de littérature sur les modèles génériques de profils utilisateurs. Dans la section 3 nous proposons et discutons le modèle générique du processus développement de profils utilisateurs. Enfin la conclusion et les perspectives de notre travail sont présentées dans la section 4. 2 Modèles de profils utilisateurs dans la littérature Dans cette partie nous nous intéressons aux modèles génériques de profils utilisateurs actuellement proposés dans la littérature. Nous les regroupons dans trois grandes catégories : les modèles fonctionnels (à quoi servent les profils utilisateurs ?), les modèles de catégorisation (que contiennent les profils utilisateurs ?), et les modèles de représentation des profils utilisateurs (comment sont représentés les profils utilisateurs ?). Les modèles fonctionnels s’intéressent à la description des fonctionnalités d’un profil utilisateur. Une bonne illustration de ce type de modèle est proposée par Gao et al. [6] qui définissent 3 modèles fonctionnels de profils utilisateurs : les modèles comportementaux (behavior modeling) pour l’analyse du comportement des utilisateurs, les modèles basés sur les centres d’intérêts (interest modeling) pour l’apprentissage des centres d’intérêts des utilisateurs, et les modèles prédictifs (predictive modeling) pour prédire le comportement ou les centres d’intérêts des utilisateurs. Pour chacun de ces modèles, l’auteur propose une classification des techniques d’apprentissage ou de fouille de données appropriées pour construire les profils utilisateurs correspondants (règles d’associations, arbres de décision, réseaux bayésiens, etc.). Les modèles de représentation visent à définir les structures de données appropriées pour représenter les modèles construits (modèles fonctionnels par exemple). Gauch et al. 07 [3] font une synthèse de ces structures de données parmi lesquelles on peut citer : les vecteurs pondérés de mots clés, les réseaux sémantiques, et les ontologies. Comme pour les modèles fonctionnels, ces représentations ne fournissent pas d’éléments pour la compréhension des données utilisées pour construire et représenter ces profils. Les modèles de catégorisation visent à définir les catégories (ou dimensions) d’informations que l’on peut retrouver dans un profil utilisateur. Cette tâche est très difficile compte tenu de l’extrême diversité d’informations que l’on peut retrouver dans un profil en fonction du domaine étudié. Toutefois, certains auteurs ont défini des modèles qui se veulent génériques. Zayani et al., 08 [4] propose un modèle dans lequel un profil utilisateur est composé de caractéristiques permanentes (données d’identité et données démographiques) et de caractéristiques évolutives (centres d’intérêts et préférences) qui sont apprises au fur et à mesure des interactions de l’utilisateur avec le système d’information. FIDIS 10 [10] va dans le même sens en proposant une catégorisation beaucoup plus complexe des informations contenues dans un profil utilisateur. Celui-ci contient des éléments classifiés en trois grands groupes : les éléments temporels (éléments permanents invariants, permanents acquis, temporaires persistants, temporaires), les éléments fonctionnels (données personnelles, biologiques, d’identification, de géo localisation, communautaire), et les éléments par domaine (santé, justice, travail, etc.).Plutôt que d’essayer d’être exhaustif dans les catégories d’information d’un profil, certains auteurs [8][11] regroupent les informations d’un profil utilisateur au sein de plusieurs dimensions extensibles. Par exemple [11] distingue les dimensions de données personnelles, domaines d’intérêts, préférences matérielles, historique de requêtes, qualité de service attendue, sécurité. Bien que ces dimensions soient assez caractéristiques du processus de développement des profils, ils restent assez peu compréhensibles et réutilisables d’un point de vu processus. Ceci dans la mesure où elles se situent toutes à un même niveau dans les travaux en question. 3 Modèles du processus de développement des profils utilisateurs Les modèles que nous présentons dans ce papier sont complémentaires à ceux présentés dans la littérature, mais diffèrent dans le sens où ils s’inscrivent dans une approche de modélisation de processus plutôt dans une vision statique des données liées au développement des profils utilisateurs. Nous partons de l'hypothèse selon laquelle le processus de développement des profils utilisateurs est similaire à tout processus d’extraction de connaissances à partir de données [1]. Nous distinguons quatre grandes étapes dans ce processus : la collecte de données, la préparation (ou structuration) des données, l’analyse de données et la représentation des données (figure 1). Les profils construits sont évalués ou utilisés dans différents systèmes (personnalisation, recommandation, etc.) qui peuvent nécessiter la reprise du processus (étape évaluation/usage). Collecte [Producteurs] [Sources] Préparation (structuration) [Identité] [Sécurité] [Traces d'activités] Analyse [Sémantique] [Contexte] Representation [Intérêts] [Vecteurs] Evaluation/Usage [Préférences] Figure 1. Représentation sous forme de diagramme d’activités du processus de développement (quatre premières activités) et d’usage (activité évaluation/usage) des profils utilisateurs. 3.1 Collecte de données Le premier enjeu du profilage des utilisateurs consiste en la collecte de données devant servir à construire les profils. Ces données peuvent être fournies par les utilisateurs de manière explicite (via des formulaires par exemple) ou de manière implicite (collecte automatique des traces d’activités). Quelle que soit la méthode de collecte de données, nous pensons que les deux questions fondamentales à se poser à ce niveau sont : d’où proviennent ces données ? (sources de données) et qui produit ces données ? (producteurs de données). a) Par sources de données, nous entendons les systèmes (systèmes d’exploitation, logs de bases de données, logs de serveurs Web, etc.) et les applications (email, social bookmarking, etc.) par lesquels les données utilisateurs peuvent être collectées. Deux principales problématiques se dégagent par rapport aux sources de données : leur multiplicité et leur fiabilité. La multiplicité des sources de données : de nos jours les utilisateurs disposent de plus en plus d’interfaces par lesquelles ils génèrent des traces d’activités dans les systèmes d’information. C’est le cas particulièrement du Web 2.0 et la multiplication des identités numériques. Ainsi les utilisateurs disposent de plus en plus de données partagées au sein de diverses applications, et l’un des premiers challenges actuellement consiste à recouper ces données ou à faire interopérer ces applications. De plus en plus de technologies visent à recouper facilement ces données dans les systèmes d’information par fusion des identités partielles d’utilisateurs (OpenID, Shibboleth, CardSpace, Liberty Alliance, etc) [14]. Dans la littérature, le partage de données utilisateurs entre plusieurs applications est souvent géré par des approches de standardisation et des approches de médiation [15]. Les approches de standardisation s’appuient sur l’usage de spécifications standardisées pour inter opérer (exemple : UUCM - Unified User Context Model-, UserML -User Modeling Markup Language-, APML - Attention Profile Markup Language-, FOAF- Friend Of A Friend, etc.). Les approches de médiation quant à elles visent à réconcilier les standards existants dans le but de prendre en compte les spécificités d’un système donné (exemple : GUC- Generic User model Component). Dans les intranets, la collecte de données en provenance d’applications multiples peut être réalisée via des outils comme les ERP (Entreprise Resource Planning). La fiabilité des sources de données : une fois la multiplicité des sources de données considérée, la fiabilité de chaque source est un aspect très important qui peut considérablement impacter la pertinence des profils construits. Elle se rapproche de la dimension qualité attendue du modèle de profil multimensionnel proposé par Bouzhegoub et al., 05 [11]. Des auteurs comme Ido et al, 08 [17] démontrent clairement, via une expérimentation, l’impact de la fiabilité d’une source de données sur la qualité des profils construits. Dans leur expérimentation, des poids sont affectés à plusieurs sources de données (email, tchat, blogs, social bookmarks, etc.) utilisées pour construire des profils utilisateurs au sein d’intranets chez IBM. L’expérimentation montre que la variation du système de pondération des sources de données impacte considérablement la qualité des profils construits. Dans le modèle proposé (figure 2), nous distinguons particulièrement les sources de données publiques (figure 7, exemple : blogs, profils publics, réseaux sociaux, etc.) et les sources données privées (email, tchat, etc.) comme concepts fondamentaux [17]. Ces concepts restent très généraux et peuvent bien sûr être étendues, car la notion de fiabilité peut être vue de manière beaucoup plus large. b) Au-delà des applications ou systèmes représentant les sources de données, il est également intéressant de prendre en compte les utilisateurs qui produisent ces données : les producteurs de données (figure 2). Par producteurs de données, nous entendons les utilisateurs à partir desquels le profil de chaque utilisateur est construit. Le plus souvent, le profil de l’utilisateur est construit à partir des seules traces d’activités de l’utilisateur. Cependant, ce profil étant généralement construit et enrichi au fur et à mesure des interactions entre l’utilisateur et le système, l’usage des seules traces d’activités s’avère insuffisant dans plusieurs cas. Il s’agit par exemple des utilisateurs quasi inactifs qui interagissent très peu avec le système (on ne dispose donc pas de suffisamment d’information pour construire leur profil) ou des utilisateurs pour lesquels le profil n’est que partiellement connu (profil connu dans le domaine du sport, mais pas dans le domaine de la culture par exemple). La première approche de solution à ces problèmes a consisté à inférer les éléments du profil de l’utilisateur à partir des individus ou groupes d’individus (figure 2) qui lui sont similaires (à la manière du filtrage collaboratif) [6][18][19]. Ceci est par exemple très utilisé dans les sites de e-commerce (cas d’Amazon) utilisant des règles d’associations (les utilisateurs qui ont acheté le produit de gamme X, ont également acheté les produits de gamme Y. Donc intuitivement, pour un utilisateur ayant acheté un produit de gamme X, les produits de gamme Y peuvent être utilisés pour enrichir son profil). La seconde approche de solution qui se développe de plus en plus vise à améliorer la précédente en n’inférant le profil d’un utilisateur qu’à partir des individus qui lui sont similaires, mais en qui il a pleinement confiance ou qui influencent réellement son comportement. Ceci implique l’usage de nouvelles données relationnelles entre les utilisateurs, les réseaux de confiance par exemple, ou de manière plus générale les réseaux sociaux (figure 7). Très peu de travaux sont actuellement réalisés dans ce sens, mais ceux-ci semblent très prometteurs [21, 22, 23], avec par exemple l’explosion du Web social. Dans le cas de l’usage du réseau social de l’utilisateur pour inférer son profil, la question du choix de la portion du réseau à analyser est également importante. A partir des travaux existants dans la sociologie, on distingue les analyses sociocentrées et les analyses égocentrées (figure 2). Les analyses sociocentrées utilisent tout le graphe social (ou réseau social), et s’appuient très souvent des mesures de centralité (dégré, intermédiarité, etc.) ou des algorithmes d’extraction de communautés dans les grands graphes [13]. Ces analyses supposent l’accès au graphe social entier (ce qui n’est pas souvent le cas dans la réalité) et les temps de calculs (mesures de centralité par exemple) deviennent très importants et pourraient pénaliser les systèmes nécessitant la construction temps réel de profils utilisateurs. Les analyses égocentrées pour leur part, s’intéressent uniquement aux relations entre les individus situés à distance 1 (« amis ») de l’utilisateur. Ici, les données sont plus faciles à collecter, moins complexes à traiter [28] et peuvent, de ce fait, favoriser un calcul temps réel du profil de l’utilisateur. Les analyses égocentrées sont très utilisées en sociologie, mais très peu de techniques sont éprouvées par des tests automatisés à grande échelle. Data Collection Données proviennent de produites par Sources Producteurs produisent Sources publiques Profil public Site Web Sources privées Email Chat Groupes Similarité Comportementale Utilisateurs Similarité intérêts Reseaux sociaux Egocentrique Sociocentrique Figure 2 : Modèle de données de la phase de collecte de données Les données issues de cette phase peuvent être considérées comme des données brutes non structurées, qui nécessitent d’être structurées pour une meilleure compréhension du processus de développement des profils utilisateurs. 3.2 Préparation ou structuration de données L'étape de structuration de données est assez similaire à la catégorisation des éléments d’un profil utilisateur tel que présenté dans la littérature (section 2) [8, 9, 11, 4, 10]. Plutôt que d’énumérer un ensemble de catégories (qui peuvent s’étendre en fonction des domaines d’applications), nous insistons sur trois principales catégories génériques de données : les données d’identité, les données d’activité, et les données de sécurité (figure 3). Par données d’identité, nous entendons les caractéristiques personnelles de l’utilisateur. Ce sont en général des données statiques qui varient très peu au cours du temps [10]. Elles sont généralement fournies de manière explicite par les utilisateurs (via des formulaires d’inscription par exemple). Par analogie, ces données peuvent être comparées à celles qu’on retrouve dans un curriculum vitae. On peut ainsi y retrouver les données personnelles (nom, sexe, taille, couleur des yeux, etc.), les données démographiques (pays, ville, adresse, etc.), le cursus académique, l’historique des emplois, les distractions, les centres d’intérêts explicitement déclarés par l’utilisateur, etc. Ces données font partie des informations du profil utilisateur qui sont directement exploitables (créer par exemple des segments d’utilisateurs par région). Toutefois, elles sont rarement renseignées de manière exhaustive par les utilisateurs ou alors, inexploitables du fait de restrictions législatives [30]. En général, les profils sont donc construits à partir des traces d’activités des utilisateurs. b) Par données d’activité, nous entendons les traces d’activités issues de l’interaction entre l’utilisateur et le système d’information (parcours de navigation sur un site Web, fichiers log d’un serveur Web, fichiers log d’une base de données, activités sur un réseau social numérique, etc.). Ces données sont très importantes, car elles sont utilisées pour construire et enrichir les centres d’intérêts de l’utilisateur au fil du temps. La manière avec laquelle ces données sont structurées peut ainsi avoir un impact très fort sur la qualité des profils construits. Nous considérons ces données comme des feedback utilisateurs qui peuvent être regroupés en trois grandes catégories en fonction de leur qualité : les feedback explicites, les feedback implicites et les feedback externes. Les feedback explicites fournissent le moyen d’évaluer a priori et sans ambigüité la pertinence d’une activité de l’utilisateur pour le calcul de ses centres d’intérêts. Structuration (preparation) de données Note Demographique Emplois Recommendation Opinion Tags Annotations Commentaires Charactéristiques physiques Feedback Implicite Distractions Feedback Explicit e Eyes Tracking Feedback Externe Cursus academique Feedback Données personnelles Centres d'intérêts explicites contiennent contient contient Identité Sur contienent Sécurité contienent Sur Traces activités contienent Données Figure 3. Modèle de données de la phase de structuration de données Les feedback explicites peuvent exister sous différentes formes. Ils peuvent, par exemple, consister à : fournir une note sur une échelle de valeurs prédéfinies (notes que les internautes indiquent sur des produits qu’ils achètent sur Internet), faire une action de recommandation (article qu’un utilisateur recommande à un autre utilisateur), exprimer une opinion polarisée sur un objet (exemple du bouton « j’aime » sur Facebook), etc. Les feedback des utilisateurs sur des pages Web étudiés par Claypool et al. [31] peuvent être rangés dans cette catégorie, avec notamment les actions de lecture, d’impression, de visites répétées, etc. Les feedback implicites se rapportent aux actions des utilisateurs qui génèrent des contenus nécessitant des analyses plus approfondies nécessaires pour le calcul des centres d’intérêts. Il s’agit, par exemple, des commentaires, tags, ou annotations qui, a priori ne donnent aucune information qualitative permettant de juger de la pertinence d’un centre d’intérêts pour l’utilisateur. Malgré cette difficulté, certains auteurs s’intéressent aux techniques permettant de dériver des profils utilisateurs à partir de ce type de données. C’est le cas par exemple de Ching-man et al. [32] qui construisent des profils utilisateurs à partir de personomies (tous les tags d’un utilisateur dans une folksonomie). Les feedback externes se rapportent plus à des données comportementales extraites par des capteurs externes à partir des activités liées aux organes physiques de l’utilisateur. Ce type de données est par exemple extrait au moyen de détecteurs de mensonge (au cours d’un entretien) ou par des capteurs de suivi du mouvement des yeux sur une interface utilisateur (eyes tracking) [33]. c) Par données de sécurité, nous entendons les paramètres de sécurité que l’utilisateur définit pour limiter ou autoriser le traitement de ses données afin de construire son profil. Ces données de sécurité prennent également en compte les législations des états en ce qui concerne la manipulation des données personnelles des utilisateurs [30]. De part la nature très sensible des données utilisateurs, il est donc très important de prendre en compte les paramètres de sécurité définis par les utilisateurs et les restrictions liées à la législation dans le processus de développement de profils utilisateurs. Dans le cas d’Internet et de l’explosion du Web social en particulier, des tiers disposent de plus en plus d’outils leur permettant de collecter de masses importantes de données utilisateurs, et les législations des états ne sont pas forcément à jour pour contrôler ces accès. Aujourd’hui, la protection de la vie privée est devenue un enjeu majeur sur Internet avec toutes les questions liées à l’identité numérique (identités multiples, identités certifiées, usurpation d’identités, etc.) [10]. Une fois les données structurées à cette étape, les traces d’activités sont analysées pour construire le profil de l’utilisateur. 3.3 Traitement des données Généralement, les données d’identité et les données de sécurité sont explicitement renseignées par les utilisateurs. La partie implicite du profil est, pour sa part, obtenue après analyse des traces d’activités des utilisateurs. Après leur structuration (voir section précédente), elles doivent subir des traitements appropriés afin d’y extraire les centres d’intérêts pertinents de l’utilisateur. Ici, nous ne nous intéressons pas aux algorithmes utilisés dans cette phase [6], mais plutôt à la modélisation des données qui sont utilisées. A partir des traces d’activités, ces données peuvent être décomposées en trois grandes dimensions : contenu, contexte et sémantique (figure 4). a) Le contenu représente les données (au sens propre du terme) extraites à partir des traces d’activités des utilisateurs. Le contenu dépend du type de feedback utilisateur [31], et peut désigner le contenu généré par l’utilisateur (exemple : la note ou le contenu d’un commentaire sur un article dans le ecommerce) ou la description de la ressource avec laquelle l’utilisateur a interagi (description d’un article noté par l’utilisateur, description d’un document recommandé par un utilisateur, etc.). Au-delà du texte, le contenu peut également désigner des données multimédias (audio, image, vidéo). La seule différence résidera dans la nature des algorithmes de fouille de données nécessaires pour les analyses. b) Par rapport au contenu, le contexte est plutôt vu comme des métadonnées de circonstance qui pourraient influencer les activités ou feedback de l’utilisateur. Le contexte est une notion très large. Dans la modélisation des profils utilisateurs, certains auteurs s’intéressent à la définition de catégories de données de contexte. Il s’agit généralement du contexte temporel (lié au temps), du contexte spatial (lié à la localisation géographique), du contexte matériel (lié au matériel utilisé, exemple : ordinateur, téléphone mobile, etc.), du contexte environnemental (lié aux caractéristiques ambiantes, exemple : la température), du contexte psychologique ou émotionnel (lié à l’humeur) [34]. Dans la vie réelle, le profil ou les goûts d’un utilisateur varient très souvent en fonction du contexte dans lequel il se trouve. Par exemple, un utilisateur peut être intéressé par des jeux vidéos uniquement pendant les week-ends, mais beaucoup moins ou pas du tout pendant les autres jours de la semaine. Ainsi les données de contexte sont fondamentales et doivent être prises en considération pour obtenir des profils plus élaborés. Beaucoup de travaux sont encore à réaliser dans ce sens. c) Les données de sémantique quant à elles concernent surtout les analyses textuelles et visent à apporter plus de sens à la terminologie manipulée selon des domaines précis. Il serait par exemple important de lever l’ambigüité sur un terme tel que « java » en fonction du domaine dans lequel le profil de l’utilisateur est modélisé (dans le sens d’un lieu touristique ou dans le sens langage de programmation). Les techniques actuelles utilisées pour apporter plus de sémantique dans la construction de profil s’appuient principalement sur des ontologies. Il peut s’agir de réutiliser des ontologies de référence existantes (Wordnet ou ODP par exemple) ou construire une nouvelle ontologie à partir des textes analysés (cette dernière pratique étant généralement lourde à réaliser) [24]. Les textes à analyser étant multi-langages, un des enjeux actuel consiste à développer des ontologies multilingues [35]. De manière alternative aux ontologies, les données sémantiques peuvent provenir de dictionnaires ou de thesaurus [25]. Les données de contenu, de contexte et de sémantique sont utilisées (par des algorithmes appropriés) pour construire les centres d’intérêts qui représentent le profil implicite de l’utilisateur. Traitement de données et représentation des profils Matériel Temporel Spatiale Preferences Psychique Environemental Contexte ordonné derivé à partir Traces d'activités utilisé pour construire contiennent Centre d'intérêt Contenu utilisé pour construire Text Audio Image Video +associé à utilisé pour construire contient externes ou dérivé à partir Semantique Ontologies Vecteurs Thesaurus Figure 4 : Modèle de données des phases de traitement et de représentation des profils 3.4 Représentation du profil Le profil (implicite) de l’utilisateur est constitué d’un ensemble de centres d’intérêts obtenus après traitement des traces d’activités (figure 4). Ces centres d’intérêts sont généralement pondérés et regroupés par domaine dans des vecteurs, ou associés entre eux sous forme de réseaux sémantiques ou via une ontologie (cf. section 2). En fonction des objectifs, certains auteurs préfèrent juste établir des relations d’ordre entre les centres d’intérêts sous forme de préférences. Il s’agira par exemple de spécifier qu’un utilisateur donné est plus fan de football que de rugby. L’usage des préférences est très souvent utilisé pour réordonner le résultat des requêtes utilisateur (exemple : langage comme PreferenceSQL [20]). La figure 5, présente le modèle de processus récapitulant les modèles de toutes les phases du processus présentés dans ce papier. Ce modèle permet d’avoir une vision globale des concepts et relations utiles dans un processus de développement de profils utilisateurs. 4- Conclusions et perspectives A partir d’un regroupement, d’une structuration et d’une extension des travaux de la littérature, nous avons présenté les concepts clés à prendre en compte dans un processus de développement de profils utilisateurs dans un système d’information. La plupart de ces concepts sont plus ou moins étudiés de manière séparée dans la littérature. Toutefois, ces concepts sont assemblés dans ce papier suivant différentes étapes d’un processus de développement de profils utilisateurs, afin de rendre ce processus plus claire et réutilisable. Les profils sont généralement évalués, après avoir été construits, par des processus tels que les validations croisées ou des confrontations à la perception humaine (évaluation en aval). Notre démarche vise plutôt l’amélioration en amont de la qualité des profils utilisateurs construits via une bonne structuration et une bonne traçabilité du processus de développement de ces profils. Bien évidemment, cette approche reste complémentaire aux évaluations en aval à partir des mécanismes utilisant les profils. Structuration (préparation des données) Note Demographique Emplois Recommendation Caractéristiques physiques Opinion Tags Annotations Commentaires Feedback Explicite Feedback Implicite Distractions Eyes Tracking Feedback Externe Cursus académique Traitement de données et représentation des profils Feedback Données personnelles centre d'intérêts explicites Matériel Temporel Spatial ciontiennent consist of consist of Identité Psychique Sécurité Sur Sur Traces d'activités Environemental Contexte est derivé utilisé pour construire contient utilisé pour construire Texte Collecte de données ordonné Content est derivé contient contient Préférences Centres d'intérêts +associé à Video Image Audio utilisé pour construire contient Données externes ou dérivés Semantique Vecteurs By From Ontologies Data Sources Thesaurus Producteurs produisent Sources publiques Profil public Site Web Sources privées Email Chat Groupes Similarité Comportementale Utilisateurs Similarité intérêts Réseaux sociaux Egocentrique Sociocentrique Figure 5 : modèle proposé pour le processus de développement des profils utilisateurs dans les systèmes d’information Les modèles des différentes étapes du processus de développement des profils proposés dans ce papier peuvent servir de socle pour tout système nécessitant le développement de profils utilisateurs, et ceci de manière indépendante aux usages qui en seront faits (personnalisation, recommandation, adaptation, analyses comportementales, etc.). La première perspective de ce travail consiste à développer un prototype d’environnement permettant d’importer des données et de développer des profils utilisateurs respectant le modèle de processus (ensemble de modèles des différentes étapes) décrit. Les composants du modèle proposé sont des concepts qui sont plus ou moins étudiés dans la littérature. Certains de ces concepts nécessitent une attention particulière car les travaux qui s’y réfèrent sont très récents et très prometteurs. Il s’agit par exemple des données du réseau social de l’utilisateur qui peuvent être utilisées pour l’enrichissement de son profil par diverses techniques à explorer, tout en prenant en compte la vie privée des utilisateurs… Bibliographie 1.USAMA M. FAYYAD, GREGORY PIATETSKY-SHAPIRO, PADHRAIC SMYTH: The KDD Process for Extracting Useful Knowledge from Volumes of Data. Commun. ACM 39(11): 2734 (1996). 2. PEISI ZHONG, DAZHI LIU, XIAOJUN MENG, MEI LIU, METHODOLOGY of knowledge-based process modeling for concurrent product development, : The 8th International Conference on Computer Supported Cooperative Work in Design, 2004. 3. GAUCH SUSAN, MIRCO S., ARAVIND C., ALESSANDRO M. (2007). User profiles for Personalized Information Access. In The Adaptive Web, Vol. 4321, pp. 54--89 (2007) 4. CORINE ZAYANI, ANDRE PENINOU, MARIE-FRANÇOISE CANUT, FLORENCE SEDES. Upstream adaptation mechanism for semi-structured documents querying with XQuery. In: IJCSST, International Science Press India, Vol. 1 N. 1, pp. 39--44 (2008). 5. XU, JINGQIU; ZHU, ZHENGYU; REN, XIANG; TIAN, YUNYAN; LUO, YING; , "Personalized Web Search Using User Profile" Computational Intelligence and Security, 2007 International Conference on , vol., no., pp.222--226 (2007). 6. MIN GAO, KECHENG LIU, ZHONGFU WU: Personalisation in web computing and informatics: Theories, techniques, applications, and future research. Information Systems Frontiers 12(5): pp. 607--629 (2010). 7. CHEVALIER M., JULIEN C., SOULÉ-DUPUY C.,VALLÉS-PARLANGEAU N. Personalized Information Access Through Flexible and Interoperable Profiles.WISE-PAWI 2007, Personalized Access to Web Information - Web Information Systems Engineering, Nancy-France, Vol. LNCS 4832, p. 374 – 385 (2007). 8. AMATO GIUSEPPE, UMBERTO STRACCIA: User Profile Modeling and Applications to Digital Libraries (199). In ECDL 1999, European Conference on Research and Advanced Technology for Digital Libraries: pp184—197 (1999). 9. MARIA GOLEMATI, AKRIVI KATIFORI, COSTAS VASSILAKIS, GEORGE LEPOURAS, CONSTANTIN HALATSIS: Creating an Ontology for the User Profile: Method and Applications. In RCIS 2007, Research Challenges in Information Science: pp. 407-- 412 (2007). 10. fidis (the Future of Identity in the Information Society) http://www.fidis.net/publications/) 11. MOKRANE BOUZEGHOUB, DIMITRE KOSTADINOV: Personnalisation de l’information: aperçu de l’état de l’art et definition d’un modèle flexible de profils. In CORIA 2005, COnférence en Recherche d'Infomations et Applications, 201—218 (2005). 12. ALFRED KOBSA: Privacy-Enhanced Web Personalization. The Adaptive Web 2007: pp. 628--670 (2007). 13. FOGELMAN F. S. (2010).Mise en œuvre industrielle d’un composant de data mining sur les réseaux sociaux. Quelques exemples d’application. Journée Réseaux sociaux analyse et data mining, SFDS, Paris, 16 Février 2010. 14. SHIBBOLETH, “Web Single Sign-On and Federating Software”, http://www.internet2.edu/pubs/shibboleth-infosheet.pdf 15. M. VIVIANI, N. BENNANI, E. EGYED-ZSIGMOND: A Survey on User Modeling in Multi-Application Environments. In The Third International Conference on Advances in Humanoriented and Personalized Mechanisms, Technologies, and Services CENTRIC'10, Nice, France.. IEEE. pp. 111--116 (2010). 16. PETRA SCHUBERT, MICHAEL KOCH: The Power of Personalization: Customer Collaboration and Virtual Communities, in AMCIS 2002, pp.1953--1965 (2002). 17. IDO GUY, MICHAL JACOVI, ELAD SHAHAR, NOGA MESHULAM, VLADIMIR SOROKA, STEPHEN FARRELL: Harvesting with SONAR: the value of aggregating social network information. In CHI 2008, Computer Human Interaction: pp. 1017-1026 (2008). 18. JAIME TEEVAN, MEREDITH RINGEL MORRIS, STEVE BUSH: Discovering and using groups to improve personalized search. In WSDM 2009, Web Search and Data Mining: pp. 15—24 (2009). 19. YOU-JIN PARK, KUN-NYEONG CHANG: Individual and group behavior-based customer profile model for personalized product recommendation. In Expert Syst. Appl. 36(2): pp. 1932-1939 (2009). 20. WERNER KIEßLING, Foundations of preferences in database systems, VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases, pp. 61--82 (2002). 21. DAVID CARMEL, NAAMA ZWERDLING, IDO GUY, SHILA OFEK-KOIFMAN, NADAV HAR'EL, INBAL RONEN, EREL UZIEL, SIVAN YOGEV, SERGEY CHERNOV: Personalized social search based on the user's social network. In CIKM 2009, Conference on Information and Knowledge Management: pp. 1227--1236 (2009). 22. ALAN MISLOVE, BIMAL VISWANATH, P. KRISHNA GUMMADI, PETER DRUSCHEL: You are who you know: inferring user profiles in online social networks. In WSDM 2010, Web Search and Data Mining: pp. 251--260 (2010). 23. HENRY A. KAUTZ, BART SELMAN, MEHUL A. SHAH: Referral Web: Combining Social Networks and Collaborative Filtering. In ACM 40(3): pp. 63--65 (1997). 24. SUSAN GAUCH, MIRCO SPERETTA, ALEXANDER PRETSCHNER: Ontology-based user profiles for personalization search, Integrated Series in Information Systems, 2007, Volume 14, Part 3, pp. 665-694, Springer (2007). 25. DIEUDONNÉ TCHUENTE, C. MARIE-FRANÇOISE CANUT, NADINE BAPTISTE-JESSEL, ANDRÉ PÉNINOU, ANASS EL HADDADI: Visualizing the Evolution of Users' Profiles from Online Social Networks. ASONAM 2010, Advances in Social Networks Analysis and Mining: pp. 370--374 (2010). 26. ULDIS BOJARS, ALEXANDRE PASSANT, RICHARD CYGANIAK, JOHN BRESLIN., Weaving SIOC into the Web of Linked Data, In LDOW2008, Linked Data on the Web, April 22, 2008, Beijing, China. [on line] http://events.linkeddata.org/ldow2008/papers/01-bojars-passant-weaving-sioc.pdf (2008). 27. GRANOVETTER M.S. (1973). The Strength of Weak Ties. The American Journal of Sociology, Vol. 78. No. 6, May 1973, pp. 1360—1380 (1973). 28. PRANTIK BHATTACHARYYA, ANKUSH GARG, SHYHTSUN FELIX WU: Analysis of user keyword similarity in online social networks, In Social Network Analysis and Mining (28 October 2010), Springer (2010). 29. PETER V. MASRDEN: Egocentric and sociocentric measures of network centrality, Social Networks, Vol. 24, No. 4. (2002), pp. 407--422 (2002). 30. KOBSA A., Generic User Modeling Systems, User Modeling and User Adapted interaction, Vol 11. No. 1-2, pp.49--63, (2001). 31. MARK CLAYPOOL, PHONG LE, MAKOTO WASEDA, DAVID BROWN: Implicit interest indicators. In IUI 2001, International Conference on Intelligent User Interfaces: pp. 33--40 (2001). 32. CHING-MAN AU YEUNG, NICHOLAS GIBBINS, NIGEL SHADBOLT: A Study of User Profile Generation from Folksonomies. In SWKM 2008, Social Web and Knowledge Management (2008). 33. WEI, HAOLIN AND MOLDOVAN, ARTHIR-NICOLAE AND MUNTEAN, CRISTINA: Sensing learner interest through eye tracking. Ninth IT & T Conference, Dublin Institute of Technology, Dublin, Ireland, 22nd.-23rd. October (2009). 34. SOFIANE ABBAR, MOKRANE BOUZEGHOUB, DIMITRE KOSTADINOV, STÉPHANE LOPES, ARMEN AGHASARYAN, STÉPHANE BETGÉ-BREZETZ: A personalized access model: concepts and services for content delivery platforms. iiWAS 2008, Information Integration and Web-based Applications & Services: pp. 41--47 (2008). 35. ERNESTO WILLIAM DE LUCA, TILL PLUMBAUM, JERÔME KUNEGIS, SAHIN ALBAYRAK: Multilingual Ontology-based User Profile Enrichment, In WWW’2010, International Conference on World Wide Web, pp:41--42 (2010).