Optimisation d`un Réseau Social d`Échange d`Information
Transcription
Optimisation d`un Réseau Social d`Échange d`Information
Optimisation d’un Réseau Social d’Échange d’Information par Recommandation de Mise en Relation Thèse en vue de l’obtention du Doctorat en Informatique présentée et soutenue publiquement le 12 décembre 2005 par Layda J. Agosto Franco Membres du jury : Cécile Roisin Professeur, Université Pierre Mendès-France, Présidente du jury Bertrand David Professeur, École Centrale De Lyon, Rapporteur Michel Riveill Professeur, École Supérieure en Sciences Informatiques Université de Nice - Sophia Antipolis, Rapporteur Jean-Charles Marty Maître de Conférences habilité, Université de Savoie, Directeur Michel Plu France Télécom R&D, Codirecteur Laurence Vignollet Maître de Conférences, Université de Savoie, Codirectrice 2 3 4 REMERCIEMENTS Ce travail je le dédie spécialement à mes deux grands amours : ma fille et mon époux. Sa réussite et la qualité professionnelle de son contenu sont dues à l’expérience et à la connaissance de mes directeurs de thèse. Je tiens beaucoup à les remercier, pour leur suivi, leur disponibilité et leur patience. Son achèvement est grâce au soutien de ma mère et de mes amis à FTR&D : Fabien, Olivier, Tanguy, Marylène, et l’équipe EASY/SUN. 5 6 Conventions En gras Mots ou phrases clés pour notre approche. En italique Concepts ou définitions importantes. (Référence, année) Référence bibliographique dans le texte. Auteur Auteur mentionné dans le texte. Définition Définition par rapport à notre approche. Système Nom d’un système ou d’une application. Description Description de figure ou d’image. Lien Lien ou référence type URI. Commentaire Commentaire. N(e,f) ou V(e) Matrice ou vecteur. [ref00] § Référence à une hypothèse [h00] , à un principe [p00], à un mécanisme [m00], ou autre, définis par rapport à notre approche. Référence à une section de ce document de thèse. A retenir. 7 8 RESUME Nous avons observé que sur le Web les internautes ont des besoins changeants d’information. Grâce aux théories des analyses sociales et grâce aux expériences de systèmes de recommandation existants, nous savons que la plupart du temps, ces besoins informationnels sont généralement satisfaits par le fait de « demander à un copain », c’est à dire, à une connaissance ou à un référent sur le sujet d’intérêt. Par ailleurs, nous avons fait le constat, comme d’autres avant nous, que dans des systèmes d’échanges d’information (e.x. les groupes d’intérêt), seule une minorité de producteurs d'information est très active, alors qu’une majorité de consommateurs est silencieuse. Pouvons-nous vraiment modifier cette forte tendance ? Tenter de répondre à cette question a été au cœur de notre recherche. Pour arriver à répondre positivement, nous avons imaginé la possibilité d’influencer la motivation des personnes à échanger des informations en construisant des mécanismes de régulation dédiés qui intègrent une dynamique d’échanges d’information, de gestion d’information personnelle (favoris) et de conscience sociale. Nous avons donc proposé et mis en œuvre des algorithmes de recommandation utilisant la structure de la topologie du réseau de relation de personnes formée selon leurs échanges et selon les informations qu’elles gèrent. Nous avons développé notre système SoMeONe sous forme d’un service Web. L’apport le plus important de notre approche est, semble t’il, notre idée de recommander des contacts plutôt que de l’information. Pour cela nous nous sommes fortement intéressés à valider l’efficacité de flux d’information dans le réseau social proposé à travers la construction de mesures de qualité de la topologie du réseau. Nous avons donc établi une série de postulats, de principes et d’hypothèses à valider dans notre cadre théorique. Nos hypothèses tiennent compte des objectifs des utilisateurs (obtenir de l’information) et pour cela nous avons intégré des critères de qualité à optimiser pour tenir compte également des objectifs du système (optimiser la structure d’un réseau social). Le moyen pour les atteindre a été d’utiliser des indicateurs sociaux. Ils constituent nos algorithmes que nous nommons SocialRank. Mots-clés Analyses de réseaux sociaux, systèmes de recommandation, filtrage collaboratif, réputation, confiance, conscience sociale, régulation, PageRank. 9 10 SOMMAIRE PPR REEC CO OM MM MA AN ND DA ATTIIO ON N SSU UR R LLEE REEM MIIÈÈR REE PPA AR RTTIIEE -- LLEESS SSY YSSTTÈÈM MEESS D DEE R W E B : A S P E C C H O S O C I A U X 1199 T S I N F O R M A T I Q U E S E T P H É N O M È N E S P S Y WEB : ASPECTS INFORMATIQUES ET PHÉNOMÈNES PSYCHOSOCIAUX 11 IIN NTTR RO OD DU UC CTTIIO ON NG GÉÉN NÉÉR RA ALLEE 2211 1.1 Problématique générale 23 1.2 Objectif 25 1.3 Originalité 25 1.4 Structure de ce document de thèse 26 22 ÉÉTTA ATT D DEE LL’’A AR RTT 2299 2.1 Contexte informatique 2.1.1 Les systèmes de recommandation 2.1.1.1 Définition des systèmes de recommandation 2.1.1.2 Quelques exemples significatifs de systèmes de recommandation 2.1.1.3 Principales techniques des systèmes de recommandation 2.1.2 Étude des systèmes de recommandations existants 2.1.2.1 Systèmes de recommandations utilisant l'analyse du contenu 2.1.2.2 Systèmes de recommandations utilisant l'analyse du contexte 2.1.2.3 Systèmes de recommandations utilisant le filtrage d’information 2.1.3 Faiblesses des systèmes de recommandations 2.1.3.1 Problème de la collecte des méta-données sur les ressources 2.1.3.2 Problème du démarrage à froid 2.1.3.3 Problème de sécurité 2.1.3.4 Manque de contrôle sur le comportement du système 2.1.3.5 Contrôle des données personnelles : caractère privé et emplacement 2.1.3.6 Non prise en compte des aspects sociaux 2.1.3.7 Le phénomène du « passager clandestin » 2.1.4 Un exemple d’application : la gestion de favoris 2.1.5 Premières réponses aux problèmes identifiés 2.1.6 Nouvelles technologies pour des médias sociaux plus humains 2.1.6.1 Systèmes pair à pair 2.1.6.2 Les « Weblogs » 2.1.6.3 Le phénomène « Social Networking » 31 31 31 34 35 36 36 36 37 38 38 38 39 39 39 40 41 42 44 46 46 47 48 2.2 Contexte socio-psychologique 2.2.1 La participation à des réseaux sociaux virtuels 2.2.1.1 Participation individualiste 2.2.1.1.1 Les théories psychosociales de l'échange 2.2.1.1.2 La théorie sociologique de la masse critique 2.2.1.1.3 Limites des échanges dans des réseaux sociaux virtuels 2.2.1.2 Motivation à la participation 2.2.1.2.1 Le rôle de la confiance 50 51 51 51 53 54 55 56 11 2.2.1.2.2 Le succès de l’échange et du partage 2.2.2 Analyse de réseaux sociaux 2.2.2.1 Une modélisation des réseaux de relations sous forme de graphes 2.2.2.2 Concepts et propriétés des structures 2.2.2.3 Représentation matricielle d’un graphe 2.3 Conclusion 57 59 59 61 63 66 D DEEU UX XIIÈÈM MEE PPA AR RTTIIEE -- U UN N SSEER RV VIIC CEE W WEEBB D DEE M MIISSEE EEN NR REELLA ATTIIO ON N PPA AR R D 6699 QU UEESS SSO OC CIIA ALLEESS D D’’ÉÉC CH HA AN NG GEESS D D’’IIN NFFO OR RM MA ATTIIO DY YN NA AM MIIQ ON NSS 33 N NO OTTR REE A APPPPR RO OC CH HEE 7711 Section 1. Cadre théorique de notre approche 73 3.1 Concepts de base 3.1.1 Réseau social médiatisé 3.1.2 Régulation 73 73 73 3.2 Objectifs 74 3.3 Postulats 74 3.4 Hypothèses 76 3.5 Principes 76 Section 2. Les grandes lignes de notre approche 79 3.6 80 Système de partage de références sur un réseau social médiatisé Section 3. Conception 83 3.7 Mécanisme de gestion de l’information 3.7.1 Construction d’une taxonomie personnelle 3.7.1.1 Étiquetage multiple 3.7.1.2 Spécialisation de listes de diffusion 3.7.1.3 Profil individuel 3.7.2 La construction d’une connaissance collective 3.7.3 Diffusion d’information et profil social 83 83 85 86 86 88 90 3.8 93 Dynamique du réseau 3.9 Mécanisme de recommandation de contacts 3.9.1 Première étape 3.9.1.1 Algorithme de filtrage collaboratif 3.9.1.2 Exemple 3.9.2 Deuxième étape : SocialRank 3.9.2.1 Notre réseau social médiatisé 3.9.2.2 Calcul des indicateurs sociaux 3.9.2.3 Stratégie de recommandations de contacts 12 94 95 95 98 99 102 103 106 3.9.2.4 Exemple de stratégies d’obtention d’information 3.9.2.4.1 Résultats de l’indicateur de réputation 3.9.2.4.2 Résultats de l’indicateur de redondance 3.9.2.4.3 Résultats de l’indicateur d’originalité 3.9.2.4.4 Résultats de l’indicateur d’agrégation 3.9.2.4.5 Évaluation de résultats des indicateurs 3.9.2.5 Calcul de toutes les recommandations possibles 3.9.2.6 Filtrage des recommandations selon la stratégie 107 108 109 109 110 110 111 112 3.10 Réseau personnel de l’utilisateur : son ego-network 3.10.1 Ego-network 3.10.2 Description de contacts 3.10.3 Exemple d’ego-network 3.10.4 Tactiques pour modifier l’ego-network 3.10.4.1 Diffuser l’information personnelle 3.10.4.2 Classement des utilisateurs 115 115 116 117 118 119 120 3.11 121 Revue des concepts de notre approche Section 4. Description du Système réalisé 124 3.12 Fonctionnalités 3.12.1 La navigation avec SoMeONe 3.12.1.1 Une interface personnelle 3.12.1.2 Faciliter la navigation 3.12.2 Gestion d’informations 3.12.2.1 Profil de l’utilisateur 3.12.2.2 Taxonomie personnelle 3.12.2.2.1 Code de couleurs de topiques 3.12.2.2.2 Documents reçus 3.12.2.2.3 Listes de diffusion 3.12.2.3 Échange de l’information 3.12.3 Ego-network de l’utilisateur 3.12.4 Gestion de Contacts 3.12.5 Recommandeur de Contacts 3.12.5.1 Recommandation de topiques publics 3.12.5.2 Recommandation de contacts 125 125 125 126 126 126 126 127 127 127 127 128 129 130 132 133 3.13 Architecture informatique 3.13.1 Serveur d’application du système : JCMS 3.13.2 Outil de filtrage collaboratif 3.13.2.1 L’annuaire « Open Directory Project » 3.13.2.2 Intégration d’ODP 135 136 137 138 139 44 114411 V VA ALLIID DA ATTIIO ON ND DEE N NO OTTR REE A APPPPR RO OC CH HEE 4.1 Première évaluation : utilisateurs réels 4.1.1 Objectifs 4.1.2 Méthode 4.1.2.1 Intégration dans le portail de l’Université de Savoie 4.1.2.2 Profil d’usages 13 142 142 143 143 144 4.1.3 Résultats de l’évaluation 4.1.3.1 Profils d'usage des topiques 4.1.3.2 Analyse de l'utilisation des recommandations 4.1.3.3 D’autres profils d'usages : consommateurs versus producteurs 4.1.3.4 Degrés de réciprocité des échanges 4.1.3.4.1 Topiques reçus 4.1.3.4.2 Topiques consultés 4.1.3.4.3 Liens reçus, consultés, déplacés 4.1.3.4.4 Réciprocité dans les recommandations 4.1.4 Les points forts de l’évaluation 4.1.5 Les points faibles de l’évaluation 4.1.6 D’autres facteurs à prendre en compte 4.1.7 Conclusion de l’évaluation 4.2 Deuxième évaluation : Simulations de nos hypothèses 4.2.1 Objectifs de l’évaluation 4.2.2 Hypothèses de simulations 4.2.3 Scénario 4.2.3.1 Paramètres pour la définition de l’état initial du réseau 4.2.3.2 Paramètres pour la dynamique du réseau social 4.2.3.3 Scénarios retenus 4.2.4 Les simulations 4.2.4.1 Base de données pour les taxonomies de topiques du réseau initial 4.2.4.2 Connectivité du réseau initial 4.2.4.3 Vision globale d'une itération 4.2.5 Méthode d’évaluation 4.2.6 Limites des simulations 4.2.7 Analyse des simulations 4.2.7.1 Étude de la vitesse de diffusion d’informations nouvelles 4.2.7.2 Étude de l’impact de contacts « gourous » 4.2.7.3 Étude de l’efficacité du réseau 4.2.8 Conclusion des simulations 145 145 146 147 147 148 149 150 152 152 153 156 157 157 158 159 160 161 162 164 164 165 166 168 169 170 171 171 174 176 182 C CO ON NC CLLU USSIIO ON N EETT PPEER RSSPPEEC CTTIIV VEESS 118855 5.1 Conclusions 5.1.1 Cadre théorique 5.1.1.1 Contexte socio-psychologique 5.1.1.2 Contexte informatique 5.1.1.3 Mécanismes de régulation 5.1.1.4 Efficacité du flux d’information 5.1.2 Évaluation de notre approche 5.1.3 Cadre d’usage 5.1.3.1 L’usage entreprise. 5.1.3.2 L’usage grand public. 5.1.4 Dynamique d’usage 185 185 186 186 187 188 188 190 190 191 191 5.2 Perspectives 5.2.1 Vers une intégration de l’outil de partage de favoris 5.2.2 Vers une intégration du recommandeur de contacts 191 191 192 55 14 5.2.3 Évolutions techniques 192 A AN NN NEEX XEESS 119933 A ON ND DEESS C CO ON NC CEEPPTTSS AN NN NEEXXEE II––66.. FFO OR RM MA ALLIISSA ATTIIO 119955 66 119955 D DÉÉFFIIN NIITTIIO ON NSS 6.1 Réseau de topiques 6.1.1 Communication entre topiques 6.1.2 Distance entre topiques : D 6.1.3 Chemins entre topiques : PN 6.1.4 Importance des relations entre topiques : W 6.1.5 Degré de relation entre topiques : P 6.1.6 Propriétés de l'information dans les topiques 6.1.6.1 Nouveauté de l'information 6.1.6.2 Pertinence de l'information 6.1.7 Propriétés d’un topique 6.1.7.1 Originalité 6.1.7.2 Connectivité 6.1.7.3 Réputation locale 6.1.7.3.1 Réputation de degré 6.1.7.3.2 Réputation d'Intermédiarité 6.1.7.3.3 Réputation de proximité 6.1.7.3.4 Avantages et inconvénients des réputations 6.1.7.4 Réputation à la PageRank : RankRéputation 6.1.7.5 Redondance entre topiques 6.1.7.6 Réactivité à l’information nouvelle 6.1.7.7 Coût 6.1.7.8 Efficacité 6.1.7.9 Agrégation entre topiques 198 199 200 201 201 202 202 202 203 203 203 204 205 205 205 206 207 208 208 209 209 210 211 6.2 211 211 211 Réseau d'utilisateurs 6.2.1.1 Contacts sources d’information 6.2.1.2 Contacts réputés A AN NN NEEXXEE IIII––77.. V VEER RSSIIO ON NSS IIN NIITTIIA ALLEESS D DEE SSO OM MEEO ON NEE 221133 77 221133 D DIIV VEER RSS A APPEER RÇ ÇU USS D DEE SSO OM MEEO ON NEE 7.1 Aperçu de SoMeONe (version initiale) 7.1.1 Inscription 7.1.2 Page personnelle de l’utilisateur 7.1.3 Gestion des topiques 7.1.3.1 Liste de diffusion 7.1.3.2 Ajouter une information 7.1.4 Se faire connaître 7.1.5 Trouver des contacts 7.1.6 Gestion du réseau de contacts 15 213 213 214 214 215 216 217 218 220 7.2 Webothèque du cartable électronique® de l’Université de Savoie 7.2.1 Créer ou ajouter un topique 7.2.2 Afficher le contenu d'un topique 7.2.3 Éditer un topique 7.2.4 Créer/ajouter un lien 7.2.5 Gestion des topiques reçus 7.2.6 Réseau de Connaissances 7.2.7 Informations utilisateur 7.2.8 Trouver des contacts 7.2.9 Gérer la corbeille 7.2.10 Déposer le lien dans mon cartable 224 225 225 226 226 228 228 229 230 230 230 A ATTIIO ON N AN NN NEEXXEE IIIIII––88.. SSC CÉÉN NA AR RIIO OSS D DEE SSIIM MU ULLA 223333 88 223333 C CO ON NSSIID DÉÉR RA ATTIIO ON NSS 8.1 Scénario A 233 8.2 Scénario B 235 8.3 Scénario C 236 A AN NN NEEXXEE IIV V––99.. LLO OG GIIC CIIEELLSS PPO OU UR R LL’’A AN NA ALLYYSSEE D DEE R RÉÉSSEEA AU UXX SSO OC CIIA AU UXX 223377 99 LLIISSTTEE D DEE LLO OG GIIC CIIEELLSS 223377 A AN NN NEEXXEE V V––1100.. SSU UR R LL’’U UTTIILLIISSA ATTIIO ON ND D’’U UN NA AN NN NU UA AIIR REE 224411 1100 U UTTIILLIISSA ATTIIO ON ND DEE LL’’A AN NN NU UA AIIR REE O OD DPP PPO OU UR R LLA AC CO ON NSSTTR RU UC CTTIIO ON ND DEE 224411 TTA MEEM MBBR REESS D DU UR RÉÉSSEEA AU UÀ À SSIIM MU ULLEER R AX XO ON NO OM MIIEESS D DEESS M 10.1 Structure hiérarchique des catégories ODP 242 10.2 Homogénéisation de la base de données 242 A AN NN NEEXXEE V VII––1111.. D DÉÉTTA AIILL C CO ON NC CEEPPTTU UEELL D DEE SSO OM MEEO ON NEE 224455 1111 SSO OM MEEO ON NEE SSEELLO ON NN NO OSS ÉÉV VA ALLU UA ATTIIO ON NSS 224455 1122 C CA AR RA AC CTTÈÈR REE IIN NC CR RÉÉM MEEN NTTA ALL EETT N NO ON N--IIN NC CR RÉÉM MEEN NTTA ALL D DEE LL’’A ALLG GO OR RIITTH HM MEE S SO OC CIIA ALLR RA AN NK K 224466 A NTTEER RN NEETT 224477 AN NN NEEXXEE V VIIII––1122.. A ALLG GO OR RIITTH HM MEESS D DEE R REEC CH HEER RC CH HEE SSU UR R IIN 1133 A ALLG GO OR RIITTH HM MEESS TTR RA AD DIITTIIO ON NN NEELLSS D DEE SSY YSSTTÈÈM MEESS D DEE R E C O M M A N D A T I O N RECOMMANDATION 16 224477 13.1 Algorithme « coefficient de corrélation » 247 13.2 Mesure de cosinus 248 13.3 Théorie probabiliste 249 13.4 Limites des approches 249 1144 H HIITTSS 14.1.1 Commentaires 225500 252 1155 PPA AG GEER RA AN NK K 225522 15.1 Formellement 15.1.1 Modèle fonctionnel 15.1.2 L’algorithme 254 255 255 15.2 Le promeneur aléatoire 256 15.3 Les liens pendants 257 15.4 Propriétés de convergence 15.4.1 Modèle matriciel 15.4.2 L’algorithme 257 258 259 1166 BBIIBBLLIIO OG GR RA APPH HIIEE 226611 16.1 Référencée 261 16.2 Consulté 268 17 18 Première Partie - Les Systèmes de Recommandation sur le Web : aspects Informatiques et Phénomènes Psychosociaux Chapitre 1. Introduction Générale Chapitre 2. État de l’Art 19 20 1 Introduction Générale os besoins changeants d’information nous emmènent toujours à rechercher sur le Web. Nous avons le choix entre de nombreux systèmes qui offrent différentes méthodes de recherche, de communication ou de classification et de filtrage de contenu dit « adapté ». Certains de ces différents systèmes mettent en oeuvre des idées intéressantes (Gnutella, Napster, Educadoc, Voilà, etc.). Cependant, nous pourrions déjà poser la question : pourquoi ne sont-t-ils plus exploités ? Nous pouvons également constater que nos besoins informationnels sont généralement satisfaits par le fait de « demander à un copain », c’est à dire, à une personne généralement une connaissance, une référence sur le sujet d’intérêt. N En effet, l’être humain a tendance à résoudre ces types de besoins à travers ses relations avec les autres : à travers ses réseaux de contacts. Les personnes forment donc des coalitions ou des groupes d’intérêt en vue d’assurer une coopération pour obtenir le bien informationnel désiré. Notre travail de recherche est d’abord ancré dans cette conception de réseaux de contacts avec la finalité de trouver une information désirée. Pour cette raison nous intégrons des conceptions issues de domaines de la sociologie, de la psychologie et de l’économie. Cependant, cette information désirée n’est pas toujours la même pour tous. Elle évolue avec chaque individu et il faut donc que celle-ci soit adaptée et pertinente. Ceci est loin d’être évident quand il s’agit de la trouver sur le Web. En effet, le Web est fait de paradoxes : on y trouve tout, on n'y trouve rien. Par ailleurs, le Web est déséquilibré : par exemple, il y a en effet une minorité très active de producteurs d'information, et une majorité de consommateurs silencieux. Pouvonsnous vraiment modifier cette forte tendance ? Nous pensons que c’est possible, pour cela notre travail de recherche est ancré également sur les nouvelles technologies sur le Web qui prennent en compte la valeur des relations humaines, afin de pouvoir filtrer l’information suivant l’intérêt des usagers. Cette information est issue d’une activité courante : stocker (création de répertoires pour classer l’information obtenue afin de la repérer plus tard) et puis, éventuellement diffuser aux contacts susceptibles d'être intéressés. 21 Le fait de chercher, filtrer, classer et éventuellement annoter l’information suivant nos intérêts pendant que nous naviguons sur l’Internet, garantit qu’elle a de la pertinence sur le sujet de notre intérêt. De cette façon, les services proposés doivent permettre la gestion d’information pendant et après la navigation, et en même temps, la gestion de relations (réseau de contacts). Pour le premier nous proposons la classification de l’information dans des répertoires que nous appelons des topiques (chapitre 3). Pour le second, la gestion de ses relations, fonctionnalité la plus importante à nos yeux, nous proposons : ⋅ Un contrôle sur la visibilité de ses informations personnelles. L’utilisateur est le seul responsable de la visibilité de ses informations. ⋅ Des recommandations de contacts. Nous intégrons un recommandeur de contacts qui observe le réseau et les échanges d’information entre ses membres, afin de guider l’utilisateur vers des personnes qui pourraient lui procurer l’information dont il a besoin. ⋅ Un type de conscience sociale. Il s’agit d’offrir à l’utilisateur la possibilité de suivre l’état des diffusions d’informations dans le réseau. Il s’agit d’utiliser d’abord les relations que les personnes ont en réel pour l’exploiter dans des relations selon notre approche. Nous introduisons donc notre approche comme un moyen d’exploiter des liens sociaux en plus des connaissances sur les informations. C’est le moyen de permettre la construction, voire l’émergence d’un réseau fiable de contacts. 22 1.1 Problématique générale Le World-Wide-Web facilite l'accès à l'information par la mise en relation des ressources d'information via des liens hypermédia. Différents dispositifs d'information et de communication ont été proposés. Aujourd'hui nous trouvons, par exemple : - Le Web même, où l'on trouve déjà des milliards de pages, qui peuvent être fiables ou non, utiles ou inutiles, belles ou laides, etc., devient de plus en plus vaste. - Les forums, espaces publics où l'on discute par écrit sur une thématique. Malheureusement, ils offrent peu de contrôle des participants et de la modération, ce qui impose une surcharge informationnelle. - Les listes de diffusion1 (ou listes de distribution). La masse d'information qu'elles contiennent, pose des problèmes de classement et de recherche. En outre, elles permettent d’exploiter des adresses par « courrier massif non sollicité2 » (ou pollupostage). En plus de ces difficultés, l'existence de ces dispositifs évoque le groupement des gens autour de sujets d’intérêt. C’est une notion communautaire, c’est à dire, l’existence de gens qui se rencontrent, qui ont des échanges par l’intermédiaire du Web, et qui partagent un intérêt commun. Ce phénomène n’est pas nouveau. Sa réussite à des raisons multiples, citons-en deux principales : Une reproduction des modèles classiques d’organisation humaine : Internet est à la fois un outil de communication et un outil de publication des informations. En tant qu’outil de communication, il permet des échanges et des interactions, il rapproche les hommes. Les internautes se regroupent selon leurs affinités, leurs goûts et envies, leurs passions ou encore poussés par des intérêts divers (professionnels, politiques, religieux,…). Il s'agit de répondre à des besoins de sociabilisation. Le besoin communautaire sur Internet est exacerbé par le support lui-même : ne vous êtes-vous jamais senti perdu sur Internet ? Bien sûr, mais comment pourrait-on y échapper ? Un nouveau support de communication, l’apprentissage d’un nouveau rapport relationnel (autre que le téléphone ou la visioconférence), des milliers d’informations de qualité très inégale... Le sentiment de surabondance, d’insécurité et d’infinité poussent les internautes à se regrouper, plus encore que dans la vie réelle où nous évoluons à travers un référentiel espace-temps maîtrisé. Bien entendu, le Web n'est pas un espace déshumanisé. De nos jours, il existe de vastes possibilités pour former des groupes et pour échanger des avis ou de l’information. Cependant, le principe même d’échanges dans ces groupes pose encore certains problèmes, entre autres : Le contrôle de la diffusion d'informations. Dans les bases d'informations à accès partagé la définition de règles d'accès à l'information n'est définie que par un administrateur qui en général donne un accès total à tous les utilisateurs. De plus, la diffusion incontrôlée de l'information produit parfois des réticences de la part des utilisateurs pour participer. 1 2 Mailing lists en anglais Spamming en anglais 23 L'impersonnalité des échanges lorsqu'il y a trop de participants. Le nombre important de participants fait qu'il est difficile de se souvenir des noms des personnes dont on apprécie l'information ce qui rend l'information très impersonnelle. L'information utile noyée dans un flot d'informations trop important. Avec les forums par exemple, les utilisateurs reçoivent une quantité d'information importante. La quantité d'information génère un bruit important qui dissimule l'information intéressante. Le déséquilibre entre le nombre de producteurs et de consommateurs d'informations. Un des comportements les plus observé est que les utilisateurs consomment plus d’informations qu'ils n'en produisent3 (Adar et Huberman, 2000). Ceci produit une dépendance aux rares utilisateurs qui produisent de l'information. Il suffit que cette petite partie d'utilisateurs s'absentent ou se désintéressent du système et l'ensemble des utilisateurs s'en retrouvent pénalisés. Les utilisateurs diffusant leurs informations à de nombreuses personnes ont alors un grand pouvoir qui peut être utilisé à des fins pas vraiment appréciables telles que la désinformation, la promotion ou la diffusion de rumeurs etc. La qualité et l'appréciation du système risquent alors d'être grandement dégradée. L'analyse de l’utilisation de quelques systèmes d’échanges d’information nous a permis de comprendre que ce sont les « recommandations » de ces « producteurs » que les personnes apprécient, plutôt que celles obtenues à l'aide de logiciels (§3.2 ;§3.3[po01]4 ). Ceci parce qu’elles peuvent être beaucoup plus personnalisées et adaptées aux besoins des utilisateurs (Plu et al. 2003 ; Resnick et Varian, 2001 ; Sinha et Swearingen, 2001). En effet : Comment un logiciel peut-il identifier automatiquement un document contenant de fausses informations ? Comment un logiciel peut-il reconnaître qu'un niveau de description d’un document est approprié à la connaissance de fond de l'utilisateur ou mesurer la clarté du discours ou les qualités pédagogiques d’une présentation ? Comment un logiciel peut-il modéliser les sensibilités de l'utilisateur, afin de détecter des histoires drôles, de belles images, des films dramatiques qu'il appréciera certainement ? Toutefois, si un humain a plus confiance dans l’information obtenue par d'autres humains, il faut aussi, pour qu'un système d'échanges et de recommandations fonctionne, que le plus grand nombre soit motivé à échanger (voir Chapitre 2, section 2.2.1.2). Pour pérenniser cette motivation, voir la rendre « contagieuse », le système informatique doit intégrer des fonctionnalités d’incitation à la motivation, à la participation et aux échanges d’information. 3 Voir le Chapitre 2 section 2.1.3.7 « Pasagers Clandestins ». Nous utilisons une notation avec parenthèses carrées pour faire référence à un de nos postulats avec [po] ou à un de nos principes [p] ou à une de nos hypothèses avec [h] ou à un de nos critères avec [c] ou à un de nos mécanismes avec [m]. Par exemple notre hypothèse 1 sera référencée par [h01], notre principe 2 sera référencé par [p02], etc. 4 24 1.2 Objectif L’objectif principal que nous poursuivons est la construction et l’optimisation d’un réseau d'échanges d'informations sur le Web. Il s'agit d'offrir à l'utilisateur, qui a par nature un comportement avant tout individualisé, un enrichissement par des interactions et par des échanges informationnels. L'outil proposé sera un média social médiatisé intégrant des mécanismes de motivation et d’incitation à la participation pour l’échange d’information de façon réciproque, en permettant d’aboutir à la construction d’un Web de confiance, un Web de personnes (Plu et al., 2003). Un des effets de bord d'un tel système sera la construction d’une connaissance collective. L’originalité de notre projet vise à montrer que ce ne sont pas les liens (documentaires) qui importent : ce sont les individus et leurs caractéristiques, individuelles et communautaires, qui donnent les traces à suivre pour arriver à adapter le Web au service de l’humain. C'est la force des liens (relations) construits entre ces individus, au fur et à mesure, qui fait que ces espaces d'échange et d'entraide fonctionnent. Nous proposons des moyens de les analyser en introduisant des indicateurs sociaux. Si le slogan de la société de l’information à la fin du 20eme siècle était « la connaissance est le pouvoir », celui de la société en réseau sera, peut-être « votre réseau de relations est le pouvoir ». Notre intention est d'exploiter l’intelligence distribuée des individus qui ont et construisent de l’information. Nous les aidons à exploiter leur réseau (leur liens relationnels de confiance et d'appréciations) pour en obtenir l’information la plus adaptée et pertinente. Avec ceci, nous permettrons le développement d’un nouveau type de réseau où l’information navigue d’individu à individu en suivant des relations de confiances. Ce n'est plus l'utilisateur qui accède à une information, c'est l'information qui va à l'utilisateur. Nous appelons ce réseau « la toile de personnes ». Alors, de même que l'actuel WWW facilite l'accès à l'information via des liens hypermédia, la « toile des personnes », facilitera la diffusion de l’information par la mise en relation de personnes. (Plu et al., 2003). 1.3 Originalité Par ailleurs, dans un média social, l’organisation doit émerger. Une façon d’obtenir des politiques d’organisation d’une société est la définition de mécanismes intégrant de la régulation. La régulation concerne tout ce qui a trait à l'organisation du groupe (constitution et vie des groupes, définition de droits et devoirs au sein du groupe, de règles de fonctionnement et de comportement ; apprentissage et mise en œuvre de ces règles, droits et devoirs). Elle donne ainsi un cadre aux interactions potentielles entre les différents membres d'un groupe. Nous faisons l’hypothèse que les mécanismes de régulation permettront d’optimiser le media social que nous cherchons à construire, en améliorant plus particulièrement l’engagement des participants dans le réseau d’échanges et la crédibilité des informations échangées (il est ici très compliqué d'imaginer des « recettes » pour que les gens soient bien ensemble). Pour cela, nous envisageons d’utiliser les résultats de l’analyse de réseaux sociaux et des domaines autour de notre état de l’art pour définir des principes et critères qui donneront lieu aux algorithmes en suivant certaines mesures à évaluer. 25 En résumé, l’originalité de notre projet est l'approche informatique des aspects psychosociaux, privilégiant les échanges d’information entre contacts, optimisant l’équilibre du réseau et permettant l’expression, la maintenance et le rapprochement d'intérêts individuels. 1.4 Structure de ce document de thèse Notre travail de recherche est structuré de manière classique en deux parties. Une première partie délimite notre réflexion sur les systèmes de recommandation sur le Web et les phénomènes psychosociaux induits. Une seconde partie présente le Service Web de mise en relation par dynamiques sociales d’échanges d’informations que nous proposons. La première partie de la thèse traite notre problématique, nos objectifs, l’originalité de notre approche et plus particulièrement, elle traite l’influence des nouvelles technologies sur Internet et leur obligation d’offrir de l’information adaptée aux internautes. Il s’agit d’intégrer deux points de vue à cette adaptation : le point de vue informatique (§2.1) et le point de vue social (§2.2). Nous exposons alors l’émergence de groupes d’échanges d’information. Ainsi, le second chapitre de cette première partie développe le cadre théorique du contexte informatique et du contexte social. Dans la première section de ce chapitre (§2.1), nous exposons les systèmes de recommandation comme prometteurs de solutions intéressantes dans le domaine d’échanges d’information en groupe. Nous présentons donc les principales techniques de ces systèmes, les approches traditionnelles, leurs faiblesses, des nouvelles pistes émergeantes pour ce type de systèmes, enfin, nous exposons les intérêts de ces systèmes pour des analyses sociales inhérentes et d’autres technologies récentes dont ils peuvent se servir et en particulier, celles révélant le phénomène « Social Networking ». Dans la seconde section, (§2.2), qui décrit le cadre théorique du contexte social, nous introduisons les réseaux sociaux virtuels et l’analyse de réseaux sociaux, avec tous leurs concepts inhérents. Nous les présentons comme un moyen pour obtenir l’information adaptée et pour influencer la motivation à la participation dans des réseaux sur le Web. De cette façon, nous exposons ce que les analyses sociales peuvent apporter à des médias sociaux pour donner de la « qualité » aux échanges informationnels. Une fois évoquées ces questions théoriques, nous développons notre proposition dans la seconde partie de la thèse, plus précisément, dans les chapitres 3 et 4. Le chapitre trois se décompose en 3 sections : une pour décrire le cadre théorique de notre approche, l’autre pour donner les grandes lignes de notre approche et la dernière pour décrire le système développé. De cette façon, la première section formalise le cadre théorique : la définition des concepts clés vis à vis de notre état de l’art et de nos théories. Ces dernières incluent nos postulats, nos hypothèses et nos principes. Subséquemment, dans la seconde section nous exposons nos mécanismes : de gestion d’information personnelle avec des dispositifs intéressants pour aider l’utilisateur à élargir ses informations personnelles et de recommandation de contacts pour aider l’utilisateur à ouvrir son réseau de contacts et en conséquence, améliorer ses informations ; avec ces mécanismes, nous exposons aussi la dynamique inhérente au réseau social proposé par notre approche, tout en s’appuyant sur nos indicateurs sociaux. Ces derniers, permettent à l’utilisateur de développer des stratégies de recherche d’information « pertinente », et de maintenir une « conscience sociale » vis à vis 26 des autres membres du réseau. La troisième section développe la description du système avec sa fonctionnalité et son architecture technique. Le quatrième chapitre présente deux évaluations afin de valider notre approche : une avec des utilisateurs réels et l’autre pour simuler sur une même population différents comportements sociaux. Ce travail a été réalisé avec la collaboration de FranceTélécom R&D et le cartable électronique® de l’Université de Savoie. Pour les deux types d’évaluation, nous présentons nos idées techniques, théoriques et fonctionnelles et l’analyse des résultats obtenus. Un dernier chapitre est dédié à la conclusion sur le travail développé et testé dans notre approche et aux perspectives. 27 28 2 État de l’art Résumé du chapitre Les nouvelles technologies sur Internet doivent offrir de l’information adaptée aux internautes. Deux points de vue doivent s’intégrer dans cette adaptation : l’informatique et le social. Du point de vue informatique, les systèmes de recommandation offrent des solutions intéressantes. Nous présentons l’état de l’art des systèmes de recommandations, leurs points forts et leurs points faibles. Nous présentons ensuite les analyses sociales en mettant en avant les résultats de ces analyses qui pourraient être utilisés par les systèmes informatiques pour améliorer les échanges d'information. Enfin, nous montrons comment les analyses de réseaux sociaux s’avèrent prometteuses comme un moyen pour obtenir l’information adaptée pour influencer la motivation à la participation dans des réseaux d’échanges sur le Web. partir de notre connaissance de l’état de l’art sur les problématiques que nous avons décrites dans le chapitre précédent, nous pensons qu’il est utile d’intégrer dans le Web des outils nécessaires pour obtenir des informations adaptées aux besoins personnels de chacun, tout en exploitant le phénomène d’organisation humaine que le Web révèle. A Web W eb Figure 2-1. Le Web peut devenir un moyen pour faire parvenir aux utilisateurs la réponse à leurs besoins informationnels grâce à l’exploitation du phénomène d’organisation humaine qu’y est sous-jacente. 29 Avec cette idée, nous divisons notre état de l’art en deux grandes parties : la première partie présente les principaux systèmes informatiques actuels et leurs limites; la deuxième partie montre le côté non informatique, c'est-à-dire, des concepts, des situations et des problématiques psychosociales et économiques que nous avons étudiées pour apporter des réponses aux limites des systèmes actuels. 30 2.1 Contexte informatique D'importantes quantités d'informations sont à la disposition de chacun grâce au développement des technologies de l'information. Afin d'aider à la découverte de ressources5 intéressantes, des outils comme les systèmes de recommandations (intégrant les systèmes de filtrage d'informations) se sont développés. Cependant ces systèmes ont des faiblesses. Nous allons donc à proposer des nouvelles pistes pour améliorer leurs faiblesses. Nous entendons par « ressources » : de l’information, de la connaissance, de l’expertise, du savoir, etc. 2.1.1 Les systèmes de recommandation Les systèmes de recommandations peuvent fournir aux utilisateurs un flot continu de ressources recommandées, sans qu'ils aient à exprimer explicitement ce qu'ils cherchent, contrairement aux systèmes de recherche d'information où une requête doit être produite chaque fois (Resnick et Varian, 1997 ; Schafer et al. 1995). En contrepartie, il faut que le système connaisse les centres d'intérêt des utilisateurs (profils6) et suive leur évolution au cours du temps. Cela est possible par exemple, grâce aux retours d'évaluations que l'utilisateur donne sur les ressources fournies par le système. Le fait de suivre des bonnes recommandations fait « gagner » du temps. Nous retrouvons par exemple cette situation avec les personnes avec lesquelles nous interagissons quotidiennement. Elles connaissent déjà nos préférences ou nos goûts. Nous faisons donc confiance aux recommandations qu’elles peuvent nous offrir. Ainsi, il est donc naturel de prendre des décisions en suivant les recommandations de tels tiers de confiance. En essayant d’imiter ceci, des systèmes de recommandations sont devenus populaires sur le Web, mais nous indiquent comment ceux-ci manquent encore de « qualités » humaines, qualités que nous essayerons de développer dans le cadre de ce travail. Avec ces idées, nous présentons dans cette section les systèmes de recommandation d’information et leurs méthodes d’évaluation, l’émergence de nouvelles technologies (plus « humanisées »), telles que le « social networking », les weblogs, leur importance dans le Web Sémantique, et leur lien avec notre approche. 2.1.1.1 Définition des systèmes de recommandation A l’origine, les systèmes de recommandations sont apparus pour essayer de résoudre les problèmes liés à la surcharge informationnelle. Un système de recommandation intègre un groupe d’utilisateurs « producteurs7 » et consommateurs de ressources recommandables, un module de « calcul de 5 Nous entendons par ressources : de l’information (documents, résumés, etc.), qu’à travers du temps ou de sa diffusion, peut possiblement accumuler de la connaissance, de l’expertise, du savoir, etc. 6 Le profil utilisateur est une structure de données qui décrit les centres d'intérêts d'un utilisateur dans l'espace des ressources à recommander. Celui-ci est utilisée soit pour filtrer les ressources/objets disponibles (on parle alors de filtrage basé sur le contenu), soit pour recommander à l'utilisateur ce qui a satisfait d'autres utilisateurs ayant un profil similaire (on parle alors de filtrage collaboratif) (Resnick, 1997). 7 Des utilisateurs ou des petites entités logicielles (agents) fournissant des ressources au système de recommandation ou qui recommandent directement de telles ressources. 31 recommandations8 » sur de telles ressources, et un groupe d’utilisateurs « consommateurs9 » de ressources recommandées. La finalité est d'aider les utilisateurs à faire leurs choix dans un domaine où ils disposent de peu d'informations pour trier et évaluer les alternatives possibles (Shardanand et Maes, 1995; Resnick et Varian, 1997 ; Konstant, 1997). Un défi majeur dans le domaine de la conception de systèmes de recommandations est de produire des recommandations personnalisées et de haute qualité tout en minimisant l'effort requis de la part des utilisateurs (producteurs et consommateurs). Pour mieux comprendre ces systèmes, nous développons leurs caractéristiques10 suivantes : Une technique d’acquisition de connaissances sur les utilisateurs, qui peut être : Implicite Avec un monitorage du profil selon l’usage du système : le système observe l’utilisateur et enregistre son comportement. Avec des heuristiques pour inférer11 les profils : usage de règles pour déduire de l’information utile sur les utilisateurs. Explicite Avec le feedback de l’utilisateur : l’utilisateur donne de l’information explicite en retour, par exemple la valeur d’importance d’une ressource, etc. C’est l’utilisateur qui : Programme des règles de filtrage : l’utilisateur donne des règles de filtrage au système. Crée des groupes ou des catégories dans le système. Une représentation de profils (intérêts des utilisateurs) qui peut s’appuyer sur : Des modèles avec vecteurs : le système utilise des vecteurs afin de modéliser les ressources ou les intérêts des utilisateurs. Des traces de navigation : le système développe un historique de navigation. L’utilisation des profils pour sélectionner les ressources à recommander. Une base de ressources par fois indexée : Des bases de données internes de ressources : le système recommande à partir d'une base de données de ressources. L’« exploration » de pages Web : le système explore (crawle12) le Web afin de trouver les ressources à recommander. Une technique d’acquisition de connaissances sur les utilisateurs : Utilisant le feedback13 de l’utilisateur (acquisition d’avis sur les ressources) : 8 Module qui collecte les recommandations des utilisateurs producteurs de recommandations. Puis il les agrége et les dissentiment afin que les utilisateurs consommateurs puissent avoir des recommandations. 9 Des utilisateurs ou des petites entités logicielles (agents) qui possiblement suivront des recommandations venant du système de recommandation. 10 Nous avons adapté ces caractéristiques (Midleton, 2003) 11 Présupposer, induire, déduire. 12 Explore. 13 Des retours ou de commentaires que les utilisateurs apportent sur les ressources. 32 Feedback sur les ressources : cette technique est utilisée par le système afin d’aider d’autres utilisateurs susceptibles d’avoir des intérêts similaires. Exemples de ressources : le système conserve des exemples de ressources avec la finalité de former un stock collectif de ressources évaluées. Historique de navigation : le système utilise l'historique de navigation enregistré pour aider d'autres utilisateurs. Selon le contexte du domaine : Ressources de groupes / catégorisations : le système partage des groupes ou des catégories soit définis par le système, soit par d’autres utilisateurs. Domaine heuristique : le système partage entre tous les utilisateurs, un ensemble de règles de domaine pour filtrer. Une technique de recommandation qui peut utiliser : Des heuristiques : règles utilisées pour trouver les meilleures ressources. Appariements sur des similarités : fonction de similarité utilisée pour trouver des ressources similaires à ceux de profils basés sur le contenu. Le filtrage collaboratif : fonctions statistiques utilisées pour trouver des personnes avec des profils similaires dont les ressources préférées sont recommandées. Nous présentons ci-dessous un extrait de Midleton avec des exemples de systèmes de recommandation en spécifiant la technologie que chacun utilise (Midleton, 2003). Les systèmes en gras sont des systèmes commerciaux. Le symbole « - » indique que l’information n’est pas disponible (c’est une stratégie de certains systèmes commerciaux). 33 alapage.fr Figure 2-2. Classification de certains systèmes de recommandation selon la technologie14 employée. Entre autres, nous pouvons introduire trois systèmes représentatifs, que nous décrivons dans la section suivante. 2.1.1.2 Quelques exemples significatifs de systèmes de recommandation 2-2 : Nous présentons ici trois systèmes de recommandation représentatifs selon la Figure CoCoA (Aguzzoli et al., 2001). Système de recommandation de musique. Au fur et à mesure qu’un utilisateur ajoute ou efface sa musique préférée, le recommandeur suggère des recommandations. Le système utilise du raisonnement à partir de cas pour classer la musique et le coefficient de corrélation de Pearson-r15 pour trouver des gens ayant des intérêts similaires. La composition de recommandations se fait avec une mesure de similarité de cosinus16. Referral Web (Kautz et al.,, 1997b) modélise un réseau social en analysant les sources de communications (e-mail, net news, home pages etc.) pour obtenir un modèle du réseau. OWL (Linton, 1999), ProfBuilder (Wasfi, 1999), SOAP (Voss, 1997), SurfLen (Fu, 2000), Tapestry (Goldberg, 1992), Entrée (Burke, 2000), PHOAKS (Terveen, 1997), eBay (système commercial), EFOL (Svensson, 2001), Expertise Recommender (Mcdonald, 2000), Fab (Balabanovic, 1997), GroupLens (Konstan, 1997), ifWeb (Asnicar, 1997), Levis (système commercial), LIBRA (Mooney, 2000), METIOREW (Bueno, 2001), MIAU (Bauer, 2002), MovieFinder (système commercial). 15 Le coefficient de corrélation de Pearson (r) caractérise le niveau d’association linéaire entre deux variables aléatoires x et y. Une association entre deux variables signifie qu’elles ne varient pas indépendamment l’une de l’autre. Le coefficient de corrélation de Pearson est simplement une standardisation de la covariance de manière à ce que celle-ci soit indépendante des unités de mesure des variables et ne varie qu’entre –1 et 1 (http://mathworld.wolfram.com/CorrelationCoefficient.html). 16 Mesure de distance vectoriel afin de trouver les éléments dont le vecteur de représentation est le plus colinéaire avec le vecteur de la requête (Baeza-Yates et Berthier Ribiero-Neto, 1999, p.27). 14 34 Filtrage collaboratif Similarités Technique de recommandation Heuristiques Événements de domaine externe Craw ling de pages Web Source de connaissance Base de données d’éléments interne Profils basés sur la connaissance Traces de navigation Modèle vecteur Représentation de profils Domaine d’heuristiques Élément de groupes/catégories Historique de navigation Feedback des éléments Groupes/catégories Crées par l’utilisateur Filtrage de règles Feedback de l’utilisateur Heuristiques pour inférer l’information Surveillance de comportement Exemple d’éléments Information partagée Technique d’acquisition de connaissance Des heuristiques obtiennent les noms de personnes à partir de communications individuelles et puis elles sont raffinées avec le coefficient de Jaccard17 entre chaque nom par rapport aux autres. Une fois construit, le réseau social peut être parcouru et des informations sur des personnes parlant d’un sujet en particulier peuvent être extraites, par exemple, la liste de documents en rapport avec Michel Smith. alapage.fr est un service commercial comme amazon.com (recommandation/vente en ligne de livres et produits similaires). Les clients peuvent évaluer les livres qu’ils ont lus, les qualifier et ajouter des commentaires textuels. Cet avis sera partagé et utilisé afin de recommander de manière collaborative à d’autres possibles clients. Les recommandations sont faites soit pour les achats les plus vendus soit pour les achats faits par des gens similaires. En plus au service de recommandation, il intègre un service de recherche pour trouver des livres en particulier. De la classification du tableau antérieur, nous constatons que la plupart des systèmes de recommandations demandent explicitement aux utilisateurs de donner des ressources18 (commentaires, avis, annotations, rangs) et de les partager avec les autres utilisateurs afin d’offrir une recommandation. : un utilisateur qui ne contribue pas à alimenter le système voit non seulement les performances baisser pour lui-même, mais fait également baisser les performances pour les autres ! Cette situation est un frein à une utilisation réelle, efficace et à long terme des systèmes de filtrage collaboratif, comme le montrent des évaluations de systèmes faites sur le terrain (Lueg, 1998 ; Resnick et al. 1994 ; Miller et al. 1997). Afin de mieux comprendre les systèmes de recommandation, nous présentons dans les sections suivantes les techniques principales de ces systèmes et leurs évolutions à nos jours. 2.1.1.3 Principales techniques des systèmes de recommandation Les techniques (ou approches) principalement employées pour calculer des recommandations sont : le filtrage basé sur le contenu et fondé les techniques d’indexation de contenu, et le filtrage collaboratif fondé sur des techniques statistiques de corrélation de profils. La première tente de suggérer à l’utilisateur, des ressources semblables à celles « aimées dans le passé ». Ces ressources sont représentées par des caractéristiques qui peuvent être automatiquement extraites telles que la fréquence de mots ou d’autres éditées à la main, telles que le genre pour des films. Dans l'approche par filtrage collaboratif, le recommandeur demande aux utilisateurs d'évaluer des ressources, de sorte qu'il sache ce qu’ils aiment le plus. Puis, quand une recommandation est demandée pour l'utilisateur courant (à recommander), lui seront proposées des ressources que des utilisateurs semblables à lui ont aimées dans le passé19. Un point intéressant est qu'un algorithme de filtrage collaboratif utilise les goûts d'une communauté d’utilisateurs. Les meilleurs systèmes sont des systèmes qui combinent plusieurs approches (Schein et al. 2002). Plusieurs de ces systèmes ont proliféré au cours du temps. Nous présentons des exemples de telles évolutions dans la section qui suit. 17 Coefficient de similarité binaire entre ensembles (http://www-rocq.inria.fr/~bnguyen/publi/jft03.pdf). Afin de se construire une base de données interne de ressources. 19 Avec la technique de filtrage collaboratif, le système peut recueillir les avis des utilisateurs de manière explicite, en demandant à l'utilisateur d'évaluer quelques ressources, et de manière implicite, en faisant des inférences sur les goûts des utilisateurs, en analysant ses usages. Par exemple, il suppose que l'utilisateur aime un livre s’il l'achète. 18 35 2.1.2 Étude des systèmes de recommandations existants Nous présentons quelques projets développés pendant ces dernières années ; il s’agit généralement de systèmes de recommandation exploitant les approches de filtrage de l’information (information filtering), de filtrage collaboratif (collaborative filtering) et la traditionnelle recherche documentaire (information retrieval en anglais). Les chercheurs ont décidé de combiner ces approches, afin d’affiner l’acquisition des profils des utilisateurs et de leur offrir des informations adaptées. Les pistes développées sont : l’analyse de contenu, l’analyse du contexte et le filtrage d’information. Nous présentons dans ce qui suit une étude des systèmes existants au travers de ces trois approches. Dans les sections suivantes, nous présentons l’orientation qu’ils ont prise, les faiblesses de ce type de systèmes et les nouvelles approches qui commencent à voir le jour. 2.1.2.1 Systèmes de recommandations utilisant l'analyse du contenu Nathaniel Good et ses collègues du projet de recherche GroupLens, ont intégré le filtrage collaboratif basé sur des « agents20 personnels » pour trouver les similarités entre utilisateurs et donner des recommandations adéquates sur des films cinématographiques (Good et al., 1999). Ils déterminent les intérêts des utilisateurs en se servant de l'analyse syntaxique (sur la grammaire) et sémantique (sur le sens) du contenu textuel. Avec une perspective similaire à Delgado et ses collaborateurs, Alexandrin Popescul et ses collègues, proposent un modèle probabiliste et génératif pour combiner des recommandations collaboratives et des recommandations basées sur le contenu, de façon normative (Delgado et al. 2001 ; Popescul et al. 2001). Des calculs statistiques permettent de sélectionner l’information à recommander. Pour eux, l'incorporation du contenu dans un système de filtrage collaboratif peut augmenter la qualité des recommandations. Toutefois, quand les données sont extrêmement « épaisses21 » (peu de liens entre elles) -comme c'est le cas dans beaucoup d'applications du monde réel- de l’information additionnelle devient presque nécessaire pour adapter ces modèles globaux probabilistes. Ainsi, analyser le contenu n’est en général pas suffisant. Par exemple, deux contenus parlant de la chasse peuvent diverger par rapport aux objectifs poursuivis par leurs créateurs. Un peut être pro-chasse et l’autre contre. En essayant de résoudre ce problème, une autre piste a été d’analyser le contexte des ressources. 2.1.2.2 Systèmes de recommandations utilisant l'analyse du contexte Le programme Autonomy's Kenjin (http://www.kenjin.com), suggère automatiquement le contenu du Web ou des fichiers locaux, basés sur les documents qu'un utilisateur lit ou écrit. Nous pouvons mentionner également les agents qui acquièrent les profils d'intérêt de l'utilisateur (Lauwrence, 2000) pour construire des recommandations des pages Web comme Letizia (Lieberman, 1995) et WebWatcher (Armstrong et al. 1995). Après l’analyse du contenu, il s'avère important de « connaître » le contexte de recherche des utilisateurs (profils) .Alors nous voyons d’autres projets qui exploitent les profils, par exemple, les moteurs de recherche. A ce sujet Steve Lawrence se pose la question 20 En général, un agent est une entité virtuelle possédant de ressources propres, capable de percevoir son environnement, d’agir sur lui, de communiquer directement avec d’autres agents et donc les comportements visent à satisfaire ses propres objectifs. 21 D’autres l’appellent des données « creusées ». 36 : et si le contexte de recherche pouvait être automatiquement déduit (Lawrence 2000) ? Divers projets ont essayé d’arriver à ce but, comme le projet Watson (Budzik et Hammond, 2000 ; Budzik et al. 2000 ; Budzik et al. 1998). Dans ce projet, ils se basent sur le contenu de documents édités dans Microsoft Word ou visualisés avec Internet Explorer. Watson modifie la requête et l'envoie déjà modifiée aux moteurs de recherche, ajoutant ainsi automatiquement l'information de contexte à la recherche. Les systèmes de recommandations partageant avec les moteurs de recherche22 la nécessité de filtrer l’information à fournir à un utilisateur. Le mode de fonctionnement de Watson est également semblable à l'Agent Remembrance (Rodes, 2000a ; Rodes et Starner, 1996), qui indexe des fichiers, des messages électroniques (e- mails), des papiers de recherche et cherche continuellement des documents liés à celui qu'un utilisateur édite dans l'éditeur Emacs. D'autres projets similaires existent, comme : Margin Notes (Rodes, 2000b), qui réécrit des pages Web pour inclure des liens vers des fichiers personnels; le projet de Haystack (Adar et al., 1999), qui aspire à créer une communauté agissant réciproquement pour la constitution de dépôts personnels d'informations. Cependant, nous devons prendre en compte que les utilisateurs sont différents et donc leurs besoins aussi. Même si les recommandations pour deux personnes visent au même type de contenu ou de contexte, la pertinence qu’ils peuvent donner à une même recommandation peut-être différente. Un domaine qui a mis en évidence ce problème est celui des moteurs de recherche. 2.1.2.3 Systèmes de recommandations utilisant le filtrage d’information Les systèmes de recommandation (Resnick et Varian, 1997 ; Schafer et al. 1995) ont été employés principalement pour suggérer des films, des livres, des chansons, des plaisanteries, etc. Cependant ils sont également importants dans le domaine de la recherche documentaire. Glover et ses collègues ont travaillé sur l'accablement que les utilisateurs ressentent avec les milliers de résultats retrouvés par un moteur de recherche, dont peu sont de valeur (Glover et al. 1999). Les systèmes de recherche documentaire sont concernés tant par la « pertinence » que par les « contraintes ». La pertinence (au sens de Glover et ses collègues) est binaire : un document correspond au sujet de la requête de l’utilisateur ou non. Une contrainte (au sens de Glover et de ses collègues) se réfère à une condition supplémentaire qui doit être satisfaite. Une des limitations à la recherche documentaire utilisant seulement la pertinence et des contraintes est que les utilisateurs peuvent avoir des préférences sur les documents qui ne peuvent pas être exprimées. Donc, il y a aussi une nuance sur la pertinence : la valeur subjective de l’information. Elle dépend du degré de personnalisation de la recherche. La personnalisation d’une réponse à une recherche d’information peut se faire en utilisant toutes les demandes précédentes de l'utilisateur. Ses intérêts et l'usage qu'il fait de l'information obtenue, peuvent modifier les résultats (voir DirectHit23). Par exemple, les moteurs de recherche utilisent la sélection de certaines réponses par les utilisateurs (chaque lien de réponse est un lien vers le moteur pour que celui-ci puisse l’enregistrer). 22 Un moteur (« search engine » en anglais) est un programme qui indexe le contenu de différentes ressources Internet, plus particulièrement de sites Web, et qui permet, à l’aide d’un navigateur Web, de rechercher de l’information selon différentes paramètres, en se servant de mots-clés, ou par de requêtes en texte libre, et d’avoir accès à l’information ainsi trouvée. 23 http://searchenginewatch.com/sereport/article.php/2165041 37 D’autre part, Flake et ses collaborateurs ont récemment montré que la structure des liens du Web s’organise de telle sorte que les communautés de pages fortement liées peuvent être efficacement identifiées en se basant uniquement sur leur connectivité (Flake et al. 2000). Avec l’ensemble de pistes décrites jusqu’ici, nous avons trouvé toute une littérature de projets développés tout en constatant leurs faiblesses. Nous les synthétisons dans la section qui suit. 2.1.3 Faiblesses des systèmes de recommandations Nous nous concentrons sur les faiblesses des systèmes de recommandation basés sur des technologies de filtrage collaboratif. Nous pouvons essentiellement dire que le filtrage collaboratif automatise, peut être trop, les processus, ceci en oubliant la dimension sociale de l'environnement. En particulier, il ne prend pas en compte les opinions (commentaires ou d’avis positifs ou négatifs des vis à vis d’autres) sur les ressources évaluées par d’autres utilisateurs. En conséquence, la confiance qu’une personne peut avoir sur telles ressources recommandées n’est pas considérée. Un système de ce type essaye tout simplement de les déduire, en calculant la similitude de la façon dont les utilisateurs évaluent des ressources. De cette façon, nous constatons les caractéristiques des systèmes de recommandation listées dans les sous sections suivantes. 2.1.3.1 Problème de la collecte des méta-données sur les ressources [Pb01]Les systèmes de recommandation ont plus de problèmes quand des ressources ne peuvent pas être analysées par des machines : par exemple, il est impossible ou très difficile à nos jours d’extraire des caractéristiques significatives telles que le genre, l'auteur d'une chanson ou d’un film. Dans ce cas, nous avons besoin d'humains pour étiqueter et classer des ressources. Cela présente beaucoup de problèmes : d'abord, il n'est pas facile de décider des bonnes caractéristiques à étiqueter (genre, instruments, année...) et l'étiquetage est cher, ennuyeux, susceptible d'erreurs et subjectif. D'ailleurs, pour certaines ressources telles que les plaisanteries, il est pratiquement impossible de trouver les bonnes caractéristiques. [Pb02]Les systèmes de recommandation exigent des utilisateurs humains d'étiqueter et de donner leur opinion sur des ressources. Ces types de systèmes essayent de suggérer à l'utilisateur des ressources semblables à celles qu'il a aimées dans le passé. 2.1.3.2 Problème du démarrage à froid [Pb03]Un autre problème est le démarrage à froid 24. Il se pose quand un nouvel utilisateur entre dans un nouveau domaine où clairement, il n'a exprimé aucune opinion. Dans ce cas, le filtrage collaboratif ne peut pas calculer de similitudes, et donc calculer de recommandations. [Pb04]Le calcul de similarité entre utilisateurs nécessite beaucoup de données pour que les recommandations soient adaptées. Peu de données ne permettent donc pas d’avoir confiance dans le système. Or, si nous représentons chaque utilisateur par un vecteur des estimations sur des ressources et que nous les plaçons dans une matrice, la matrice résultante 24 Connu également comme le problème du nouvel utilisateur. 38 (utilisateurs, ressources)25, est très creuse26 (par exemple, l'ensemble de données d'Eachmovie (McJones, 1997-url) est creuse à 97.4%). Ce qui est totalement normal. En fait, il est encore nécessaire de filtrer les mauvaises ressources afin de suggérer les plus intéressantes (ainsi, la taille de la matrice diminuera). Ceci signifie qu'il y a beaucoup de ressources qui ne seront pas prises en compte et, par conséquent, ne seront pas évaluées non plus. En général, ce manque de ressources signifie que la similitude de profils entre deux utilisateurs (le nombre de ressources qu’ils évaluent) est très basse et souvent nulle. Pour trouver une solution, il a été proposé la décomposition en valeurs singulières, afin de réduire la dimension des matrices creuses (Sarwar et al. 2000). 2.1.3.3 Problème de sécurité [Pb05]Les techniques de filtrage collaboratif peuvent être attaquées par des utilisateurs nuisibles. Malheureusement, ces techniques tiennent compte de chaque individu de la même manière. Dans ce sens il n'y a aucun moyen de découvrir des individus nuisibles. Pour cette raison, les utilisateurs nuisibles qui connaissent le fonctionnement de l'algorithme, peuvent facilement l'exploiter en influençant les recommandations créées. Par exemple, supposons qu’un utilisateur nuisible veuille que le système recommande PolluRessource à l’utilisateur VraiAmi : il peut créer FauxMembre, copier le profil de VraiAmi et ajouter une bonne estimation sur PolluRessource. De cette façon le système trouvera FauxMembre semblable à VraiAmi et lui recommandera le PolluRessource. Il existe des recherches sur ce sujet (Levien, 2000-url ; Kamvar et al. 2003). Avec notre approche, qui est basée sur l’identification de propriété sociale de chaque acteur nous pouvons contribuer ainsi à réduire ce problème. 2.1.3.4 Manque de contrôle sur le comportement du système [Pb06]Les techniques de filtrage collaboratif ne donnent pas assez le contrôle à l'utilisateur. Ces systèmes sont des boîtes noires dont les utilisateurs ignorent le processus de recommandation. Si le système donne des bonnes recommandations, tout est bien, mais quand il commence à mal recommander, il est très difficile pour l'utilisateur de comprendre pourquoi et il ne peut pas remédier au problème27. Donc, il abandonne le système (Guernsey, 2003 ; Zaslow, 2002). Par exemple, Herlocker et ses collaborateurs ont conduit une expérimentation avec de vrais utilisateurs et ont constaté que les utilisateurs veulent voir comment des recommandations sont produites et comment les autres membres évaluent des ressources (Herlocker et al. 2000). En outre, Swearingen et Sinha, qui analysent également les systèmes de recommandation dans une perspective d'interaction homme-machine, ont trouvé qu’il est vraiment nécessaire de rendre transparente la logique de ces systèmes (Swearingen et Sinha, 2001). 2.1.3.5 Contrôle des données personnelles : caractère privé et emplacement [Pb07]De nos jours, la plupart des systèmes de recommandation d’information stockent les données privées sur des serveurs centralisés; se pose donc la question de la « confidentialité » de ces données. Des approches centralisées souffrent en général de ces inconvénients. L'information personnelle (ce que vous aimez, qui vous aimez) stockée dans 25 26 Façon traditionnelle des techniques de filtrage collaboratif. Une matrice est dite creuse si elle contient de nombreux éléments identiques, habituellement des zéros. 27 Nous pensons que le calcul de recommandations doit pouvoir se faire sous le contrôle de l'utilisateur. La solution est déjà sur le Web : chaque utilisateur publie son information sur son site sous son contrôle et n'importe quel service pourrait l’utiliser afin de fournir des services intelligents (par exemple les weblogs). Maintenant, ces nouvelles technologies (avec la gestion de favoris, par exemple) permettent l'édition décentralisée et facile de l'information. 39 un serveur centralisé signifie que le serveur pourra utiliser cette information. Par ailleurs, les profils d'utilisateurs peuvent aussi se trouver dispersés dans différents serveurs souvent noncoopérants (par exemple, des préférences d'utilisateurs au sujet des livres sont stockées dans amazon.com, alapage.com, barnesandnobles.com, etc.). Ceci signifie que l'utilisateur ne peut pas se déplacer d'un système de recommandation vers un autre, sans perdre son profil (et, avec lui, la possibilité de bonnes recommandations et un gain de temps) : nous constatons alors une manque de standards d’échange pour récupérer son profil, ou bien un problème d’architecture du système. Nous pouvons imaginer par exemple, que les données puissent être hébergées globalement chez un tiers de confiance. Cette situation est essentiellement due à la concurrence et peut facilement mener au monopole global parce qu'il est presque impossible qu’un nouveau système de recommandation accède au marché tandis que, pour les systèmes de recommandation bien consolidés (possédant beaucoup d'information des utilisateurs), il est même possible d'accéder à de nouveaux marchés corrélés. D'ailleurs, avec une approche centralisée, c'est le serveur qui contrôle les données personnelles et qui décide des politiques de confidentialité. 2.1.3.6 Non prise en compte des aspects sociaux [Pb08]Les systèmes de recommandation restent encore trop inhumains. Pour devenir plus humanisés on a besoin d’intégrer des analyses des aspects sociaux. La littérature récente nous montre que l'utilisateur a encore la sensation de ne pas obtenir les résultats attendus (Lueg et al. 1997 ; Maltz et al. 1995 ; Herlocker et al. 2000 ; Adar et Huberman, 2000 ; Adamic, 2000-url). Pour essayer de comprendre ces défaillances il faut prendre en compte des aspects sociaux. Nous constatons que divers chercheurs avaient déjà noté ce besoin. Upendra Shardanand et Pattie Maes (MIT Media-Lab), avaient été déjà sensibilisés par la nécessité d'inclure des concepts sociaux dans les systèmes sur Internet (Shardanand et Maes, 1995). Dans leur projet Ringo (système de recommandation de musique), ils avaient déjà construit un système de filtrage d'information sociale, afin d'automatiser le « bouche-à-oreille ». Les idées résultant de leurs recherches sont très intéressantes : Les personnes préfèrent notablement des informations provenant des amis ou des experts, plutôt que le filtrage automatique. L’utilisation du filtrage collaboratif. Les études des équipes de Good et Shardanand montrent l’aspect positif de combiner une approche humaine et informatique pour obtenir des résultats plus adéquats (Good et al. 1999 ; Shardanand et Maes, 1995). Par contre ces études semblent contraires aux résultats qu'ils ont obtenus. L’équipe de Good a montré qu’un système de filtrage collaboratif peut arriver à des recommandations plus précises qu’un ensemble d'opinions d’utilisateurs. Cependant, des questions supplémentaires se posent : Est-ce que ce sont les opinions qu’il faut prendre en compte ? Des opinions de qui, adressées à qui, dans quel contexte et dans quelle situation, … ? Faut-il vraiment se concentrer uniquement sur des opinions ? Les systèmes de recommandation n’inspirent pas encore confiance. [Pb09]Les humains cherchent toujours à savoir qui apporte quoi et si ce quoi est fiable : ils ont besoin d’avoir une conscience de la réputation et de la confiance. 40 Actuellement, avec l'apparition des communautés en ligne, des weblogs28, des marchés électroniques29, etc., un nouveau genre d'information est disponible permettant à un individu d’apprécier l’information apportée par un autre individu. Cette appréciation peut être de deux types : la « confiance » et la « réputation » (§2.1.3.2 ; (§2.1.3.5). Plusieurs systèmes commencent à utiliser des métriques de confiance : entre autres, et Fionna (Labalme et Burton, 2001). Des projets très intéressants sont NewsMonster (www.newsmonster.org) et BlogNet (peerfear.org/blognet), qui fonctionnement avec des weblogs et des canaux de nouveautés. Advogato (Levien, 2000) En analysant les divers projets qui essaient de résoudre quelques-unes de ces faiblesses, nous avons constaté que dans la plupart d’entre eux, émergeait un phénomène où peu de participants cherchait à tirer parti du plus de ressources possibles : « les passagers clandestins ». 2.1.3.7 Le phénomène du « passager clandestin » [Pb10]Les internautes préfèrent obtenir de l’information de manière gratuite plutôt que d’en contribuer. Markoff voit l’Internet comme un environnement où les gens cherchent à devenir « populaires » (Markoff, 1999) ; un exemple de popularité sont les liens vers d'autres sites, et l'utilisation que les moteurs de recherche en font. Cette utilisation a montré qu'un petit nombre de sites draine le trafic d’une large population du Web. À cet effet, Markoff rejoint Adamic, qui a observé que les internautes préfèrent prendre de l’information de manière gratuite, que de contribuer à son développement (Adamic, 2000-url). Lada Adamic dans ses investigations sur Internet s'appuie sur trois lois : lois de « Zipf »30, lois de « Power »31 et loi de « Pareto »32. Elles permettent de décrire le comportement des utilisateurs sur Internet, et en particulier leur engagement (Adamic, 2000-url). Elle a prouvé aussi que toutes les trois signifient que : « les petites occurrences sont très répandues tandis que les grandes sont très rares33 ». Markoff valide cette affirmation avec la « tragédie » de Napster et les statistiques de Gnutella (Markoff, 2000). Environ 25% des utilisateurs de Gnutella apportent 98% des fichiers. Le 28 Connus également comme « blogs » ou « blogues » en français. Un blogue est une page Web dit « évolutive » et non conformiste présentant des informations de toutes sortes, généralement sous forme de courts textes mis à jour régulièrement, et donc le contenu et la forme, très libres, restent à l’entier discrétion de l’auteur. 29 E-marketplaces en anglais. 30 Dans les années 30, un scientifique de l'université de Harvard, George Kingsley Zipf (1902-1950), a montré qu'en classant les mots d'un texte par fréquence décroissante, alors, on observe (empiriquement) que la fréquence d'utilisation d'un mot est inversement proportionnel à son rang. La loi de Zipf stipule que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Cette loi sera généralisée par Benoît Mandelbrot. 31 L'utilisation des lois de puissance pour concevoir des méthodes de recherches efficaces permet d'approximer les distributions de degrés hétérogènes, et étudient les propriétés des chemins (aléatoires ou déterministes) dans des graphes aléatoires avec de telles distributions de degrés. Ainsi, en passant par les voisins de plus forts degrés, une requête trouve sa cible en un temps linéaire (Adamic et al., 2001). Par ailleurs, (Kim et al., 2002) montre par simulation qu'une recherche passant par les nœuds de plus fort degré est plus efficace qu'un chemin aléatoire. Elle reste toutefois polynomiale si l'on tient compte des boucles. 32 L'économiste et sociologue italien Vilfredo Pareto (1848-1923) a été le premier à remarquer que la répartition des revenus dans la société n'était pas équitable. Il a constaté que 20 % de la population concentrait 80 % des revenus. Après lui, d'autres économistes ont vérifié que ce principe de répartition était valable dans d'autres domaines. « Dans tout groupe de choses contribuant à un effet commun, la majeure partie de l'effet est attribuable à un nombre relativement faible de ces choses », a confirmé Joseph Juran (voir http://www.lentreprise.com/article/3.3080.1.373.html). 33 Par exemple, le cas pour les mots anglais : les mots de petite taille sont très utilisés alors que les mots plus longs sont peu utilisés. 41 problème difficile est de donner envie aux internautes de coopérer dans des communautés en fournissant de l’information. De son coté, Patti Hartigan renforce aussi ces affirmations en exposant cette tragédie de Gnutella (Hartigan, 2000). Un jour « quelqu’un devra développer un stimulant capable d’encourager les gens à coopérer » affirme-t-elle. Différents projets essaient de relever ce défi, par exemple, Formula34, mais il reste encore du travail à faire. Formula utilise un algorithme génétique pour organiser le flux de connaissances qui doit exister dans la communauté. Ce projet essaie de motiver une personne à résoudre le problème d'une autre, en prenant en compte les caractéristiques psychologiques humaines. La question du « passager clandestin »35 a été développée également par Olson dans une étude sur les mécanismes de mobilisation collective (Olson, 1965/1978). L’auteur y montre que la prise de conscience de l’intérêt commun ne conduit pas les individus rationnels à passer à une action commune. Dans la mesure où la mobilisation produit un bien public dont profite l’ensemble de la collectivité, l’individu a intérêt, en l’absence de contraintes, à se comporter en passager clandestin. Cependant, il a été prouvé que dans les contextes où les personnes cherchent à maintenir leur place dans leur groupe (d’amis par exemple), il n’y a aucune tolérance vis à vis des passagers clandestins (Dyer et Nobeoka, 2000; Weisband et al. 1995). En effet, la tendance des personnes dans un groupe qui les observe est de montrer qu’elles peuvent être appréciées d’une façon ou d’une autre. Pour ceci, il faut que dans le groupe il y ait une conscience de la réputation et de la confiance des uns et des autres. Nous développons ceci dans la section suivante. 2.1.4 Un exemple d’application : la gestion de favoris Plusieurs chercheurs, par exemple, Delgado et ses collaborateurs, Lawlor, Popescul et ses collaborateurs, Andrews, Kanawati et Malek, etc., s'intéressent aux favoris (Delgado et al. 2001 ; Lawlor, 2000 ; Popescul et al. 2001 ; Andrews, 2000 ; Kanawati et Malek, 2000). Les favoris sont les liens (URIs) que les utilisateurs stockent afin d’y accéder postérieurement, parce qu’ils les apprécient. Ils s‘intéressent également aux relations sociales qui créent un phénomène communautaire (Hall, 2001 ; GMD-FIT, 2000 ; Grather et Prinz, 2001), grâce au stockage des liens communs. Joaquin Delgado, Naohiro Ishii, et Tomoki Ura (Department of Intelligence & Computer Science Nagoya Institute of Technology) nous présentent des études intéressantes de leur système RAAP (Research Assistant Agent Project) (Delgado et al. 2001) développé pour aider l'utilisateur à classer des documents (favoris). Ils utilisent des aspects sociaux pour le filtrage (collaboratif) d’informations et travaillent sur : L’automatisation du « bouche-à-oreille ». Un système multi-agent dit social, pour faire des recommandations aux utilisateurs. L’apprentissage du profil de l’utilisateur. L'indexation de termes pour la classification de documents (favoris). 34 SuccesFormula, http://www.3form.com/formula/whatis.htm, 2001 Le phénomène du "passager clandestin" évoque l'internaute qui prend de l’information de manière gratuite mais qui n’en produit pas. 35 42 Ils voient le problème de classification comme une combinaison de deux disciplines : la Catégorisation des Textes (Text Categorization) et le Contrôle de Pertinence (Relevance Feedback). La « Catégorisation des Textes » peut être définie comme l’affectation de catégories prédéfinies aux documents de type textes libres. D'autre part, le « Contrôle de Pertinence » met en œuvre des algorithmes d'apprentissage (machine-learning) dans les systèmes de recherche pour poursuivre une recherche documentaire basée sur des mots-clés en la précisant à partir des résultats d'une requête précédente. Précisément, la catégorisation et la recherche des textes, bien que très connexes, ont été traitées par la communauté IR tout à fait séparément. Lawlor de son coté, s’intéresse à lister divers services du Web pour la gestion de favoris (Lawlor, 2000), afin d'offrir des services pour y accéder, les partager, les trier et les classifier. Andrews voit ces types de services comme une nouvelle façon de « personnaliser » l’Internet du fait de la grande quantité de favoris que nous stockons toujours (Andrews, 2000). Tout le monde a besoin de chercher de l'information et de la classer. Plusieurs services de gestion de favoris ont donc été créés dernièrement. Ils permettent par exemple de faciliter l'accès aux informations sans importer les informations de localisation ; ils offrent la possibilité d'annoter et de partager ces annotations, etc. Par exemple : le projet RelativeWeb qui est une « Solution libre pour la gestion de Liens » de Reliance (Reliance, 2000-url) ; le projet Bookmark-Commando36 ; le projet PageTracker « Un outil de favoris portables pour la notification –fine-grain » (Trevor, 2001), etc. Kanawati et Malek abordent ce thème avec le concept de collecticiels (groupware) ; ils introduisent leur système CoWing, un système de gestion collaboratif de favoris (Kanawati et Malek, 2000). Un favori est composé ici d'une URL, un titre de page, une date de création d’un favori et une date de dernière visite. Selon eux, « il faut construire des outils de gestion collaborative des favoris où un groupe de personnes peuvent partager leurs expériences et résultats ». Assurer que les favoris stockés sont encore valides (éliminer les liens cassés, les contenus obsolètes, …). Les problèmes qu’ils ont mis en avant, entre autres sont : Comment se souvenir ? (Denoue et Vignollet, 2000) Si le nombre de favoris augmente, il n'est pas facile de se souvenir de l'endroit où les récupérer. L'utilisateur doit les classer, sinon, il doit rester avec ses favoris désordonnés. Selon des études empiriques, seulement 23% des utilisateurs classent leurs favoris au moment de leur création, 26% ne les organise jamais, et l’autre moitié les organise de façon non régulière. Comment entretenir les favoris ? Les sites Web et les utilisateurs évoluent avec le temps. Les ensembles de favoris doivent être révisés assez souvent pour : faire correspondre les favoris avec l’information dont l’utilisateur a besoin, assurer que les favoris stockés sont encore valides (éliminer les liens cassés, les contenus obsolètes, …). l’entretien est un processus consommateur de ressources (et donc de temps). S’il n'est pas réalisé assez souvent, l’utilité de « bons favoris » qui en résulte sera annihilée. 36 Bookmark Commando, http://www.bookmarkcommando.com/ , 2001. 43 Néanmoins, il semble qu'une partie des favoris ne corresponde pas aux intérêts actuels des utilisateurs. Ainsi, les systèmes qui prennent les sites indexés par les utilisateurs pour déduire leurs intérêts font des erreurs non négligeables. Kanawati et Malek listent les problèmes qui se trouvent dans les systèmes de gestion de favoris (Kanawati et Malek, 2000) : Les outils actuels ne sont pas assez adaptés aux environnements de travail habituels des utilisateurs. Alors, collaborer implique l'effort d'apprendre à gérer un nouvel outil de travail. « L’utilisateur doit continuer en utilisant sa propre application même dans un environnement collaboratif ». Le problème du démarrage à froid. Dans un environnement de favoris partagés, le système collaboratif demande à tous les utilisateurs de qualifier l’information pour donner au système la possibilité de découvrir des similarités entre utilisateurs. Les opinions partagées sont importantes. Il se pose alors, le problème de masse critique, parce qu’il faut une grande masse d'utilisateurs, sinon, il n'est pas possible d'obtenir des recommandations de favoris. Le problème de la personnalisation. Le système doit permettre à chaque utilisateur d’adapter l’application en fonction de son point de vue et ses besoins d’information ; le système doit également donner à l’utilisateur des recommandations pertinentes. Il ne faudra « jamais imposer des classifications déjà existantes, sinon, l’utilisateur serait obligé d’avoir deux systèmes de favoris, un pour l’application collaborative, et un personnel ». Le problème de la protection des données personnelles (« privacy » ou « domaine privé ») se concentre dans le contrôle que chaque utilisateur doit avoir pour gérer ce que les autres peuvent savoir de lui. Le système doit donner à chaque utilisateur la possibilité de choisir quelle information partager et avec qui. La possibilité d’avoir ce type de ressources partagées dans un système collaboratif exige donc de la volonté des utilisateurs, ce qui n’est généralement les cas. 2.1.5 Premières réponses aux problèmes identifiés A partir de l’observation de ces faiblesses, des constatations et des nouvelles pistes apparaissent pour répondre aux problèmes posés dans les systèmes de recommandation[Pb01..Pb10]. Une « découverte » importante est la prise en compte des phénomènes psyco-sociaux [Pb09]. Avec ces phénomènes, d’autres sujets sous-jacents apparaissent, par exemple, la diversité des individus et des leurs rôles vis à vis de leur participation dans de dynamiques d’échange d’information (opportunistes, altruistes, ayant de la réputation, etc.). Nous développerons ces concepts dans le chapitre suivant qui décrit notre approche (§chapitre 3). Notre idée est de donner conscience à chacun de leurs rôles et de leurs contributions dans un réseau d’échanges. Pour le [Pb07] relatif à l’utilisation de données personnelles nous développons de mécanismes de contrôles de partage de l’information. Pour les faiblesses de la section 2.1.3.1 [Pb01;Pb02], nous nous dirigeons vers un « gestionnaire de favoris personnels ». Notre idée est permettre que les ressources à recommander aient associés de manière implicite, l’appréciation des humains et pas du système. Le caractère personnel que nous intégrons essaie de combattre les faiblesses décrites dans la section 2.1.3.4 et de la section 2.1.3.5 [Pb07]: nous voulons que chaque personne aie le contrôle sur ses informations et en faisant ainsi, chaque personne saura explicitement pourquoi et comment les recommandations sont faites et également, le caractère privé des 44 informations (centralisée ou non) sera implicitement respecté. Avec ce point de vue, il y a eu quelques tentatives d’utiliser les systèmes de filtrage collaboratif dans un environnement distribué. John Canny avec son travail « Collaborative filtering with privacy », critique l'approche centralisée dans laquelle toutes les données des utilisateurs résident sur un serveur central (Canny, 2002). Il propose un modèle alternatif dont les utilisateurs contrôlent toutes les données de leurs journaux (logs). Il décrit également un algorithme par lequel chaque utilisateur peut calculer ce qu’il appelle un « agrégat » public de ses données, qui n'expose pas les données d'usage individuel. Donc, d'autres peuvent utiliser cet agrégat pour calculer des recommandations. Par ailleurs, dans la même perspective distribuée, Hart et collègues ont proposé un système appelé « iOwl » qui permet d’échanger entre les pairs des meta-données ayant rapport aux traces de navigation sur le Web (Hart et al., 2000). Ils utilisent des techniques d'extraction de données particulières aux profils des utilisateurs, par exemple, les modèles habituels de navigation. Ces meta-données sont échangées avec d'autres et sont utilisées dans des calculs individuels pour des recommandations possibles d'URLs (favoris). Nous pensons qu’en utilisant un « gestionnaire de favoris personnels », les personnes y placeront leurs informations avec la confiance qu’elles seront utilisées que sous leur contrôle et de cette façon il sera plus encourageant d’intégrer plus. Ceci pourrait nous aider à combattre les faiblesses décrites dans la section 2.1.3.2 : pas de démarrage à froid car les personnes gèrent leurs propres informations (obtenues pendant la navigation sur le Web). Le fait de permettre un gestionnaire de favoris sous leur contrôle, permet qu’elles puissent décider le type de partage de leurs informations personnelles mais également à qui les partager (droits de visualisation). Une telle possibilité exige que les personnes connaissant à qui partager (généralement aux personnes qu’ils connaissent), quoi partager, quoi partager avec qui, à partir de qui chercher une information (une personne reconnu dans un domaine), etc. Ceci tout en respectant les décisions sur les droits d’accès. Pour contrôler ces échanges, les personnes ont besoin d’avoir un type de « conscience sociale » afin d’apprécier les personnes qui leur apportent les informations les plus pertinentes. La confiance est le fait de croire à la pertinence de l’information apportée par quelqu’un. La réputation est le fait d’être avantageusement reconnu pour la valeur de l’information que l’on a apportée. La confiance sur une personne engendre de la réputation parce que l’information venant de cette personne aura une valeur vis a vis d’autres. La gestion de cette confiance37 permet donc de repérer des « passagers clandestins » (§2.1.3.7) et des polluposteurs (des personnes qui polluent le réseau avec des informations truquées) et ainsi de permettre une autorégulation assurée par chaque individu en fonction de son comportement face à ces types d’utilisateurs. La réputation est vue principalement comme la propriété d'un individu, qui lui a été assignée par son « réseau social38 » et qui a été calculée à travers plusieurs relations de confiance : « la réputation est la mémoire et le condensé du comportement des transactions passées » (O’Reilly et associés, 2001). La confiance et la réputation des personnes dans des groupes sociaux ne peuvent être perçues qu’avec des moyens subjectifs comme la conscience sociale. Il s’agit de la connaissance immédiate et réflexive que certains individus ont de leur entourage. 37 Il y a beaucoup de définitions de la confiance due au fait que la confiance est un concept initialement social. La confiance est une unité dyadique : « elle est une attente subjective qu’un individu a du futur comportement d’un autre individu » (Mui, 2002). Pour plus de détails, Resnick et ses collaborateurs fournissent une analyse complète de la plupart des systèmes de réputation existants (Resnick et al. 2000). 38 Un réseau social est une organisation sociale formée de personnes en relation directe ou indirecte entre elles et obéissant aux mêmes directives. 45 Confiance et réputation sont donc deux concepts qui vont ensemble. Pour avoir conscience de la réputation des membres d’un réseau, il faut avoir conscience de la confiance que les membres se donnent les uns aux autres39. A ce sujet, certaines personnes croient que le monde du futur sera basé sur la réputation : la réputation deviendra la seule « monnaie » d’échange dans ce qu’elles appellent « une nation virtuelle » (Ghosh, 1998). Il n’est naturellement pas possible d'établir des relations directes de réputation avec chaque membre, aussi, il est important de partager des jugements au sujet des autres. Sen et ses collaborateurs démontrent que les agents coopérants partageant leurs avis sur d'autres agents, ont une meilleure performance (ils maximisent leur performance individuelle) que ceux qui ne veulent pas collaborer (Sen et al. 2002). L’intégration d’analyses sociales (§2.1.3.6) dans notre approche de la régulation d’un média social a pour but de contribuer au traitement des problèmes listés dans la section 2.1.3.3. En résumé, notre analyse de l’état de l’art nous a conduit à identifier des besoins du caractère social et humain d’un média social, puis l’observation de l’intérêt à respecter le caractère privé de l’information, en dernier, nous exposons la nécessité d’améliorer les moyens pour la gestion d’information personnelle (gestion de favoris). 2.1.6 Nouvelles technologies pour des médias sociaux plus humains Pour combattre des principales faiblesses des systèmes de recommandations, des nouvelles technologies s’avèrent prometteuses. Elles ébauchent une perspective de développement de médias sociaux plus humains, plus sûres, etc. Elles incluent les systèmes « pair à pair », les « weblogs » et les phénomènes « social networking ». Nous les décrivons dans la section suivante. 2.1.6.1 Systèmes pair à pair Une piste exploitée aussi est l’utilisation de technologies pair à pair ou peer-to-peer. Peer-to-peer désigne une classe technologie qui tire parti des ressources40 disponibles sur l'Internet (Shirky, 2000-url). Il est constitué d’une multitude de nœuds, également appelés « pairs ». Nous la mentionnons ici mais nous ne considérons pas que cette technologie puisse être appliquée aux des systèmes de recommandations tels que ceux que nous proposons dans notre approche. En effet, il y a un gros débat sur l'utilisation de ce type de systèmes : est-elle positive ou négative ? Pour répondre à ceci, il y a deux approches opposées, qui peuvent se résumer dans la théorie de la « tragédie des communs » ou « the tragedy of the commons » (Hardin, 1968) et dans la « cornucopia of the commons » (Briklin, 2001). Les « commons » sont des "biens" appartenant à toute une communauté et non à quelqu'un en particulier. Marsh fut le premier à introduire le concept de confiance dans une communauté distribuée (Marsh, 1994). Il y a eu plusieurs autres tentatives pour modéliser les concepts de confiance et de réputation, afin de les représenter dans les sciences informatiques (Abdul-Rahma et Hailes, 2000 ; Zacharia et al. 1999 ; Ketchpel et Garcia-Molina, 1999 ; Kamvar et al. 2003 ; Aberer et Despotovic, 2001 ; Mui, 2002) mais il faut noter que cette recherche est très récente et les approches encore intuitives. 40 Matérielles et/ou humaines. 39 46 Les supporters de la « tragédie des communs » (nous) affirment qu’une ressource commune est condamnée à la disparition par sur-exploitation, c’est à dire, les biens souffrent du phénomène du « passager clandestin41 ». Cette situation provoque rapidement une consommation et une indisponibilité de ressources. Dans la « cornucopia of the commons » il est affirmé que si « l’effort pour contribuer à la création d'un bien est faible, alors d'autres biens nouveaux peuvent être créés par des travaux spontanés, venant de tous les utilisateurs du système ». 2.1.6.2 Les « Weblogs » Les weblogs (souvent dits « blogs » ou « blogues ») sont un phénomène émergeant sur le Web. Ils sont une nouvelle piste très intéressant pour les systèmes de recommandation parce que ce sont des sortes de journaux personnels en ligne : un site Web mis à jour fréquemment et organisé chronologiquement, très facile à créer et à maintenir, qui n’exige de connaître ni HTML ni programmation pour éditer notes personnelles. Ainsi beaucoup de personnes dans le monde maintiennent leurs propres blogs et y publient leurs pensées quotidiennes. L’intérêt porté sur les blogs est confirmé par les faits suivants : en février 2003, Google a acheté les laboratoires Pyra-Labs, une des premières compagnies à créer une partie de la technologie d'écriture des weblogs et son site Web, Blogger.com Stanford et Harvard favorisent leur utilisation parmi leurs étudiants comme un moyen d’édition des idées et des résultats de recherches. La technologie est incroyablement simple mais a certaines caractéristiques spéciales. Les outils de Weblogs créent des fichiers HTML standard pour la navigation, mais également certains fichiers XML bien définis sémantiquement qui ont l’avantage d'être compréhensibles par une machine. En plus du fichier standard index.htm, ils rajouteront un fichier index.rss (et souvent le fichier index.xml) ; ces fichiers sont exprimés au format d'échange RSS42 (Rich Site Summary). En fournissant un sommaire des articles récemment publiés sur un site Web, ce format permet la réception de l'information déjà classée. Ceci signifie que la collection est automatisée et peut être lue, recherchée et suivie à n'importe quelle heure. Tous les weblogs éditent de l'information en format RSS mais les grands médias traditionnels le font aussi, par exemple CNN.com. Chaque weblog peut être analysé par des machines et en fait peut être agrégé par l'intermédiaire de services centralisés (http://daypop.com, http://weblogs.com, http://blo.gs, etc.). Les liens entre les blogs et ressources (appelé également blog-rolling en anglais) permettent la construction décentralisée d'un réseau riche d'informations, appelé blogosphere. Pour donner une idée du potentiel important de cette technique (pour acquérir des données sur les utilisateurs et les ressources), il faut visiter http://www.allconsuming.net, un site où vous pouvez savoir ce que la communauté de blogging lit à l'heure actuelle. Le fonctionnement du système est simple : un crawler (ou explorateur du Web) obtient la liste de blogs de http://weblogs.com, les analyse tous, en extrayant chaque URL contenant un ISBN 41 42 Free-rider en anglais. http://backend.userland.com/rss 47 trouvés dans un des messages des blogs (et un pointeur vers amazon.com ou alapage.com ou un autre dépôt en ligne de livres). Enfin, il agrège ces données et montre les livres mentionnés par période, horaire, hebdomadaire ou mensuelle. Quelques « bloggers » ont commencé à exprimer d'autres genres d'information avec des dossiers en XML. Il y a des foaf.xml (Friend-Of-A-Friend43) dans lesquels vous pouvez énoncer qui sont vos amis, personnes en qui vous avez confiance. Il y a des smbmeta.xml44 par lesquels les petites et les moyennes entreprises peuvent annoncer leur localisation, leur secteur d'activité, leur type d'affaires, etc. Il y a des XFML45, un format simple de XML pour échanger des meta-données, par exemple, sous forme de taxonomies46. 2.1.6.3 Le phénomène « Social Networking » Une autre technologie à intégrer dans les systèmes de recommandation pour les rendre plus humains : les réseaux de relations sociaux ou réseaux sociaux (en anglais « social networking47 »). Le phénomène de « Social Networking » a débuté pendant la période de réalisation de notre approche. Différents projets prolifèrent aujourd’hui appliquant le « Social Networking » que nous appelons réseau social. Ceci confirme la conviction de nos intuitions sur le système que nous proposons. Le réseau social représente l'ensemble des relations que deux ou plusieurs individus peuvent avoir entre eux. Par exemple : les anciens élèves d'une école forment un réseau, deux personnes natives d'un même village forment un autre réseau, les membres d'un même club de tennis forment également un réseau... Le principe de réseau social est ainsi pratiquement infini et concerne réellement tous les types d'individus. Le Web est donc devenu un moyen facile et rapide d'entretenir son propre réseau de relations ou de créer de nouvelles branches jusque là inexplorées. La majeure partie des premiers sites Internet de « Social Networking » a d'ailleurs largement une orientation « Business » non dissimulée. 43 http://xmlns.com/foaf/0.1/ http://www.trellixtech.com/smbmetaintro.html 45 http://xfml.org 46 Classifications. 47 Voici un extrait intéressant du Journal du Net : « Et si l'on vous disait qu'il n'y a que six intermédiaires entre vous et votre idole ? Une récente étude réalisée par l'institut américain de recherches en sociologie de l'Université Columbia confirme la théorie avancée par le psychiatre Stanley Milgram, selon laquelle il n'y aurait que six degrés de distance entre vous et... n'importe qui d'autre dans le monde. Jusqu'à présent la théorie du docteur Milgram, "it's a small world", n'avait pas pu être vérifiée faute de moyens techniques et humains. Mais l'avènement de l'Internet et pas moins de 61 168 internautes originaires de 168 pays sont venus au secours de la science. Leur mission : parvenir à trouver le plus rapidement possible un illustre inconnu. Lorsqu'on dresse un profil-type du messager (le "sender"), il est le plus souvent nordaméricain, généralement instruit et chrétien. Les armes dont il dispose : un seul e-mail par personne. Les règles du "jeu" : se servir de sa seule cartouche-mail pour joindre un contact que l'on considère plus proche que soi de l'objectif, et lui-même devra faire passer ce message jusqu'à ce que l'inconnu soit retrouvé. Les premiers contacts sont avant tout adressés aux amis (67 %), vient ensuite la famille (10 %) et les collègues (9 %). Cependant, les personnes contactées ne font pas partie des volontaires et ne font pas toujours l'effort de chercher un contact, ce qui fausse l'expérience. Ce phénomène est classé par les chercheurs dans le "taux d'usure de la chaîne". Il se peut également que la chaîne ne trouve pas son but et se brise. En conséquence, les chercheurs ont dû prendre en compte tous les paramètres et obtiennent une moyenne de 5 à 7 intermédiaires nécessaires pour joindre un inconnu. Seuls quatre intermédiaires en moyenne étaient nécessaires pour les 384 chaînes soient parvenues à dénicher leur cible. Ce qui laisse penser comme Stanley Milgram, que le monde est bien petit... » (http://social-networking.joueb.com/news/2.shtml). 44 48 Sites internationaux LinkedIN http://www.linkedin.com Rize http://www.rize.com Orkut http://www.orkut.com NetFriends http://www.netfriends.com/ FriendsOfFriends http://www.friendsoffriends.com/ FriendSter http://www.friendster.com/ Ecademy http://www.ecademy.com/ EveryonesConnected http://www.everyonesconnected.com OpenBC https://www.openbc.com/ Sites Francophones Viaduc http://www.viaduc.com Friendset http://www.friendset.com/ DotNode http://www.dotnode.com/ NetFriends http://www.netfriends.fr/ Amisdamis http://www.amisdamis.com AmidAmi http://www.amidami.fr PlanetMoi http://www.planetmoi.com CopainsdAvant http://www.copainsdavant.com Trombi http://www.trombi.com Passado http://www.passado.fr Figure 2-3. Liste de sites de « Social Networking ». Pour une liste plus complète : http://socialsoftware.weblogsinc.com/entry/9817137581524458/ Pour les utilisateurs des applications de Social Networking, ces sites peuvent être vus comme des outils intégrant précisément des filtres comment mécanismes permettant de faire le tri dans les échanges. Ces outils rendent plus faciles ce que les utilisateurs font déjà (communiquer par exemple) ou permettent enfin de faire ce qu’ils voulaient faire (trouver des nouveaux contacts dans un contexte relativement sécurisé par des personnes qu’ils connaissent déjà). L’objectif de ces applications est de rapprocher des personnes par affinités, motivations, goûts ou volonté d’agir solidairement dans un domaine donné. Même les entreprises s’intéressent au Social Networking. Par exemple pour permettre en interne, grâce aux Intranets, la mise en commun des carnets d’adresses pour une vente dans un pays à prospecter, ou pour faire exploiter les réseaux de relations (une forme avancée de knowledge management). Selon l’institut d’études américain Jupiter Research, un tiers des internautes américains serait intéressé par ce type de services. Les grandes entreprises de communication et de logiciels s’intéressent évidemment aux réseaux de relations sociales. Ceux qui fabriquent des terminaux, bien sûr, mais aussi les entreprises de logiciels ou de services. Nokia, Cisco avec son WiFi Phone, Intel ou Microsoft sont présents. Mais aussi des start-up comme Ntags (badges intelligents) ou Spotme (localisation de personnes dans les congrès). Pourtant avec une telle explosion du Social Networking, la prudence s’impose. Derrière ce foisonnement des réseaux peuvent se cacher des volontés de traçabilité des usagers. L’échange et la connexion de groupes à groupes favorisent l’espionnage, les atteintes à la vie privée. Pour cette raison nous nous intéresserons à appliquer ces concepts dans le domaine de systèmes de recommandation et de filtrage collaboratif mais avec la finalité de favoriser l’individu. Nous proposons donc une approche centrée sur l’utilisateur, qui doit lui permettre le contrôle sur ses données, sur son réseau, tout en mettant à sa disposition une application utile pour ses usages personnels quotidiens. Cette approche nécessite la prise en compte de facteurs humains et sociaux qui ne sont pas forcement liés à l’informatique. 49 2.2 Contexte socio-psychologique Le Web évolue constamment en permettant la prolifération ou la destruction de ressources et d’organisations humaines. Pour ces dernières, il offre les conditions pour la communication et la collaboration via les réseaux informatiques48 (Sproull et Kiesler, 1991). Les individus utilisent de plus en plus ses contacts pour résoudre des problèmes liés à la localisation ou à l’obtention des ressources adaptées à une recherche spécifique d’information. Par exemple, dans le domaine du CSCW (Computer Supported Cooperative Work), les chercheurs se sont intéressés au rôle des réseaux sociaux. Citons par exemple Clément (Clément, 1990), qui a déclaré que les utilisateurs ont développé des réseaux collaboratifs simples, pour apprendre à utiliser un nouveau logiciel. Plusieurs études ont montré que, pour rassembler de l'information et de l'expertise dans une organisation, le moyen le plus efficace, est d’utiliser les réseaux simples de collaborateurs, c’est à dire, des collègues et des amis (Garton et al. 1997). De tels réseaux sont appelés « Réseaux d'Aide » par Eveland et ses collaborateurs (Eveland et al. 1994). Par conséquent, nous interprétons ces résultats : les gens utilisent des relations interpersonnelles dans des activités quotidiennes pour obtenir de l’information. Également dans le domaine du CSCL (Computer Supported Collaborative Learning), « les réseaux informels d’aide par les pairs49 » sont un élément courant pour l’apprentissage collaboratif. Cette notion est compatible avec les communautés d'étudiants de Wenger (Wenger, 1996). Ces communautés permettent aux personnes qui partagent des buts d’apprentissage dans un véritable environnement d'apprentissage, de développer des liens qui renforcent les bénéfices de l’apprentissage. De ce point de vue, divers systèmes ont été proposés. Par exemple, Greer et ses collaborateurs ont proposé PHelpS (Peer Help System) pour assister les ouvriers dans l’exécution de leurs tâches, et trouver aide ou soutien auprès de leurs collègues si nécessaire (Greer et al. 1998). Il s’agit d’un médiateur à la communication, sur des sujets spécifiques et des tâches-ciblées. Plusieurs disciplines convergent ainsi vers la nécessité d’intégrer des analyses sociales afin de comprendre le fonctionnement des organisations humaines pour obtenir des ressources : la sociologie, la psychologie, l’économie, entre autres. Pour mieux comprendre et exploiter ces phénomènes humains, l’analyse des réseaux sociaux est une technique fort utile50. Nous la détaillerons dans une section suivante. D'un point de vue sociologique, elle suit une approche structurelle51. L'objectif est l'étude d'une société ou d'une manière plus générale, l'étude d'un système d'acteurs52. 48 Egalement nommés « réseaux techniques » par Collot (1993). Informal peer-help networks en anglais. 50 Des outils pour ce type d’analyses peuvent être par exemple, UCINET50 et ses associés graphiques (Krackplot, Gradap, Multinet et Structure), Negopy, etc. (voir l’Annexe IV-9 des logiciels pour l’analyse de réseaux sociaux). 51 L'intérêt en est la structure construite à partir de l'ensemble des relations existantes ou non entre les acteurs. Cela est une opposition à la sociologie classique, dans laquelle l'analyse sociale est conduite à partir de l'ensemble des acteurs. L'acteur est abordé classiquement (Crozier et Friedberg, 1977) comme étant une entité sociale, un individu ou un groupe d’individus ayant des intérêts ou des ressources en commun. 52 Il existe deux approches pour étudier les acteurs au sein d'un réseau : l'approche individualiste et l’approche holiste (Amblard et Ferrand, 1998; Nisbett et al., 2001). Dans la première, l'acteur est identifié comme une entité stratégique. L'acteur agit alors uniquement par intérêt. Dans l'approche holiste, le réseau social ou 49 50 Il est aussi nécessaire de comprendre les mécanismes psychosociaux qui motivent les personnes à participer à des réseaux sociaux. Les résultats de ces travails exposés ci-dessous sont la fondation de nos choix dans la conception de notre système de média social et la justification des hypothèses faites liées à ces choix. 2.2.1 La participation à des réseaux sociaux virtuels L’émergence de types d’organisation humaine sur Internet révèle des besoins informationnels et relationnels des individus. Les personnes s’organisent dans des structures sociales afin d’interagir les uns avec les autres et de diffuser des informations liées à leurs centres d’intérêts. Bardini appelle cette nouvelle structure « réseaux socio-techniques » (Bardini, 1996). Ainsi, Internet donne naissance à des réseaux sociaux, qui sont parfois même qualifiés de communautés, via les réseaux techniques. De cette façon, deux types de réseaux se dévoilent : - Les réseaux sociaux-techniques sont des réseaux humains déjà constitués, qui vont utiliser des réseaux techniques pour communiquer. - Les réseaux technico-sociaux, qui vont profiter du développement d'outils techniques pour tenter de constituer des réseaux sociaux centrés sur une thématique commune. Nous nous efforçons donc de trouver des pistes pour inciter les personnes à participer à ces réseaux. Nous dissocions deux niveaux de participation dans de tels réseaux, selon la finalité de la personne, individualiste ou identitaire : 1. Lorsqu'il a une finalité individualiste, l'individu a une démarche de type économiste. Il va rechercher un bénéfice individuel au fait de contribuer, participer à un réseau social virtuel. 2. Lorsqu'il a une finalité identitaire (motivée), l'individu n'utilise plus le réseau comme un moyen pour parvenir à ses fins. Il est alors guidé par une volonté d'appartenir au groupe, au travers de relations de confiance, qui lui permettent de développer une estime positive de lui-même. 2.2.1.1 Participation individualiste Hazel Hall a étudié la théorie de l’échange (Hall, 2001). Pour lui, les individus évaluent des chemins alternatifs pour obtenir au plus bas coût la meilleure ressource. En plus, dans une telle démarche dite économiste, le fait de contribuer au réseau social est considéré comme un moyen servant une fin individualiste (obtenir un bien, par exemple, de l’information). En revanche, si la participation paraît trop coûteuse relativement aux avantages que l’individu en tire, il ne sera pas motivé à participer. Il est donc intéressant de connaître ces contributions Krep et Wilson, 1982 ; Wilson, 1985 ; Kreps, 1990; Desalles, 2001). Selon la théorie de l'échange, les individus vont ainsi évaluer les avantages et les coûts associés aux relations qu'ils entretiennent, et maintenir celles pour lesquelles les avantages dépassent les coûts. Il y aurait ainsi une règle de proportionnalité selon laquelle plus les investissements de l'individu dans l'échange seront jugés importants par lui, plus les profits devront être importants. 2.2.1.1.1 Les théories psychosociales de l'échange La théorie de l'interdépendance sociale (Thibaut et Kelley, 1952/1959), montre deux facteurs expliquant le maintien des individus dans des réseaux sociaux. Le premier est relatif à la satisfaction tirée de la relation. L'individu va comparer les coûts et les gains associés à la structure sociale s'impose à l'acteur par l'intermédiaire de contraintes ou de normes sociales 1977). 51 (Crozier et Friedberg, relation d'échange avec ce qu'il pensait devoir recevoir. Le deuxième facteur qui explique le maintien des individus dans des réseaux sociaux est relatif au degré de dépendance à l'égard de la relation. L'individu va comparer la relation actuelle avec d'autres alternatives. Si les autres options sont plus avantageuses, l'individu mettra fin à la relation, sinon, il maintiendra sa participation (Thibault et Kelley, 1952/1959 ; Cook et al. 1983). Ainsi, cette théorie permet de distinguer les comportements de dépendance (un individu maintient ses contributions dans le réseau parce qu’il n'a pas d'autres sources alternatives, mais il n’est pas satisfait), et des comportements de satisfaction (l’individu maintient ses contributions dans le réseau parce qu’il est tout à fait satisfait du bénéfice qu’il en tire). De même que pour la théorie développée ci-dessus, dans la théorie de l'équité (Adams, 1965) la motivation des individus à participer à des échanges est fonction du rapport entre production/consommation d'informations, qui doit être jugé équitable. Les individus souhaitent retirer d'une relation autant qu'ils y investissent. Lorsqu'ils perçoivent une infériorité des avantages par rapport à leurs contributions, l'inégalité peut alors provoquer la rupture complète des relations d'échanges. 53 1983) 1. 2. 3. Ainsi, Messick et Sentis ont identifié trois profils d'individus dans (Messick et Sentis, permettant l'évaluation du rapport entre rétribution/contribution : Le profil des égalitaires stricts. Les individus évaluent le rapport réel entre rétributions et contributions Le profil des égocentriques, qui est majoritaire. Les individus perçoivent toujours le rapport rétribution/contribution à leur avantage, c'est-à-dire qu'ils ont toujours l'impression de donner plus qu'ils ne reçoivent, ce qui les conduit à diminuer au maximum leurs contributions. Le profil des altruistes, qui est minoritaire. Les individus perçoivent toujours le rapport rétribution/contribution à l'avantage des autres, c'est-à-dire qu'ils ont toujours l'impression qu'ils n'ont pas assez contribué par rapport à ce qu'ils ont reçu. Un autre moyen de vérifier ce type de rapports est la collaboration entre individus. Selon Cronin, il est possible influencer une telle collaboration dans ce qu’il appelle des marchés de connaissance (Cronin, 1995), grâce à : - La récompense économique comme ressource d'échange. Peut-être que parmi les récompenses explicites les plus évidentes pour le partage de connaissance se trouvent celles qui impliquent des motivations économiques comme l'augmentation de la paie ou le bonus sous formes d'options de réserve ou d’argent comptant. L'idée est que les individus sont motivés par l'engagement et la paie est utilisée comme un échange juste. - L'accès à l'information et à la connaissance comme ressource d'échange. Une autre récompense tangible pour la participation à la connaissance partagée est l'accès à l'information des autres participants. Il y a « l'espoir que l'on obtiendra une connaissance de valeur en retour de sa propre contribution [...] et que l’on a besoin de contribuer à la connaissance pour faire partie des réseaux de connaissances desquels son propre succès dépendra » (Cohen, 1998). - L'avancement/la sécurité de carrière comme ressource d'échange. L'avancement de carrière peut être lié à divers facteurs, y compris la mesure suivant laquelle les individus amassent ou partagent leur expertise (Von Krogh, 1998). La performance d'un individu, aussi bien que l'acte d'aider d'autres collègues pour la mener à bien, doit être bien reconnue. 53 Cité par Mugny et collaborateurs (1995). 52 Alternativement, les personnes peuvent chercher un autre type de « récompense », par exemple, la satisfaction personnelle d'appartenir à une communauté de connaissance partagée et prospère (Merali, 2000 ; Héber-Suffrin, 1992/1998 ; C. et M. Héber-Suffrin, 1993; Perriault, 1996). Ces récompenses peuvent être : - L'amélioration de la réputation et le statut comme une motivation pour l'échange social. Ces obsessions se trouvent derrière une récompense importante pour la connaissance partagée : la reconnaissance par les pairs (Nowak et Sigmund, 2000). Un acteur de statut plus élevé peut « construire » la réputation d’une autre personne de statut inférieur par l'acte de collaboration (Beaver et Rosen, 1978). Puisque la progression de carrière dépend dans une certaine mesure de la réputation, en fournissant la récompense qui promeut, la réputation pourrait être vue comme une subtilité de la récompense explicite d'avancement de carrière. - La satisfaction personnelle comme une ressource pour l'échange social. Quelques personnes éprouvent du plaisir à échanger, d’où leur comportement altruiste et pro-social (Rioux, 2000 ; Wasko et Faraj, 2000). Les environnements connus pour être les plus encourageants sont identifiés comme ceux qui (Hall, 2001) : - font de la connaissance partagée une responsabilité explicite ; encouragent l'expérimentation ; estiment toutes les contributions, indépendamment du statut du créateur ; promeuvent des communautés pour la connaissance partagée ; fournissent de l'information appropriée. 2.2.1.1.2 La théorie sociologique de la masse critique Un courant sociologique, celui de la sociologie de l'action collective, a cherché à définir les facteurs facilitateurs et inhibiteurs de la participation à des réseaux sociaux. Pour Markus (Markus, 1987), une forte participation à des relations d'échange médiatisées sera fonction : 1. de l'hétérogénéité des intérêts, 2. de l'hétérogénéité des ressources. Pour cet auteur, l'hétérogénéité devrait accroître les possibilités d'adoption et de contribution au réseau parce que les différences augmenteraient le nombre d'individus potentiellement intéressés, ce qui augmenterait la probabilité qu'une partie de ces individus contribuent, ces contributions permettant alors une progression du nombre de membres, celleci entraînant à son tour une nouvelle croissance des contributions. La condition pour que les contributions puissent démarrer serait qu'il existe un petit groupe d'individus plus actifs que les autres, prêts à contribuer même si les autres ne le font pas. Cette hypothèse de la masse critique impose donc "qu'un petit segment de la population choisisse de faire de grosses contributions à l'action collective alors que la majorité fait peu ou rien". La masse critique serait donc nécessaire à la généralisation des comportements de production à tous les membres du réseau. Diverses recherches empiriques qui ont étudié cette hypothèse de masse critique ont bien montré que seule une petite minorité de participants contribuait à la majorité des échanges. Par exemple, Palme a calculé que la probabilité qu'un message de courrier électronique suscite une réponse était de 0.05 (Palme, 1995)54. Selon lui, il faudrait donc un minimum de 21 participants actifs pour qu'en moyenne un message reçoive une réponse. Il 54 Dernière mise à jour le 22 janvier 2005 par Jacob Palme. 53 précise néanmoins que cette probabilité n'est pas fixe, mais qu'elle permet d'établir une fonction simple de réponse. Smith aussi a étudié le lien entre la croissance de la population des utilisateurs du forum qu'il étudiait et les contributions (Smith, 1992-url). Il a constaté que seulement 1% des 7000 utilisateurs généraient 50% de tous les messages échangés, et ce, en dépit de l'afflux de nouveaux utilisateurs sur la période étudiée (Millen et Patterson, 2002). Rojo et Ragsdale ont montré que 82% des abonnés d'une liste de diffusion académique n'ont jamais participé, parce qu'ils n'ont jamais demandé d'informations, fourni d'informations, posé ou répondu à des questions complexes, fait de courts commentaires ou des commentaires plus élaborés (Rojo et Ragsdale, 1997). Dans une visée explicative de ces comportements, Rojo a cherché à rendre compte des facteurs favorisant et affectant la motivation des utilisateurs à contribuer sur des listes de diffusion académiques (Rojo, 1995-url). Les motivations des utilisateurs à participer ont été de : 1. obtenir de l'information et se maintenir à jour dans leur domaine d'intérêt, 2. participer ou écouter les idées circulant dans un domaine qui les intéresse, 3. être en réseau avec des personnes ayant des intérêts similaires et construire et maintenir des contacts, 4. développer des objectifs comme collaborer sur des buts partagés. Les facteurs de désabonnement à ces forums ont été : 1. ne pas obtenir les bénéfices attendus, 2. ne pas apprécier le ton du forum et de se sentir incapable de le changer, 3. ne plus partager les objectifs du forum ou le style des échanges parce que les priorités ont changé, 4. des contraintes techniques qui ont empêché la réception normale ou l'accès aux messages. Le facteur majeur de satisfaction éprouvée par les utilisateurs est la pertinence des contenus ! 2.2.1.1.3 Limites des échanges dans des réseaux sociaux virtuels Les limites des réseaux sociaux virtuels renvoient à la manière dont les individus considèrent le réseau, c'est-à-dire comme un moyen servant un fin individualiste. De fait, tant que les utilisateurs contribueront en fonction du rapport calculé entre coûts et bénéfices, se posera une limite quant au degré maximal de leurs contributions. Il paraît que les utilisateurs guidés par une logique d'usage économiste considèrent les informations publiques donc accessibles dans le réseau comme des biens publics (Ardichvili et al. 2002; Gensollen 2003). De fait, il se met alors en place ce qu'Olson nomme un paradoxe de l'action collective ou phénomène du passager clandestin (Olson, 1965/1978). De plus, la décision individuelle de ne pas participer apparaît d'autant plus « normale » qu'elle n'affecte pas le groupe de façon importante, dans la mesure où les autres et l'individu lui-même n'en ont pas forcément consciente. Se pose ici le problème posé par Markus selon lequel le réseau n'a alors pas conscience de ses intérêts (Markus, 1987). Ce n'est qu'à partir du moment où il s'organise pour les exprimer qu'il devient un groupe manifeste et que les comportements de participation se légitiment. C'est à ce moment que les réseaux sociaux virtuels deviennent de véritables communautés virtuelles, non plus guidés par des logiques d'usages économistes, mais identitaires. Nous développons ci-après ces caractéristiques et le rôle joué par la confiance dans leur émergence et leur maintien. 54 2.2.1.2 Motivation à la participation La motivation à la participation, ne compte pas sur la réciprocité directe d'individus négociant des ressources comme une marchandise privée. Il existe des conditions dans lesquelles ces ressources peuvent être considérées comme un bien public. Il a été prouvé que les gens qui sont réticents à contribuer lorsqu’on leur demande d’écrire quelque chose pour une base de données par exemple, sont désireuses de partager ces ressources quand leurs collèges leurs demandent de façon informelle (Dixon, 2000). Ce changement de circonstances est motivé selon l'obligation morale et l'intérêt communautaire, plutôt que l'intérêt personnel (Wasko et Faraj, 2000). Lorsque l’individu a une finalité identitaire, il est capable de former ou de s’intégrer dans ce que Lave et Wenger appellent une CoP55 ou communauté de pratique (Lave et Wenger, 1991). Une CoP est une communauté active, incluant des individus unis dans l’action et dans la signification que l’action a pour eux et pour la collectivité. Elle est une entité informelle, permettant des « connexions » de membres les uns avec les autres, par des intérêts spécifiques partagés56. C’est précisément à ce niveau d’identité des individus vis à vis de leur groupe, que nous considérons un réseau social virtuel comme une vraie CoP (en ligne), donc comme un réseau social de confiance. Le terme confiance apparaît donc pour exprimer l’envie de partager, afin de résoudre des problèmes communs, que tous ont intérêt à résoudre. Les membres d’une communauté qui sont pris dans ces types de relations atteignent le point de partage plus tôt que ceux qui fonctionnent plus indépendamment (Constant et al. 1994 ; Hansen, 1999). La société fait un type de « pression » : « je donne au fur et à mesure que ma société me incite à donner ma connaissance » (Snowden, 2000). Nous présentons ci-dessous, une partie de la classification que Hall fait d’autres moyens de réaliser de l'interaction sociale dans les organisations (Hall, 2001) mais que nous ne détaillons pas ici. Les organisations devraient : Fournir des règles claires sur le fonctionnement de la communauté. Prendre des dispositions pour la connaissance partagée Encourager des événements sociaux pour le personnel - quand les individus aiment les rapports sociaux avec leurs collègues ils trouvent plus facile de partager la connaissance sur des questions sérieuses Fournir des opportunités à des collègues de créer un historique partagé pour développer des histoires « de rapport antérieur » Préconisé par : Dyer et Nobeoka, 2000, p. 364 Exemple : Le réseau de Toyota publie des règles claires aux participants de la communauté. Mettre à disposition une structure de Nahapiet et classification d'information et pour Ghoshal, 1998, permettre « des unités diverses pour le paragraphe 10 parler l'un à l'autre plus efficacement de leurs problèmes d'affaires » (O'Dell et Jackson Grayson, 1998, p. 165) L'association de fournisseurs Toyota a un comité PR/SPORTS pour encourager des amitiés à se développer (Dyer et Nobeoka, 2000, p. 353) Von Krogh, 1998, p. 145 Krackhardt, 1992 Tableau 1 Les moyens de réaliser de l'interaction sociale selon H. Hall. Extrait de (Hall,2001). 55 Community of Practice, en anglais. En général, des individus sont motivés à interagir quand (a) il est facile de le faire et (b) l'utilité est évidente (Snowden, 2000). 56 55 Ce n'est que lorsque l'usage du réseau social virtuel participe à la construction ou au renforcement d'une identité collective qu'il devient une véritable communauté virtuelle, et que les contributions de chacun deviennent nécessaires. Les contributions seraient alors de véritables actions sociales, déterminées par une rationalité en valeur, définie par Weber comme « une croyance en la valeur inconditionnelle d'un comportement déterminé qui vaut pour lui-même et indépendamment de son résultat » (Weber, 1968). A ce moment, les bénéfices individuels que les individus peuvent tirer de la relation d'échange ne guident plus leur degré de participation57. Il s'agit d'un processus relationnel d'investissement de soi, une transaction entre des individus cherchant une reconnaissance et un réseau social pourvoyeur de cette reconnaissance. Selon la théorie de l'identité sociale (Turner, 1982), à ce moment là, le fait d'appartenir à un groupe devient une motivation suffisante à s'engager et à participer. La relation de partage avec d'autres personnes ayant des intérêts en commun va permettre de se mettre en valeur et de développer une estime de soi positive. L'utilisation du média devient alors une finalité en soi, et non plus un moyen pour une finalité individualiste qui se situe en dehors des réseaux sociaux constitués. De cette façon, les réseaux sociaux constitués intègrent des relations ou la confiance se développe de manière implicite, mais il faut la maintenir. 2.2.1.2.1 Le rôle de la confiance Pour certaines approches, la notion de confiance joue un rôle central dans l'émergence et le maintien de réseaux sociaux. Elle facilite les échanges informationnels dans un contexte caractérisé par l'incertitude. Elle permet de minimiser l'incertitude qui pèse sur la transmission, la compréhension et l'utilisation des informations échangées. Deux types de confiances sont ainsi définis, selon qu'ils renvoient plutôt à des aspects cognitifs ou affectifs de la relation d'échanges. Luhmann parle ainsi de « trust » lorsqu'il s'agit de confiance calculée et générée par des processus à dominante cognitive (Luhmann, 1988). Il s'agit alors de relations de confiance telles qu'elles se développent dans les contextes professionnels, basées sur des alliances fructueuses, à l'exclusion de toute dimension affective. Cette dissociation de 2 types de confiance renvoie plus ou moins à la distinction faite entre participation rationnelle en finalité et participation rationnelle en valeur. Le premier type de confiance s'applique aux réseaux sociaux virtuels qui mettent en rapport des individus qui ne se connaissent pas et qui sont rattachés par une volonté de rechercher de l'information de qualité. A ce moment, un processus de construction d'une confiance mutuelle se met en place, élaboré à partir d'impressions stéréotypées du fait de l'absence d'informations personnelles caractérisant les individus du réseau. Ensuite, quand les échanges se développent, le niveau de confiance se révèle proportionnel à celui de l'action exercée par les individus. Il semble donc important de sélectionner les participants de manière à regrouper des individus compétents et orientés positivement vers les autres. Cette sélection de départ facilitera l'émergence d'une confiance collective manifestée à priori par les participants les uns envers les autres. L'entrée d'un nouveau membre dans le réseau devrait alors être le fait d'une cooptation par chacun de façon à maintenir le climat de confiance établi et limiter la dispersion des ressources. 57 C’est le cas des participations avec une finalité identitaire. 56 L'individu a deux principales responsabilités : (1) acquérir l'expertise et (2) la disséminer (Von Krogh, 1998). Le facteur confiance est aussi important. Là où la confiance est forte, les participants à la construction de la connaissance partagée échangent des relations, s'exposent et posent plus facilement des questions dans des "marchés de clic" (click market en anglais) construits sur la confiance. Les participants comprennent que la viabilité de leur communauté dépend de leur engagement (Merali, 2000). Si aucune contribution n'est faite, la communauté ne vivra pas. Cependant, chaque fois que quelqu'un contribue à la connaissance en partageant le résultat, cela augmente non seulement la connaissance commune basée sur la contribution, mais aussi la confiance que des futurs membres auront dans la communauté. Comme la confiance augmente, un plus grand nombre de participants devient désireux de partager et donc de nouvelles contributions seront faites (Nahapiet et Ghoshal, 1998) : « La confiance occasionne la coopération, la coopération elle-même élève la confiance ». Le don et la réception de confiance sont en soi un acte de partage où les individus acceptent de se rendre vulnérables parce qu'ils croient en « la bonne intention […]» (Nahapiet et Ghoshal, 1998). Pour certains auteurs, la confiance dans le réseau social virtuel est directement liée à la crédibilité accordée à l'outil informatique médium de communication entre les membres du réseau. Selon Jarvenpaa et Leidner, c'est une confiance (cognitive) forte dans les technologies à disposition qui incite des individus séparés dans le temps et l'espace à s'engager dans des réseaux sociaux virtuels (Jarvenpaa et Leidner, 1999). Ainsi, la confiance s'exprime d'une part vis-à-vis des informaticiens concepteurs et d'autre part vis-à-vis de l'outil lui-même : 1. Relativement aux informaticiens, la littérature leur conseille de se rapprocher des utilisateurs finaux pour faire correspondre les conceptions et logiques de chacune des parties (Broadbent et Weil, 1997). Il s'agit notamment de parvenir à un équilibre entre le désir de « promouvoir l'innovation » et celui consistant à « favoriser le contrôle » (Reix, 1995). Ce rapprochement devrait permettre une compréhension mutuelle des rationalités entre utilisateurs finaux et informaticiens 2. Vis-à-vis de l'outil technologique, une voie pertinente consiste à favoriser l'apprentissage par l'utilisateur, et, dans cette optique, à en simplifier les fonctionnalités. La bonne compréhension des fonctionnalités de l'outil est censée permettre à l'individu d'accroître son implication et de développer ainsi ses modes d'utilisation en climat de confiance. La confiance peut donc rapprocher utilisateurs finaux et informaticiens. Elle est l’élément clé au maintien des réseaux sociaux. Pour qu’elle puisse se produire, il est très important que l’échange et le partage de ressources puissent avoir lieu sans inconvénients. 2.2.1.2.2 Le succès de l’échange et du partage Le succès de l’échange et du partage dépend également des attributs technologiques et sociaux de l’environnement58 offert aux individus (Ardichvili et al. 2002). Il a été prouvé qu’il y a plusieurs raisons qui font que les individus veuillent partager leurs ressources personnelles dans un réseau identitaire. De tels résultats permettent de répondre aux questions du type : 1) Quelles sont les raisons qui susciteraient l’envie de partager ? 2) Quels sont les obstacles au partage ? 58 Le système. 57 3) Pour quelles raisons des réseaux sociaux virtuels seraient utilisés pour trouver et échanger l’information ? 4) Quels sont les obstacles à l’utilisation de ce type de réseaux virtuels ? Pour répondre à ces questions Ardichvili et ses collaborateurs (Ardichvili et al. 2002) ont fait diverses recherches. Leurs conclusions sont listées ci-après. Pour la première question, relative à susciter l’envie de partager, il est indispensable que l’environnement du réseau fasse sentir les biens échangés comme des biens publics appartenant au réseau dans sa totalité. Ensuite, il est confirmé ce que Wasko et Faraj (Wasko et Faraj, 2000) avaient déjà trouvé : l’échange est motivé par une obligation morale et par un intérêt communautaire. Les membres nécessitent de s’établir eux-mêmes comme des experts. Une fois qu’un membre s’estime expert, il sentira qu’il a abouti à une étape dans sa vie, et qu’est arrivé le moment de donner en retour : partager son expertise, servir de mentor, etc. Pour la deuxième question, relative aux obstacles au partage, il a été trouvé que généralement les personnes, ont peur que ce qu’elles peuvent échanger puisse être perçu par les autres comme « non pertinent ». Il se met en place l’élément « peur de perdre la face59 » et de ne pas répondre aux attentes de ses collègues. Les individus n’ont pas toujours clairement les types d’information à placer dans le réseau. Ils demandent toujours les moyens de savoir ou de distinguer l’acceptabilité des leurs. De plus, les nouveaux arrivants se sentent toujours intimidés à partager, par un sentiment de « n’avoir encore obtenu le droit » de placer ses informations dans le réseau. Ils ont peur de la critique et du ridicule. Il est indispensable de « répondre » à ces contributions en soulignant l’importance de leurs contributions ! Pour la troisième question, relative à trouver les raisons menant à l’utilisation des réseaux sociaux virtuels pour trouver et échanger de l’information, il ressort l’importance des « bénéfices aperçus » : le réseau doit servir comme « encyclopédie » qui doit rester toujours disponible et qui peut être consulté si besoin. Il est important de trouver des solutions aux informations demandées venant des autres membres du réseau. Il est vital également, de maintenir informés les membres de tout ce qu’il s'y passe. Les bénéfices les plus évoqués ont été : (i) que les nouveaux membres trouvant de l’aide à s’intégrer rapidement deviennent très vite productifs et, (ii) qu’il est plus facile de travailler ensemble (géographiquement distribués) et de communiquer mieux. D’autres bénéfices importants sont : - Trouver « les meilleures pratiques60 » et « les expériences acquises61 ». - Obtenir les mêmes ressources qu’on peut obtenir à partir d’autres sources, mais beaucoup plus rapidement. - Avoir un chemin d’accès vers d'autres communautés d’intérêt. C’est à dire, ne pas rester dans le même domaine et ouvrir ses relations62. - Obtenir d'autres bénéfices au-delà des solutions immédiates aux problèmes spécifiques. - Avoir un environnement pour générer conjointement de nouvelles ressources (nouvelles connaissances) et pas seulement utiliser celles qui existent déjà. Pour la quatrième question, relative aux obstacles à l’utilisation de ce type de réseaux virtuels, deux principaux ont été trouvés (Ardichvili et al. 2002) : 59 « Fear to lose face », en anglais. « Access to best practices » en anglais. 61 « Access to lessons learned databases » en anglais. 62 Ce qui est très important, parce qu’il permet d’élargir les connaissances personnelles. 60 58 - Appartenir à un groupe où tous les membres sont étroitement liés, génère la redondance de ressources. - Les individus qui ont des besoins spécifiques et urgents obtiennent trop de réponses. Nous venons de décrire des aspects sociaux que nous considérons importantes pour la construction des réseaux sociaux virtuels, cependant il est nécessaire de les formaliser grâce à la théorie d’analyse de réseaux sociaux. Cette formalisation va nous aider dans la construction de notre approche. 2.2.2 Analyse de réseaux sociaux Les réseaux sociaux nous aident à comprendre le rôle de l'ensemble des acteurs (ou points ou nœuds ou agents) et leurs relations63. L’analyse de ces réseaux se fait avec un vocabulaire plutôt formel et abstrait emprunté également à la théorie mathématique des graphes. Nous présentons dans cette section des concepts et problématiques au cœur de notre approche. Les réseaux sociaux sont analysés par diverses disciplines. L’origine de ces analyses n’est pas nouvelle. Il est possible de dater le moment où les sciences sociales s’en emparent, pour désigner ce qu’elles connaissaient jusque là sous le nom de structures, systèmes, cercles, groupe : la notion de « réseau social » (social network), qui fait sa première apparition dans un article de l’anthropologue britannique John A. Barnes (Barnes, 1954). Cependant, le précurseur le plus évoqué par les tenants de l’analyse des réseaux sociaux, est le philosophe et sociologue allemand Georg Simmel (1858-1918) 64. Pour Wasserman et Faust (Wasserman et Faust, 1994) comme pour de nombreux auteurs (Forsé, 2002), l’histoire de l’analyse des réseaux sociaux débute non pas avec Simmel, mais avec Moreno, aux Etats-Unis, au début des années 1930. Jacob Lévy Moreno (1889-1974) est en effet le fondateur incontesté de la sociométrie, dont il expose les principes, les méthodes, les enjeux et les résultats dans « Who Shall Survive ? », publié en 193465. Deux développements vont être fondamentaux pour la méthodologie de l’analyse des réseaux sociaux : ceux de la théorie des graphes et de l’application de l’algèbre linéaire aux données relationnelles. 2.2.2.1 Une modélisation des réseaux de relations sous forme de graphes L’application de la théorie des graphes, à l’analyse des réseaux s’est véritablement imposée. Son apport est double : d’une part les graphes permettent une représentation graphique des réseaux de relations, facilitant leur visualisation, permettant leur exploration et 63 La relation ou lien qui unit deux acteurs correspond à l'ensemble des interactions existantes entre eux. Au-delà de la simple interaction, elle porte une valeur (amitié, liens de parenté, liens hiérarchiques, contacts professionnels, liens de voisinage,…) ou un ensemble de valeurs. L’analyse de réseaux peut se compléter également avec des analyses statistiques (i.e. les logiciels SAS, SPSS, etc.) sur chaque membre du réseau. Une analyse du point de vue holiste (note dans §2.2) permettra de mieux connaître la structure du réseau (Garton et al, 1998), et de tester des questions du type : Qui parle avec qui ? A quel sujet ? Comment changent les relations au fil du temps ? 64 Pour une étude systématique de ce que l’analyse des réseaux sociaux « doit » à la sociologie de Simmel, on lira avec attention la récente contribution de Michel Forsé (2002), qui figure dans la bibliographie officielle. 65 Et non en 1943, comme indiqué de façon erronée à la fois dans la bibliographie du thème « Les réseaux sociaux » publiée dans le Bulletin officiel de l’éducation nationale et dans la bibliographie figurant à la fin de l’ouvrage d’Alain Degenne et Michel Forsé (1994)… 59 mettant en lumière un certain nombre de leurs propriétés structurelles ; d’autre part, la théorie des graphes n’est pas seulement une méthode de représentation graphique, mais elle développe de façon systématique et articulée un corpus extrêmement riche de concepts formels permettant de qualifier, de distinguer et de classer les structures relationnelles en fonction d’un certain nombre de propriétés fondamentales de distribution et d’agencement des relations entre éléments66. Pour faire bien comprendre ce que la théorie des graphes peut tout d’abord apporter à la « visualisation » des réseaux de relations, le plus simple est d’en donner un exemple. Imaginons que nous voulions étudier le réseau des « co-citations » entre cinq chercheurs, à partir de l’étude de leurs publications et des références bibliographiques qu’elles contiennent. En examinant la bibliographie figurant à la fin de leurs travaux, nous constatons que : le chercheur A cite le chercheur B et le chercheur C ; le chercheur B cite les chercheurs A, D et E ; le chercheur C ne cite personne ; D cite E ; et enfin, E cite C. Sous cette forme, une telle énumération ne laisse que très difficilement entrevoir les particularités du réseau formé par ces co-citations, même si l’on peut tout de même apercevoir que B cite un grand nombre de ces collègues, tandis que C n’en cite aucun. Utilisons maintenant une représentation de ces relations sous forme de graphe (sociogramme67) : A A B C D E (1) B D E C C E A (2) D B (3) Figure 2-4 Trois représentations d’un même graphe ou sociogramme : relations de co-citation entre chercheurs. La Figure (1) évoque un modèle non hiérarchique du type « cercle social » ou communauté d’égaux ; la Figure (2) ressemble plutôt au modèle hiérarchique « centre/périphérie » ; et la Figure (3) traduit en revanche un modèle hiérarchique pyramidal. Un sociogramme est une représentation de relations sous forme de graphe. Jusqu’à présent nous avons parlé d’individus et de relations ou de points et de lignes. Le langage des graphes, qui a sa terminologie propre, utilise le terme de sommet pour désigner les individus, et ceux d’arcs ou d’arêtes pour désigner les relations : une relation est représentée par un « arc » (autrement dit, une flèche), quand elle est orientée, c'est-à-dire quand elle a une direction (comme c’est le cas dans notre exemple, puisqu’une « citation » a un émetteur, celui qui cite, et un récepteur, celui qui est cité), et par une « arête » quand elle ne l’est pas (il s’agit alors d’un simple trait). 66 Pour une présentation plus détaillée de la théorie des graphes, on se reportera à Degenne et Forsé (1994), chapitre III, pp. 77-92 ; sur les graphes et le calcul matriciel, on pourra aussi consulter, en français, Blum (1991), chapitre 3 : « Vecteurs et matrices », et chapitre 4 : « Les graphes » ; en an anglais, Wasserman et Faust (1994), Part II : « Mathematical Representations of Social Networks », pp. 67-16. 67 Représentation graphique des relations dans un groupe. L'examen du sociogramme permet de découvrir des paires d'individus qui se choisissent mutuellement (dyades). 60 Un certain nombre de raffinements auraient pu être apportés à cette représentation graphique simple, en fonction des propriétés des relations qu’elle sert à représenter. Nous ne les présentons pas ici68. Concepts et propriétés des structures La théorie des graphes offre un arsenal d’outils : de concepts, de théorèmes, d’algorithmes et de raisonnements propices à l’analyse des réseaux, pour autoriser un traitement mathématique générateur de connaissances nouvelles. Un certain nombre de ces outils servent tout d’abord à caractériser les sommets. Le degré d’un sommet correspond au nombre d’arcs qui en partent ou y arrivent, et constitue donc une mesure de la taille de son voisinage (composé de l’ensemble des sommets qui lui sont reliés). De ce fait, le degré d’un sommet est un indicateur de son intégration ou au contraire de son isolement dans le réseau, ou bien encore comme un indicateur de sa centralité : on mesurera ainsi la centralité (de degré) d’un sommet par le rapport entre son degré et le nombre de sommets auxquels il pourrait être relié69. Dans notre exemple B et E sont des sommets de degré 3, alors que A, C et D sont seulement de degré 2. Il est possible, dans le cas des graphes orientés70, de distinguer le degré sortant d’un sommet, qui correspond au nombre d’arcs qui en partent, et son degré entrant, qui correspond au nombre d’arcs qui y arrivent. Ici, les sommets qui possèdent le degré entrant le plus élevé sont les sommets C et E, ce qui peut être pris comme un indicateur de leur « popularité » parmi leurs collègues, ou bien de la visibilité et de la reconnaissance de leurs travaux. On constate aussi, que B et E, de degré identique, se distinguent par le rapport entre leur degré entrant et leur degré sortant : B « s’intègre » par sa disposition à citer un grand nombre de ses collègues, tandis que E « est intégré » par le grand nombre de citations dont il fait l’objet. 2.2.2.2 La distinction qui précède peut être détaillée. Cette fois, les propriétés relatives aux sommets. Deux sommets sont dits adjacents s’il existe un arc entre eux : dans notre exemple précédent, A et C sont adjacents, A étant le prédécesseur de C, et C le successeur de A. S’ils sont adjacents, la distance71 (ou longueur) entre eux est égale à 1 ; s’ils ne le sont pas, il faut déterminer s’il existe entre eux un chemin, c'est-à-dire s’ils sont reliés indirectement par une suite d’arcs telle que l’extrémité finale de l’un, soit attachée à l’extrémité initiale de l’arc suivant, et que cette suite permette d’aller d’un des sommets à l’autre. Dans notre exemple, B et C ne sont pas adjacents, mais il existe trois chemins entre eux de longueurs différentes : l’un de longueur 2 qui passe par A, un autre de longueur 2 aussi qui passe par E, et enfin le dernier de longueur 3 qui passe par D et E. On dira alors que la distance géodésique de B à C est de 2 (elle correspond à la longueur du plus court des chemins entre eux). Des sommets 68 Les graphes peuvent par exemple, être « signés », en fonction de la nature des relations : la sociométrie a fait un grand usage de cette possibilité. Dans notre cas, au lieu de s’en tenir à la simple présence ou absence d’une citation, nous aurions pu, essayer de déterminer cas par cas si la citation est amicale (+) ou au contraire inamicale (-). Nous aurions pu aussi élaborer un graphe « valué » en affectant une valeur à chaque relation : la théorie des graphes se donne ainsi les moyens de prendre en compte l’intensité des relations, ou la quantité de biens (matériels ou immatériels, comme l’information) qu’elles véhiculent. Dans notre exemple, nous aurions ainsi pu compter le nombre de citations de chacun par chacun, au lieu de nous en tenir à enregistrer la présence d’au moins une citation de tel ou tel collègue. 69 Peut-être il est pertinent de différencier entre un « multi-graphe » et un « graphe simple ». Un multigraphe permet deux sommets reliés par plusieurs arcs tandis que dans un graphe simple, ces deux sommets ne sont liés que par un seul arc. Dans notre contexte, nous parlons de « graphes simples ». 70 Ayant une direction, c’est à dire un sommet de départ et un sommet d’arrivée. Représenté avec des flèches entre sommets. 71 Au sens, nombre d’arcs à parcourir d’un sommet à un autre. 61 peuvent donc être reliés entre eux directement (s’ils sont adjacents) ou indirectement : on dira alors qu’un sommet x est un ascendant du sommet y s’il existe un chemin de longueur quelconque reliant x à y, qui est alors un descendant de x. On voit ici que A est ascendant de tous les autres sommets du graphe, comme B d’ailleurs : A et B sont ce qu’on appelle alors des racines du graphe ; inversement C est un descendant de tous les autres sommets, c'est-àdire ce qu’on appelle une anti-racine (ou co-racine). La notion de chemin est donc fondamentale en théorie des graphes. Elle permet d’examiner des liaisons indirectes entre les sommets ; donc de passer d’une conception « dyadique » (de l’ordre des relations entre paires) à une conception structurale plus globale de l’agencement relatif des sommets : dans notre exemple, nous avons affaire visiblement à un réseau qui s’apparente presque parfaitement à un graphe hiérarchique, c'est-à-dire à un graphe dans lequel il n’y a aucun circuit, sachant que nous appelons circuit un chemin dont l’extrémité initiale coïncide avec l’extrémité finale. En fait, il n’y a dans notre exemple graphe qu’un seul circuit, entre A et B qui se citent mutuellement ; il suffirait que A ne cite pas B, ou que B ne cite pas A, pour le transformer en graphe hiérarchique parfait. Le dernier registre d’outils conceptuels de la théorie des graphes a pour objet la description de certaines propriétés globales des réseaux, à travers en particulier les notions de densité et de connexité. Un graphe se caractérise d’abord, très simplement, par son ordre, c'est-à-dire par son nombre de sommets. Notre réseau de chercheurs constitue ainsi un graphe d’ordre 5. A partir de cette première indication élémentaire, et du décompte du nombre d’arcs, il est possible de caractériser précisément la densité d’un réseau : dans le langage de la théorie des graphes, la densité, par exemple d’un graphe orienté, est le rapport (variant entre 0 et 1) entre le nombre d’arcs observés dans un réseau et le nombre maximum d’arcs possibles dans ce réseau. S’il s’agit d’un graphe d’ordre n, alors le nombre maximum d’arcs possible est n(n1). On mesure donc la densité d'un graphe par le rapport entre le nombre d'arcs de ce graphe et le nombre d'arcs que comporte le graphe complet ayant le même nombre de sommets. Si n est le nombre de sommets, et k le nombre d'arcs d'un graphe, alors la densité de ce graphe est égale à : k d= (1) n(n − 1) Dans notre exemple, sur 20 arcs possibles, 7 sont réalisés, soit une densité de 0.35. Quand la densité d’un graphe est de 1, cela veut dire que toutes les relations possibles existent réellement. Dans le cas d’un graphe non orienté, un graphe dont toutes les arêtes possibles sont réalisées, est un graphe complet ou une clique. A l’opposé de la clique, on trouve un réseau dont la densité est nulle (mais peut-on encore parler de réseau, alors ?). Autrement dit un réseau composé d’éléments parfaitement isolés, n’entretenant entre eux aucune relation. Un graphe, enfin, se caractérise non seulement par sa densité, mais aussi par sa connexité : on dira qu’un graphe est connexe si pour chaque couple de sommets, il existe une chaîne permettant de les relier, ce qui signifie qu’il n’existe aucun sommet isolé des autres. Si un graphe n’est pas connexe, ses parties qui le sont, seront appelées ses composantes connexes. Il est facile de voir que densité et connexité sont des notions différentes : un graphe qui n’est pas connexe, peut être extrêmement dense, par exemple s’il est constitué d’une clique importante et de quelques sommets isolés ; inversement, une simple ligne, composée de sommets reliés chacun seulement à deux sommets adjacents, est connexe, mais peu dense. Notre réseau de chercheurs peut être qualifié de connexe, dans la mesure où aucun chercheur n’est isolé des autres. Mais on parlera ici de connexité simple, dans la mesure il n’existe pas pour chaque couple de sommet un chemin permettant d’aller de l’un à l’autre, dans un sens et 62 dans l’autre (dans le cas contraire, on aurait parlé de graphe fortement connexe) : il est possible d’aller de A à C, mais il n’y a aucun chemin permettant d’aller de C à A. Reprenons rapidement l’exposé des propriétés structurales du réseau fictif de chercheurs qui nous a servi d’illustration pour présenter quelques-uns uns (seulement) des différents concepts analytiques étudiés par la théorie des graphes : s’agit-il d’une communauté extrêmement soudée, dans laquelle chacun cite chacun ? A-t-on plutôt affaire à deux écoles nettement séparées l’une de l’autre, au sein desquelles on se cite, mais où l’on ne cite jamais les chercheurs de « l’autre école » ? Dans notre exemple fictif, c’est plutôt un autre modèle qui se dessine : le graphe est simplement connexe, il n’y a donc pas deux écoles affrontées ; mais sa densité est faible, ce qui n’autorise guère à parler d’une communauté intellectuelle fortement soudée. Surtout, la présence de deux racines et d’une anti-racine rapproche ce réseau de ce qu’on pourrait appeler une hiérarchie : à un extrême, il y a le chercheur C, que nombre de ses collègues citent mais qui ne cite aucun d’entre eux, et à l’autre il y a A et B, qui citent leurs collègues mais qu’on ne cite pas, et qui sont unis toutefois dans l’adversité par le jeu de citations réciproques qu’ils entretiennent. Comment pourrait-on expliquer cette hiérarchie ? La nature de la relation étudiée (la citation) invite à quelques hypothèses, l’une diachronique et l’autre synchronique : peut-être C est-il plus âgé que les autres, peut-être appartient il à une génération de chercheurs plus ancienne, tandis que A et B sont des nouveaux entrants dans la discipline : C ne les cite pas parce qu’au moment où il a écrit, il ne connaissait pas les travaux de ses collègues plus jeunes, qui eux se doivent de citer leurs prédécesseurs. Si au contraire ces cinq chercheurs appartiennent à la même génération, alors peut-être C est-il un chercheur appartenant à une discipline voisine à son domaine de recherche, que les chercheurs A et E importent dans le champ en le citant ? Ou bien au contraire C occupe-t-il une position dominante dans ce champ, qui oblige les autres à le citer sans que lui ait à citer les autres ? 2.2.2.3 Représentation matricielle d’un graphe Notre exemple de la Figure 2-4 peut servir aussi à montrer que de l’association entre les deux apports de la théorie des graphes, et ses concepts, sont en réalité fragiles : dans un graphe d’ordre 5, il est encore relativement facile, de trouver les racines, les circuits, … ou encore de dire s’il est simplement ou fortement connexe. Imaginons maintenant que l’on décide d’étudier le réseau des spécialistes de l’analyse des réseaux à partir des références bibliographiques figurant à la fin de leurs ouvrages. La bibliographie de Wasserman et Faust (Wasserman et Faust, 1994) fait plus de 40 pages et comporte plus de 900 références… Le graphe qui en résulterait, risquerait fort d’être parfaitement illisible. C’est un autre domaine des mathématiques qui va aider à surmonter cet obstacle : il s’agit de l’algèbre linéaire et du calcul matriciel. Quelques applications des matrices aux données relationnelles sont présentées ici de façon très rapide. C’est à Harvard, en particulier sous l’impulsion de Harrison White et de ses associés, que se produit l’avancée qui conduit à l’élaboration des principes, des concepts et des outils de l’analyse des réseaux telle que nous la connaissons aujourd’hui, à partir du recours systématique à la représentation matricielle des données relationnelles72. L’idée fondamentale consiste à représenter un graphe, c’est-à-dire un ensemble de sommets et de relations (orientées ou non) entre ces sommets, par une matrice carrée, appelée « matrice d’adjacence ». Cette matrice est un tableau de chiffres qui dans le cas qui nous 72 Sur Harrison White et le groupe de Harvard, voir Mullins (1973). 63 intéresse, comporte autant de colonnes que de lignes. Dans cette matrice, notée M, chaque ligne correspond à un sommet du graphe, de même que chaque colonne, dans le même ordre que celui qui a été choisi pour les lignes. On dit que la matrice M est de terme général me f , ce qui signifie qu’on y trouve le nombre me f à l’intersection de la ligne e et de la colonne f Par convention, dans une matrice d’adjacence, me f = 1 si le sommet e est un prédécesseur du sommet f, c'est-à-dire s’il y a une relation de e vers f ; dans le cas contraire, me f = 0. Dans l’exemple que nous avons utilisé, le 1 à l’intersection de la ligne A et de la ligne C traduit le fait que A cite C. Complétons un peu cet exemple pour le rendre plus « réaliste », en ajoutant que chacun des cinq chercheurs se cite lui-même, ce qui fait que dans la matrice d’adjacence correspondante, qui est une matrice carrée binaire d’ordre 5, la diagonale ne contient que des 1 : Figure 2-5 Matrice d’adjacence d’un graphe orienté non valué d’ordre 5. Tous les types de graphes peuvent être traduits sous forme de matrices d’adjacence : si le graphe n’est pas orienté, la matrice est symétrique, c'est-à-dire que la valeur figurant dans la cellule (e, f) est identique à la valeur (f, e); si le graphe est valué, la valeur figurant dans chaque cellule correspondra à la valeur de chaque arc ; si le graphe est signé73, il est possible, soit de figurer les rejets par la valeur -1, soit de produire deux matrices binaires différentes, l’une pour les choix et l’autre pour les rejets. (1) (2) (3) Figure 2-6. Représentation d’une même matrice. L’ordre des lignes et des colonnes est conventionnel, comme l’est la disposition des sommets dans un sociogramme. Il est possible de le modifier en procédant à des permutations de la matrice initiale. Dans la Figure 2-6(1), nous avons mis le sommet C en dernière position, pour refléter l’ordre hiérarchique que nous avions cru percevoir dans le sociogramme. Cette hiérarchie, il est possible de la vérifier dans la matrice d’adjacence : on peut tout d’abord constituer un bloc formé des cellules de la matrice correspondant aux 73 Une matrice signée peut contenir des valeurs négatifs ou positifs selon ce qu’elle doit représenter (accepter/refuser, aimer/ne pas aimer, …). Nous ne les utilisons pas dans notre contexte. 64 relations entre les sommets A et B, dont nous avons vu qu’ils formaient une clique, ce qui est confirmé par le fait que dans le bloc correspondant, il n’y a que des 1 (Figure 2-6(2)). A partir de la matrice initiale d’ordre 5, il est ensuite possible de constituer une matrice « bloquée » d’ordre 4, en parce que A et B ne forme qu’un seul « sommet ». Plusieurs « recodages » sont possibles : ici, nous avons choisi de coder 0 les blocs nuls (ne comportant que des 0) et de coder 1 tous les autres blocs. Dans le cas des relations entre le bloc (A,B) et les autres sommets, cela signifie que nous considérons que le couple formé par ces deux chercheurs fait référence à l’un de ses collègues si au moins l’un d’entre eux le cite. La matrice bloquée ainsi obtenue (Figure 2-6(3)) est dite triangulaire, ce qui signifie que l’un de ses triangles est nul - en l’occurrence celui qui est situé en dessous de la diagonale. Une telle matrice triangulaire correspond à un graphe hiérarchique. Nous retrouvons sous forme d’image matricielle la hiérarchie dans laquelle, à un extrême, le couple (A,B) cite tout le monde sans être cité par personne, et à l’autre extrême le chercheur C est cité par presque tous, sans citer personne en retour. Nous n'avons fait que reproduire, sous forme matricielle, des résultats déjà obtenus à partir du sociogramme. Cependant, on devine aisément que la matrice facilitera grandement ce travail dans le cas de graphes d’ordre élevé, et grâce aux nombreux logiciels qui permettent d’automatiser les procédures de permutation des sommets et de modelage des blocs (par exemple, UCINET). De la même façon, il sera très facile de calculer le degré d’un sommet (qui correspond à la somme des valeurs figurant dans la ligne et dans la colonne qui lui correspondent), ou la densité d’un graphe (somme de toutes les valeurs contenues dans la matrice, rapportée au nombre de cellules, moins celles de la diagonale si on considère que les relations correspondantes n’ont aucun sens). L’avantage est encore plus décisif, et visible même avec un graphe d’ordre réduit comme celui de notre exemple, dès lors que l’on s’intéresse non plus seulement à l’adjacence des sommets, mais aux chemins indirects entre sommets, à leur présence ou à leur absence, à leur longueur. Sans entrer dans les détails, contentons-nous de poser ici que pour savoir s’il existe un chemin de longueur n entre deux sommets, il suffit d’élever la matrice d’adjacence à la puissance n : si la valeur de la cellule est 0, cela signifie qu’il n’y a pas de chemin entre les deux sommets correspondant. Ainsi, à partir de la matrice d’adjacence d’un graphe d’ordre k jusqu’à la puissance k, il est possible de savoir si les sommets sont reliés entre eux par un ou plusieurs chemins de longueur quelconque, quelles sont les distances géodésiques entre chaque paire de sommets, quels sont les sommets isolés, ou encore d’identifier les différentes composantes connexes du graphe74. Autrement dit, la représentation d’un graphe d’ordre élevé par une matrice d’adjacence, en permettant d’effectuer un grand nombre de transformations et de calculs, offre un moyen moins intuitif mais beaucoup plus puissant que la simple représentation graphique pour dégager certaines propriétés structurales des réseaux. Comme nous avons commencé de le voir dans ce qui précède, des expressions comme : réseau de relations, densité, clique, popularité, isolement, prestige, etc., en reçoivent une définition mathématique opératoire, qui permet d’en construire des indicateurs, de les mesurer empiriquement et donc de tester des hypothèses ou vérifier des propositions auparavant infalsifiables du fait de leur contenu largement métaphorique. 74 Le propos n’est pas ici, d’entrer dans les détails des principes du calcul matriciel et de l’algèbre linéaire. 65 2.3 Conclusion Nous avons présenté le contexte de notre approche. Nous en résumons les concepts clés sur la Figure 2-7. Les mots en italique indiquent des possibles « effets de bord » sur des domaines connexes. Figure 2-7. Mots-clefs de notre approche. Nous voyons l’importance d’appliquer dans la conception de réseaux sociaux médiatisés les concepts psychosociaux et plus spécifiquement, les analyses des réseaux sociaux. Ceci parque que l’on constate qu’avec le développement des technologies de l ‘information et de la communication, les réseaux sociaux jouent un rôle l’important dans l’efficacité et la réactivité de la diffusion de l’information. De cette façon, nous avons exposé, l’apparition de différents dispositifs sur le Web permettant le groupement de gens autour de sujets d’intérêt. Cependant, ils posent encore des problèmes relatifs à la gestion de l’information. Une réponse à la surcharge informationnelle de tels systèmes a été les systèmes de recommandation. Nous avons exposé leurs différentes techniques algorithmiques. Nous avons décrit également les différentes propositions d’hybridation de ces systèmes. L’idée est toujours de mieux recommander aux utilisateurs. Cependant il reste encore du travail à faire pour que de telles recommandations soient pertinentes. Des approches récentes ne cherchent de la pertinence uniquement à partir d’algorithmes et d’hybridations. Elles commencent à se rendre compte de l’importance des qualités humaines que des recommandations devraient tenir. Nous sentons donc la nécessité d’appliquer des nouvelles théories, comme par exemple l’influence des phénomènes psychosociaux et d’autres sujets inhérents, comme le problème du respect du caractère prive de l’information. Celles-ci mettent en évidence des besoins en analyses sociales. Différentes recherches ont constaté que les personnes préfèrent notablement des recommandations provenant des amis ou d’experts plutôt que le filtrage automatique (Adamic, 2000-url ; Shardanand et Maes, 1995). D‘autres ont constaté qu’une manière d’obtenir de l’information (ayant un premier avis, même personnel) est à travers de la gestion de favoris 66 (Delgado et al. 2001 ; Lawlor, 2000 ; Andrews, 2000 ; Key, 2000 ; Kanawati et Malek, 2000). Ces projets ont montré que les gens reconnaissent comme plus fiables des favoris déjà lus par d’autres personnes ayant les mêmes intérêts, que ceux qu’ils trouvent via les logiciels. Cependant, dans les types de systèmes décrits antérieurement, il y a d’autres problèmes. Entre autres, citons les passagers clandestins. Il est très difficile de donner l’envie de coopérer dans des communautés d’intérêt (Markoff, 2000). Pour cela il est très important de promouvoir des moyens pour développer la conscience de la réputation et de la confiance. Ils peuvent permettre que les personnes coopèrent en partageant leurs avis sur d’autres personnes. Ceci génère une meilleure performance (les personnes maximisent leur performance individuelle) sur ceux qui ne veulent pas collaborer (Sen et al. 2002). Un contexte non informatique s’avère importante : le socio-psychologique. Plusieurs études ont montré que pour rassembler de l’information et de l’expertise dans une organisation, le moyen le plus efficace est d’utiliser les réseaux simples de collaborateurs, c’est à dire, des collègues et des amis (Garton et al. 1997). Nous nous efforçons donc d’appliquer ces travaux pour inciter les personnes à participer dans ces types d’organisations en réseau. Nous dissocions donc deux niveaux de participation dans de tels réseaux, selon la finalité de la personne, individualiste ou motivée : Lorsqu'il a une finalité individualiste, l'individu a une démarche de type « économiste ». Il va rechercher un bénéfice individuel au fait de contribuer, participer à un réseau social virtuel. Lorsqu'il a une finalité motivée ou identitaire, l'individu n'utilise plus le réseau comme un moyen pour parvenir à ses fins. Il est alors guidé par une volonté d'appartenir au groupe, au travers de relations de confiance, qui lui permettent de développer une estime de lui-même positive. Si avec une participation individualiste les individus évaluent des chemins alternatifs pour obtenir au plus bas coût la meilleure ressource (Hall, 2001), dans une participation motivée, où les ressources peuvent être considérées comme un bien public, il a été prouvé que les personnes qui sont réticentes à contribuer, sont désireuses de partager ses ressources quand ses collègues leurs demandent de façon informelle (Dixon, 2000). De ce fait, l’échange est motivé par une obligation morale et par un intérêt communautaire. Nous appliquerons ces principes à un outil du type gestionnaire de favoris qui doit permettre la prolifération de relations (à l’intérieur de son réseau social) et qui doit disposer des meilleurs ressources d’information. Les membres ayant un intérêt communautaire veulent s’établir eux-mêmes comme des experts (Wasko et Faraj, 2000), pour cela, ils demandent toujours les moyens de savoir ou de distinguer leur acceptabilité vis à vis des autres. L’outil doit donc permettre cette conscience et doit rester toujours disponible et consultable. Il doit permettre également d’avoir des chemins d’accès vers d’autres communautés d’intérêt, et de générer conjointement des nouvelles ressources. Nous pensons qu’une manière d’étudier un tel système est d’utiliser les concepts de l’analyse de réseaux sociaux. Nous prétendons influencer les topologies des réseaux sociaux médiatisés formées par les relations entre ses membres, pour permettre aux gens de diffuser efficacement de l’information, la mieux adaptées aux besoins des membres des réseaux. 67 L’état de l’art de travaux en psychologie sociale nous a permis de dégager différents résultats sur l’engagement et la motivation d’utilisateurs à partager et à coopérer au sein de réseaux sociaux. Nous voulons influencer cet ensemble intégré de concepts avec la théorie de systèmes de filtrage collaboratif afin de proposer des mises en relation entre personnes. Les résultats de notre état de l’art forment ainsi, la base des hypothèses de notre approche de régulation d’un média social. Celles-ci sont présentées dans la partie suivante. 68 Deuxième Partie - Un Service Web de mise en relation par dynamiques sociales d’échanges d’informations Chapitre 3. Notre Approche Chapitre 4. Validation de Notre Approche 69 70 3 Notre Approche Résumé du chapitre Tout d’abord, nous présentons le cadre théorique de notre approche, la définition des concepts clés vis à vis de notre état de l’art et de nos théories. Ces dernières incluient nos postulats, nos hypothèses à vérifier, nos principes et nos mécanismes. Nous introduisons ces grandes lignes de notre approche proposée sous forme d’un système de partage de références sur un réseau social médiatisé. Puis nous développons ces lignes avec ces concepts et théories dans les mécanismes proposés. L’utilisateur a toujours besoin d’informations pertinentes75 et structurées. Nous introduisons notre mécanisme de gestion d’information personnelle avec des dispositifs intéressants. L’utilisateur souhaite toujours élargir ses sources d’informations. Nous lui proposons des « contacts » susceptibles de lui apporter cette diversification enrichissante. Ceci grâce à notre mécanisme de recommandation de contacts. Nous développons des indicateurs sociaux pour la dynamique de ces mécanismes. Ils permettent à l’utilisateur de developper des stratégies d’obtention d’information « pertinente », et de maintenir une « conscience sociale » vis à vis des autres. Nous expliquons cette approche comme génératrice de réseaux sociaux, permettant de développer des objectifs informationnels particuliers en motivant les utilisateurs à participer dans une dynamique d’échanges d’information. Nous présentons nos idées techniques, théoriques et fonctionnelles. Dans ces dernières, nous montrons un aperçu (navigation, gestion d’information personnelle et gestion de contacts) de notre système76 SoMeONe, ainsi que son architecture. omme nous l’avons introduit dans la première partie, beaucoup de services sont développés pour aider l'utilisateur à naviguer dans le dédale d'informations du Web. Nous proposons de résoudre quelques-unes des problématiques posées par ces services. Nous nous intéresserons plus particulièrement aux systèmes de recommandations et aux technologies associées de filtrage collaboratif. Ces systèmes sont reconnus dépendants des motivations des utilisateurs à fournir des commentaires (Lueg, 1997 ; Maltz et Enhrlich, 1995 ; C 75 De manière très générale, nous entendons par « information pertinente », celle qui satisfait les attentes informationnelles d’une personne. 76 Par « système » il faut comprendre notre proposition : un outil développé pour l‘utilisateur selon l’approche issue de notre travail de recherche. 71 Herlocker et al. 2000) et donc de leurs comportements (Adar et Huberman, 2000). Ces comportements sont influencés par les « liens » ou relations que les utilisateurs forment entre eux (amitié, profession, etc.), comme le justifie la théorie des réseaux sociaux détaillée dans la section 2 de la première partie. Nous pensons qu’en analysant la structure (topologie du réseau) formée par ces liens, nous pouvons influencer l’efficacité des flux d’information échangés entre utilisateurs. ⋅ ⋅ ⋅ Nous présentons ces idées dans ce chapitre, dans trois sections principales : La première section aborde le cadre théorique de notre approche. Les concepts au cœur de notre approche et nos théories sous forme de principes, d’hypothèses et de mécanismes. La deuxième section concerne la description détaillée de ces concepts et de ces théories : les grandes lignes de notre approche. Il s’agit de mettre en place un gestionnaire d’information personnelle intéressant, pour motiver à la participation dans des dynamiques d’échange d’information. Ceci avec l’aide d’un recommandeur de contacts qui s’appuie sur la dynamique du réseau proposé par notre approche. La dernière section décrit l’application de cette théorie dans un prototype de service nommé SoMeONe, conçu comme un service Web de mise en relation à travers l’échange d’informations. Nous présentons ses fonctionnalités avec un aperçu de la navigation, de la gestion d’information personnelle, de la gestion de contacts, ainsi que l’architecture du système. 72 SSeeccttiioonn 11.. C Caad drree tthhééoorriiqqu uee d dee nnoottrree aapppprroocchhee Nous avons souhaité construire en premier, un cadre théorique issu de nos analyses de l’état de l’art, qui permette de rendre compte de l’ensemble de nos hypothèses, de nos principes et des concepts socio-informatiques qui jouent un rôle important dans la mise en oeuvre de notre approche. 3.1 Concepts de base Notre approche utilise la théorie d’analyse des réseaux sociaux présentée dans notre état de l’art. Cette théorie permet de dépasser l’opposition entre une approche identitaire77 et une approche individualiste78, et se positionne dans le paradigme de l’analyse structurelle (Burt, 1982 ; Angot et Josserand, 1999). Elle privilégie les données relationnelles et se focalise sur la structure ou le cadre constitué par les interactions des gens pour comprendre les phénomènes sociaux ou comportementaux. Cette perspective considère que les gens font partie inhérente de réseaux de relations sociales en dehors desquels on ne peut pas comprendre leur comportement (Granovetter, 2000). La position d’un individu dans ses groupes d’appartenance se pose comme un facteur influant fortement sur ses comportements (Burt, 1982). D’où l’importance d’intégrer des concepts de régulation sur un réseau social médiatisé. 3.1.1 Réseau social médiatisé Nous considérons un média social comme le moyen de mettre en relation les personnes. Ainsi, nous appelons réseau social médiatisé, le réseau social qui se constitue lors de l’usage d’un media social. Par ailleurs, nous adoptons cette terminologie qui étend la perspective de J. Preece sur les communautés en ligne : « une communauté en ligne79 est un groupe de gens partageant des intérêts communs, des idées, des opinions, et des sensations dans les réseaux collaboratifs » (Preece 2000). 3.1.2 Régulation Le concept de régulation dans notre approche, concerne tout ce qui a trait à l'organisation des membres d’un réseau social médiatisé : constitution et vie du réseau, définition de droits et devoirs au sein du réseau, de règles de fonctionnement et de comportement ; ainsi que l’apprentissage et la mise en œuvre de ces règles, droits et devoirs80. De cette façon, elle donne un cadre aux interactions potentielles entre les différents membres du réseau. 77 Dans une approche identitaire, l'individu n'utilise plus le réseau comme un moyen pour parvenir à ses fins. Il est alors guidé par une volonté d'appartenir au groupe, au travers de relations de confiance, qui lui permettent de développer une estime de lui-même positive. 78 Dans une approche individualiste, l'individu a une démarche de type économiste. Il va rechercher un bénéfice individuel au fait de contribuer, participer à un réseau social virtuel. 79 Egalement appelée communauté virtuelle. 80 Dans cette perspective, le réseau peut apparaître soit fragile, à cause des conflits possibles, soit paralysé par les stratégies des participants cherchant à défendre leurs positions. Quels dispositifs permettent aux participants de se coordonner ? Quels sont les mécanismes permettant la construction des relations ? Par ailleurs, la perception des relations et de la composition de réseaux diffère d’un participant à l’autre (Krackhardt, 1987, 1990 ; Krackhardt et Hanson, 1993). 73 La régulation permet l’organisation, définit les droits, les devoirs et les règles de fonctionnement dans un réseau social médiatisé. Il s’agit donc d’établir un guide comportemental dans la dynamique d’interactions sous-jacentes du réseau et d’analyser les modalités par lesquelles les participants trouvent des moyens de collaborer, malgré des intérêts généralement divergents. 3.2 Objectifs Notre objectif est de recommander des contacts plutôt que de l’information. Pour cela nous nous intéressons fortement à l’analyse de la structure d’un réseau social médiatisé pour valider l’efficacité de flux d’information. De cette façon nous ne proposerons pas des contacts par le contenu informationnels qu’ils puissent gérer mais plutôt par leur position dans le réseau social médiatisé. De cette façon, parmi les pistes envisageables dans l’état de l’art, nous choisissons d’aborder les problèmes suivants : La motivation à échanger. Pour qu’un réseau social puisse fonctionner il faut de la motivation de la part de ses membres. Nous pensons qu’en permettant une topologie qui facilite le flux d’information, en minimisant des facteurs négatifs (comme la prolifération des membres gourous, entre autres) et en maximisant les facteurs positifs (comme l’obtention de l’information adéquate rapidement) nous pouvons augmenter cette motivation. Nous analysons la motivation dans notre première évaluation (§4.1.4.B). L’engagement à participer. Même avec motivation à participer dans la dynamique de d’échanges d’information du réseau, sans engagement, cette motivation s’affaiblit. En effet, il s’agit d’analyser les usages de notre proposition afin de valider l’adoption et la fidélité au système issu de notre approche. Nous analysons ce critère dans notre première évaluation (§4.1.4.C). La pertinence de l’information échangée. Même si la topologie du réseau est optimale du point de vue du flux d’informations, si l’information obtenue ne correspond pas aux besoins des utilisateurs alors le réseau social ne survivra pas. Nous pensons que la mise en relation avec des contacts de qualité, permettra de reconnaître la pertinence de l'information. En effet, si les utilisateurs suivent des recommandations et échangent réciproquement des informations, l’information échangée peut être considérée pertinente. Par contact de qualité il faut entendre le possesseur d’information adéquate. Bien évidement, il existe beaucoup de moyens d'analyser la pertinence des informations échangées. Le notre sera validé par le fait de maintenir une relation ayant été recommandée et le classement des informations échangées dans sa propre taxonomie. Nous analysons ce critère dans notre première évaluation (§4.1.4.B). 3.3 Postulats Dans l’ensemble de nos six postulats, les deux premiers portent sur deux idées liées : les recommandations humanisées et la confiance. Nous détaillons les six ci-après : [po01] Les utilisateurs préfèrent être recommandés par un humain, plutôt que par un logiciel. Plusieurs études ont montré que pour rassembler de l'information et de l'expertise dans une organisation, le moyen le plus efficace est d’utiliser simplement des réseaux de collaborateurs, c’est à dire, des collègues et des amis (Garton et al. 1997 ; Dixon, 2000). Ardichvili confirme cette affirmation : ces 74 réseaux sont « une source d’information privilégiée qui favorise le partage de ressources » (Ardichvili 2002). [po02] Si les utilisateurs ont confiance alors ils participent plus. Les sources d’information sont mieux acceptées venant d’humains suivant des phénomènes comme « le bouche à oreille » et génèrent la confiance dans l’information obtenue. Une information (qui est vue comme un bien) est considérée de haute qualité si elle est d’abord appréciée par une personne « réputée » dans le contexte. Elle peut être également vue comme un bien d’expérience (Gensollen 2003-url) et pour cela considérée meilleure qu’une information fournie par un logiciel. [po03] La nature d’un utilisateur est individualiste. Sa participation est guidée par l'intérêt individualiste à trouver l’information dont il a besoin. Dans la démarche économiste relative aux réseaux sociaux virtuels, le fait de contribuer est considéré comme un moyen servant un fin individualiste, l’obtention d’information. Ainsi, un utilisateur a des comportements collectifs mais dans le but d’atteindre ses propres objectifs (Spears et al. 2000). [po04] La motivation des individus à participer à des échanges est fonction du rapport entre production / consommation d'informations, qui doit être jugé équitable. Selon la théorie de l'équité (Adams, 1965), les individus souhaitent retirer d'une relation autant qu'ils y investissent. Lorsqu'ils perçoivent une infériorité des avantages par rapport à leurs contributions, l'inégalité peut alors provoquer la rupture complète des relations d'échange. Dans la théorie de l’échange social, plus les possibilités d’échanges sont nombreuses, plus la fréquence de coopération (qui va permettre la motivation), va diminuer avec le temps (Nahapiet et Ghoshal, 1998). [po05] Les collections d’informations personnelles dans un réseau aboutissent à la construction d’une connaissance collective. Ceci permet d’obtenir une information de qualité. Le fait de faciliter un moyen de gestion d’information personnelle permet à la collectivité (membres du réseau) de stocker son information (connaissance). Une même information peut être utilisée/perçue de différentes façons. Le fait de l’échanger et/ou de la partager et de la stocker provoque une accumulation de connaissances sur cette information, donc la mise en commun de perceptions, et de délibérations. En ce sens, Jean-Yves Prax, affirme qu’une « organisation » (notre réseau social) n’est pas tant un moyen de « traitement de l’information » mais bien de création de connaissance collective (Prax, 2003). [po06] Le besoin de reconnaissance inhérente à l’individu l’amène à la recherche d’une appartenance à un groupe. En conséquence, il est nécessaire d'insuffler une dose de conscience sociale dans le réseau. Selon la théorie de l'identité sociale (Turner, 1982), le fait d'appartenir à un groupe devient une motivation suffisante à s'engager et à participer. Dans cet engagement, il émerge le concept de réputation. Ceci est non-contractuel et évoque la variation et l’adaptation du comportement des utilisateurs, selon le comportement d’autres dans le groupe, pour s'y intégrer et en obtenir bénéfices/satisfactions. De ce fait, nous offrons une conscience sociale afin de montrer le comportement des autres dans le réseau. Les utilisateurs l’utilisent pour décider comment ils vont se comporter afin de conduire des transactions informationnelles et de continuer dans 75 le réseau. Ce sujet est validé par des théories de réseaux sociaux (Granovetter, 1985), par des théories économistes (Kreps et Wilson, 1982 ; Wilson, 1985 ; Kreps, 1990) et également pour Desalles (2001). De ce fait, ce type de conscience sociale permet le monitorage de sa position dans le réseau et son degré de coopération/intégration vis à vis des autres. 3.4 Hypothèses Nous avons décidé d’intégrer trois hypothèses afin de les vérifier à travers les deux évaluations développées au chapitre 4. Nous les détaillons ci-après : [h01] Les membres d’un réseau social apprécient d’échanger des ressources. La mise en place d’une dynamique (régulée) d’échanges d’information dans un réseau social médiatisé, facilite les échanges d’information entre les membres du réseau. [h02] L’utilisation des indicateurs sociaux est importante pour la mise en relation de personnes. Nous avons construit un ensemble d’indicateurs sociaux pour appuyer la mise en relation de personnes. Ils vont nous permettre d’influencer des qualités globales d’efficacité d’un réseau social médiatisé. [h03] La qualité globale d’un réseau social dépend de sa structure. Avec nos indicateurs sociaux nous pouvons vérifier des qualités globales d’efficacité d’un réseau social médiatisé. Ces qualités globales dépendent de sa structure. 3.5 Principes Les hypothèses décrites antérieurement nous ont permit de définir deux principes importants : [p01] Pour avoir des recommandations pertinentes nous construisons un réseau de diffusion entre personnes. Nous ne proposons pas une approche pour des systèmes purement de diffusion d’information. Il s’agit d’établir une dynamique où les recommandations sont des contacts susceptibles de gérer l’information pertinente. Notre approche ne porte pas sur la recommandation d’information mais de contacts. [p02] Pour obtenir la confiance nous permettons le contrôle de la diffusion d’information. Il est fort nécessaire de donner le contrôle sur les droits de visualisation sur l’information personnelle vis à vis des autres membres du réseau. En respectant le désir de diffusion contrôlée, les membres d’un réseau social médiatisé auront confiance au média proposé81. [p02bis] Les personnes ont confiance dans les personnes plutôt que dans un système. Il est nécessaire de faciliter l’échange entre personnes avec le média proposé[po01; po02]. 81 Le média social dont nous parlons fait référence au système où se développe le réseau social médiatisé. 76 [p03] Pour motiver, il faut diffuser pour se maintenir dans le réseau. Pour se maintenir dans le réseau, il faut diffuser ou échanger une partie de son information personnelle. Les utilisateurs ne recevront des recommandations que s’ils en diffusent. Il est prouvé qu’il doit exister un équilibre des échanges sinon les producteurs vont cesser de participer : il n’y aura aucune tolérance vis à vis des passagers clandestins (Dyer et Nobeoka, 2000; Weisband et al. 1995). Les utilisateurs qui ne veuillent pas diffuser seront isolés jusqu’à disparaître du réseau. Dans un réseau où les échanges sont équilibrés, les membres sont motivés à participer [h01]. [p04] Pour recevoir de l’information de « qualité » il faut être en relation avec des personnes de « qualité ». Pour avoir des recommandations de contacts de « qualité » il faut avoir une information personnelle de « qualité ». Dans la théorie de l’échange social et des relations réciproques (Thibault et Kelley, 1952/1959 ; Cook et al. 1983), diverses recherches ont mené à l’idée de « connaissance potentielle ». Tout le monde sait quelque chose d'utile et est donc un partageur potentiel de connaissance (Merali, 2000 ; Héber-Suffrin, 1992/1998 ; Héber-Suffrin, 1993; Perriault, 1996). Cela signifie qu’un utilisateur possède de l’information potentiellement de bonne qualité. Cependant, s’il diffuse une information de mauvaise qualité, le principe énoncé signifie qu’il devrait voir ses échanges se réduire. Il conviendra donc d’informer largement les utilisateurs de ce principe sous-jacent. D’après Hargadon, Wasko et Faraj (Hargadon, 1998; Wasko et Faraj, 2000) cela devrait aussi motiver les plus timides à prendre confiance et à échanger leur information. [p05] En choisissant les contacts à recommander on peut influencer la topologie du réseau social et sa qualité globale. Il est possible de choisir les contacts à recommander selon leur position dans le réseau social. Le chois peut avoir un impact sur la topologie du réseau et selon [h02] aussi sur sa qualité globale. 77 78 SSeeccttiioonn 22.. L Leess ggrraannd deess lliiggnneess d dee nnoottrree aapppprroocchhee L’analyse par les réseaux se concentre sur des données qui concernent les relations (liens) plutôt que les attributs des membres (leurs profils). Les liens entre membres ne sont pas assimilables à un attribut individuel, ils sont une propriété du réseau social (Burt, 1982). Nous considérons qu’ils participent à la définition du profil social des individus. Nous avons l’intention de constituer une approche facilitant la mise en place d’un réseau social médiatisé et « régulable ». L’idée est de permettre la gestion d’information personnelle en intégrant des « dispositifs efficaces82 » de classification pendant la navigation. Il s’agit aussi de favoriser la création d’une dynamique en réseau, qui motive à la participation aux échanges d’information, de manière contrôlée par l’utilisateur : c’est lui qui décide de ses contacts et les moyens83 pour influencer le flux d’information vers lui. Figure 3-1. Les outils contrôlés par les utilisateurs du réseau social médiatisé. Les membres du réseau participent à une dynamique d’échanges d’information. Nous venons de présenter des concepts de notre approche qui vont nous servir à la construction d’un tel système. L’utilisateur aura deux gestionnaires : le gestionnaire d’information personnelle et le gestionnaire de contacts. Ce dernier sera influencé par le recommandeur de contacts, voir Figure 3-1 ci-dessus. Ce recommandeur de contacts influencera la dynamique d’échanges d’information dans un réseau social médiatisé. Cette mécanique est valisée par la mise en place de nos mécanismes de régulation. De cette façon, nous avons construit en premier, six postulats selon notre état de l’art afin de prendre en compte la nature, les préférences et les motivations des utilisateurs quand il s’agit de participer dans une dynamique en réseau. Puis, à partir de ces postulats et des objectifs de notre approche sur la recommandation des contacts plutôt que de l’information, 82 Par « dispositifs efficaces » nous entendons les outils offerts à l’utilisateur, qu’il doit trouver utiles et faciles d’adopter dans son usage quotidien. 83 Nous appelons stratégies d’obtention d’information aux moyens qu’un utilisateur a pour influencer le flux d’information vers lui. 79 nous avons introduit trois hypothèses de base afin de les vérifier dans le contexte des évaluations de notre approche ; ces hypothèses doivent nous aider à évaluer les facteurs qui motivent les utilisateurs à échanger de l’information personnelle. Finalement, l’ensemble de postulats et des hypothèses nous a permis d’établir les six principes de base de notre approche. A travers ces principes nous pouvons expliquer les mécanismes de régulation que nous introduisons et pour lesquels nous avons développé une série d’algorithmes de recommandation de contacts ; ces principes nous permettent également de valider nos hypothèses. Donc, nous allons développer ces propositions théoriques (postulats, hypothèses et principes) sur notre proposition d’un système de partage de références sur un réseau social médiatisé, qui concentre les deux gestionnaires que nous avons déjà introduit (gestionnaire d’information personnelle et gestionnaire de contacts). 3.6 Système de partage de références sur un réseau social médiatisé Avant toute chose, notre approche permet la gestion d’informations personnelles, tel que les outils du type gestion des favoris. Les internautes produisent quotidiennement de l’information (personnelle) : des photos, des loisirs, des documents de travail ou de recherche, etc. Nous voulons permettre l’organisation de cette information (dans des éléments similaires aux classeurs) et éventuellement de l’annoter pendant ou après la navigation. Une approche développant un type de gestionnaire de favoris qui permet de classer et d’annoter des informations personnelles. Nous complétons ce type de gestion d’information personnelle en introduisant des listes de diffusion84 (Andrews, 2000-url ; Kanawati et Malek, 2000 ; Trevor, 2001). L’idée est que chaque individu puisse contrôler à tout moment, qui peut accéder à ses informations. Nous considérons ces informations personnelles comme constituant le profil individuel de l’utilisateur. De cette manière, notre concept de liste de diffusion diffère de celui des systèmes de listes de diffusion qui se trouvent sur le Web. Pour nous, une liste de diffusion est le moyen de permettre à des personnes choisies par l’utilisateur de visualiser ses informations. Avec ces listes, nous aidons les individus à exploiter leurs réseaux de relations85 afin de trouver et/ou de filtrer l’information dont ils ont besoin. Le moyen dont chacun exploit son réseau de relations, définit le profil social86 de l’individu. Ainsi, le profil social représente la position des individus vis à vis des autres, dans le but d’obtenir de l’information adaptée à leurs intérêts. Notre approche permet à l’utilisateur de contrôler à tout moment, qui peut visualiser lesquelles de ses informations : contrôle du réseau de relations. Dans l’exemple de la Figure 3-2 ci-dessous, le réseau de relations de Carlo est Michel et Laurence. Il leur a donné le droit de visualisation de son information, en ajoutant leurs 84 Appelés également listes de distribution. Les personnes avec lesquelles un utilisateur échange des informations. 86 Nous entendons par profil social, la position d’un utilisateur dans le réseau vis à vis des autres, par exemple, si l’utilisateur est altruiste (parque qu’il permet que les autres visualisent ses informations personnelles), passager clandestin (les autres lui ont donné la permission de visualisation mais il ne le fait pas en retour), etc. 85 80 identifiants87 à la liste de diffusion de « Mon Projet ». « Mon Projet » correspond au nom assigné à un des éléments qui constituent sa classification personnelle d’information (ou favoris). Nous l’appelons topique chaque élément de cette classification. De cette façon, Michel et Laurence deviennent les contacts de Carlo pour son topique « Mon Projet ». Dans cet exemple, les listes de diffusion pour les autres topiques de la classification de Carlo, sont vides. Figure 3-2. Les informations personnelles sont classées dans une classification construite par l’utilisateur. Chaque élément de la classification, que nous appelons topique, peut avoir une liste de diffusion associée, contenant les noms de contacts pouvant visualiser l’information contenue. Cette dernière contient des « liens » ou des documents accessibles sur le Web. Les listes de diffusion visent à utiliser l’intelligence distribuée des gens producteurs d'informations en leur permettant de la mettre à disposition de leurs « contacts88 ». Elles permettront la gestion de contacts ciblés. Nous développons un type de réseau où l'information navigue d’un utilisateur à un autre, plutôt que d'avoir un utilisateur naviguant d'information en information. Nous appelons ce réseau « Toile de Personnes » (Plu et al. 2003). Nous proposons donc un nouveau type de réseau social : le réseau social médiatisé (§3.1 ; §3.6 ; §3.11). Ce réseau social médiatisé doit se construire entre utilisateurs dans une dynamique que permet la mise en relation de membres du réseau pour échanger une information de qualité89 adaptée à chaque membre[po05]90. Cette mise en relation sera faite grâce au recommandeur de contacts que nous proposons. 87 Du point de vue du système, l’utilisateur ajoute des identificateurs de contacts et non leurs noms. Nous appelons « contacts » les personnes ayant droit de visualisation de l’information produite, soit parce qu’il préexiste une relation entre eux (amitié par exemple), soit parce qu'une relation est envisageable. 89 De façon générale, nous comprenons par information de qualité, celle qui grâce à une dynamique particulière, permet l’accumulation d’avis de personnes. Ces avis ne doivent pas être nécessairement des annotations des utilisateurs. Il suffit que l’information passe de personne en personne, pour que l’information soit considérée vis-à-vis des autres. 90 Rappel : la notation entre parenthèses carrée, est une manière de référencer une hypothèse [h] ou un critère [c] ou un mécanisme [m], décrits dans ce chapitre. 88 81 Notre approche développera un réseau social médiatisé permettant l’échange d’information de qualité et adaptée à chaque membre du réseau. La mise en relation nécessaire à ces échanges sera assurée par un recommandeur de contacts. ⋅ ⋅ ⋅ Ainsi, notre recommandeur de contacts s’intégrera au réseau social médiatisé tout en : recommandant des contacts au lieu de documents ; luttant contre les problèmes inhérents aux systèmes actuels de recommandation, par exemple, la prolifération de passagers clandestins ; permettant l’ouverture du réseau de relations vers des contacts de qualité. Pour cela, nous intégrons des analyses de réseaux sociaux. Ensuite, nous nous sommes donnés comme objectif la construction d’un réseau qui intègre des mécanismes originaux de motivation aux échanges d’information. Une conséquence d’un tel objectif est l’obtention d’un réseau de confiance et, un des effets de bord, sera la construction d’une connaissance collective [po05]. La mise en place d’une dynamique de mise en relation de contacts issue d’analyses de réseaux sociaux est indispensable pour constituer un réseau avec flux d’information de qualité et peut contribuer à l’efficacité d’un réseau social médiatisé. Pour permettre ce que nous venons de mentionner, nous pensons qu’il faut introduire des moyens pour contrôler et/ou inciter les échanges et la participation dans notre réseau. Une manière de le faire, est d’intégrer la régulation à travers de mécanismes et d’une dynamique de réseau social proposés. Nous allons exploiter les concepts que nous venons d’introduire pour construire une approche concevant des dynamiques sociales pour la mise en relation, détaillée dans la section suivante. 82 S Seeccttiioon n 33.. C Coon ncceep pttiioon n Les concepts91 et théories que nous venons de décrire sont les bases de la conception de notre système SoMeONe. Nous les décrivons dans cette partie, en présentant d’abord les mécanismes de notre approche qui mettent en oeuvre les différents principes de notre cadre théorique. Puis nous détaillons la dynamique du réseau social, notre mécanisme de recommandation de contacts (divisé en deux étapes, une selon le filtrage collaboratif et l’autre selon nos algorithmes issus de nos analyses sociales) et en dernier, le réseau personnel de l’utilisateur. 3.7 Mécanisme de gestion de l’information Nous avons l’intuition que c’est la diversité des informations personnelles qui permettra l’ouverture du réseau social de l’utilisateur [p03 ; p04]. La mise en place d’un moyen approprié à la gestion de son information peut permettre la diffusion et l’échange d’information de façon simple et contrôlée [p02]. Pour cela nous proposons : [m01] Mécanisme de gestion et diffusion de l’information : la gestion de l’information doit permettre une maintenance facile de l’information personnelle et une transparence des échanges. Notre approche, influencée par le concept de listes de diffusion et de gestionnaires de favoris personnels, doit faciliter la gestion d’informations personnelles (Herlocker et al. 2004 ; Sinha et Swearingen, 2001) : l’utilisateur doit avoir des outils dédiés92. Il est donc d’une part indispensable de simplifier les tâches de classification, de stockage et de récupération de l’information quotidienne de l’utilisateur. D’autre part, la diffusion d’information doit être automatisée, sous le contrôle de l’utilisateur : il diffuse l’information désirée vers ses contacts désirés [p02]. L’utilisateur doit avoir le contrôle sur l’information personnelle et sur sa diffusion. Nous allons décrire dans ce qui suit le détail de notre mécanisme de gestion d’information. 3.7.1 Construction d’une taxonomie personnelle Le moyen suivi pour gérer des informations est la construction des taxonomies. Afin d’avoir une taxonomie personnelle, nous proposons à l’utilisateur : De maintenir son vocabulaire personnel pour organiser l’information suivant ses intérêts. Ainsi, un document Web parlant du Mexique peut être vu par deux personnes, soit comme un lien de vacances, soit comme un site historique. Avec son propre vocabulaire, l’utilisateur peut regrouper un même type de choses, à l’aide des topiques. 91 La formalisation mathématique de ces concepts est développée dans l’Annexe I-6. Par outils dédiés nous désignons les dispositifs intéressants permettant aux utilisateurs, de simplifier les tâches importantes dans la dynamique d’échanges. Par exemple, la gestion facile pendant la navigation, pour classer et/ou diffuser automatiquement l’information. 92 83 Chaque topique peut être une spécialisation (sous-topique) d'un topique plus général. Par exemple, un topique nommé « cuisine française » peut être classé à l’intérieur d’un topique nommé « cuisine mondiale ». Chaque topique peut être assigné à une structure de données que nous introduisons avec le nom de référence. Ces structures de données font « références » à des documents Web ou URIs93. Alors, une référence a associé un URI qui identifie le document auquel elle fait référence, le(s) nom(s) du topique(s) où elle est classée, sa provenance (qui peut être directement le Web ou un autre contact) et éventuellement elle peut contenir des annotations avec les avis, les commentaires ou les résumés de l’utilisateur qui les crée, par exemple. Attention, ne pas confondre une référence avec un lien ou un document Web. Une référence dans notre approche est une structure spéciale groupant des éléments qui décrivent le point de vue d’un utilisateur sur un document Web (identifié par son URI). C’est l’unité d’information principale de notre approche, qui permet de qualifier les informations des membres du réseau social. Une référence peut être associée à n'importe quel genre de documents disponibles via l'utilisation du protocole HTTP (Berners-Lee et al. 1996). Les documents peuvent être des documents mono ou multimédias. Ils peuvent émaner du WWW ou d’un Intranet d'entreprise, d’un serveur de courrier du Web ou de n'importe quel genre de dossier personnel. C’est leur URI qui les identifie. Quand un topique est assigné à une référence, nous disons que le topique indexe cette référence. Ainsi, quand l’on veut afficher le contenu d’un topique, on affiche l’aperçu de l’ensemble de références qu’il indexe. Attention, ne pas considérer que le contenu de topiques sont les références. Dans l’affichage du contenu d’un topique, l’utilisateur voit les références qu’il indexe ! Ainsi, un topique a : Un « contenu » qui montre les références que le topique indexe, c’est à dire, des liens sur les références qu’il indexe. Une liste de diffusion [p01]. Elle va contenir les identificateurs94 de contacts. Un identificateur est le nom ou le surnom d’un contact. Les contacts sont des utilisateurs qui vont éventuellement avoir droit de visualisation du contenu du topique ou sous-topique. Un type de visibilité [p02]. Le contenu des topiques est diffusé directement ou indirectement. La diffusion directe se fait quand un propriétaire de topique place directement un ou plusieurs identificateurs de ses contacts dans la liste de diffusion de son topique. Cependant, un topique peut être déclarée public par son propriétaire, si son intérêt est de permettre à tous les membres du réseau la visualisation du contenu de son topique. Une diffusion indirecte s’établit si un membre déclare son topique « public », et qu’un autre utilisateur, intéressé par ce topique, ajoute lui-même son identificateur à la liste de diffusion correspondante. 93 Les objets dans le Web ont besoin de noms ou adresses pour leurs identifier. L’URI (Universal Resource Identifier) est un membre de cet ensemble universel de noms qui permet d’identifier un objet de manière unique. Un URL (Uniform Resource Locator) est une forme d’URI qui exprime une adresse sur un algorithme d’accès en utilisant protocoles de réseau (http//www.w3.org/Addressing/URL/uri-spec.html). Notez que dans le contexte de notre approche, URL et URI sont utilisés de manière similaire. 94 Un identificateur est unique par personne. 84 De cette façon, et grâce à son vocabulaire personnel, chaque utilisateur peut créer sa taxonomie (nomenclature personnelle) et gérer sa sémantique personnelle associée, afin de classer ses informations. Chaque élément d’une taxonomie est un topique. Un topique peut être ainsi vue comme un mot-clé ou une étiquette associée à un document Web. L’information personnelle se classe dans une taxonomie personnelle utilisant le vocabulaire propre à l’utilisateur. La taxonomie est intégrée par topiques définis par l’utilisateur. Les topiques indexent des références aux documents sur le Web. Nous appelons étiquetage le fait de classer des références dans des topiques. Ainsi, une référence pointant au document « http//crepes.fr » peut être étiquetée par exemple avec le topique « cuisine française ». Les références sont étiquetées avec les noms des topiques où elles sont classées. Figure 3-3. Il y a trois personnes. Chacune a sa taxonomie personnelle (carrés gris). Dans chacune, les personnes utilisent leur propre vocabulaire pour nommer leurs topiques et sous-topiques. Les flèches montrent les références aux documents sur le Web. Notons que la Personne 1 étiquette Vacances/Caraïbe, tandis que la Personne 2 l’étiquette Voyages/Mer. De cette façon, il y a deux références pour le document http://A.html. 3.7.1.1 Étiquetage multiple Une caractéristique très importante de l’étiquetage ou indexation des références et le fait de qu’une seule référence peut être associée à plusieurs topiques d’un même utilisateur ! Par exemple (voir Figure 3-3), la référence d’un document décrivant la « Péninsule du Yucatán », www.travelyucatan.com, peut être associée à un topique nommé « Vacances » et à un autre topique nommé « Pyramides » sans avoir besoin de stocker le document deux fois (ou plusieurs fois)95 ! Grâce à cette caractéristique de multi association/classification, le propriétaire de la référence, peut associer un seul document à plusieurs contextes (étiquettes de ses topiques). 95 Procédure typique dans une structure de dossiers quand il s’agit d’associer un même fichier dans un ou plusieurs dossiers. Par exemple, « l’explorateur windows » de Microsoft, évoqué avant, impose, si l’on veut partager un fichier commun, de stocker un document plusieurs fois ou de créer des raccourcis (un raccourci ne montre pas une trace d’avis) entre dossiers. 85 L’étiquetage multiple pourrait poser de question sur la facilité de gestion de listes de diffusion de topiques. Nous expliquons dans la section suivante un simple moyen pour le faire. 3.7.1.2 Spécialisation de listes de diffusion Au lieu de gérer autant de listes de diffusion que de topiques, l’utilisateur peut réutiliser et/ou spécialiser ses listes de diffusion. Un topique, qui est une spécialisation d'un topique plus général, peut par défaut, hériter (reprendre) de la liste de diffusion de son ascendant. Par la suite, l’utilisateur peut spécialiser (redéfinir) cette liste, en ajoutant ou en enlevant des identificateurs de contacts. Si le topique père est public, il peut déclarer privé le sous-topique, pour que personne n’ait le droit de le visualiser. Dans cette logique, une fonctionnalité se révèle intéressante : l’utilisateur qui veut diffuser une référence, devra seulement l’étiqueter dans un de ses topiques diffusés ! Nous savons qu’un topique a une liste de diffusion associée avec des contacts ciblés et que nous pouvons étiqueter des références avec plusieurs topiques. De cette façon, il se peut qu’une référence soit étiquetée intentionnellement pour qu’elle soit diffusée automatiquement à chacun des contacts des listes de diffusion des topiques. Par exemple, si un topique est un projet, les soustopiques seront des tâches du projet. Chaque tâche est affectée à un groupe de personnes. Le fait d’ajouter des topiques à une référence, permet, au lieu de préciser des adresses électroniques physiques, la diffusion automatique du document référencé, grâce aux listes de diffusion implicites à la référence. Nous appelons ce processus la « diffusion selon un adressage sémantique ». Selon les topiques qui étiquettent une référence, la liste de diffusion ne sera pas la même. Par conséquent, ce processus d’adressage sémantique est aussi contextuel. Notez que pour chaque référence diffusée, l’utilisateur qui la reçoit, peut créer sa propre référence sur le même document dans son/ses propre(s) topique(s). Une fois qu’il a créé la nouvelle référence dans son/ses topique(s), elle sera propagée automatiquement à tous les contacts dans la liste de diffusion des topiques qui l’étiquètent ! On voit ainsi comment un document se propage dans le réseau et navigue de personne en personne. L’étiquetage multiple améliore de manière transparente et automatique la meta-information et permet l’adressage sémantique (et contextuel). Ce mécanisme de gestion d’information que nous venons de décrire, nous a permis de comprendre la gestion et la diffusion d’information entre contacts qui se connaissent. Cependant, nous voulons mettre en place un outil qui recommande des contacts pertinents aux besoins informationnels des utilisateurs. Pour cela, il faut intégrer des mécanismes de recommandation et de régulation, pour les membres du réseau, qui permettent de valider nos hypothèses. La section suivante développe le mécanisme de recommandation de contacts. L’ensemble des concepts liés à la gestion de l’information personnelle d’un utilisateur constitue ce que nous considérons son profil individuel détaillé dans la section suivante. 3.7.1.3 Profil individuel Le profil de l’utilisateur est constitué de ses informations personnelles, c’est à dire, de ce qu’il gère (taxonomie) et de ce qu’il produit (nouvelles références vers de documents 86 Web). Nous ne nous basons pas sur la réponse à des questionnaires pour connaître ses préférences (déclaratif). Nous avons l’intuition que le profil ne peut pas être statique. Le profil de l’utilisateur a une nature changeante par rapport aux goûts, aux préférences ou aux besoins informationnels. Ainsi, dans notre approche, le profil individuel de l’utilisateur est constitué uniquement de ses propres informations contenues dans sa taxonomie : les topiques et leurs références. Le profil individuel de l’utilisateur est acquis de manière incrémentale avec l’usage qu’il fait du système issu de notre approche. Est-ce qu’il y a d’autres sources d’information sur les événements mondiaux?… Histoire Vacances Loisirs Nouvelles Mondiales Figure 3-4. Grâce à l'analyse de son profil, le système issu de notre approche pourra donner à cet utilisateur des recommandations de contacts intéressants (en rapport avec ses besoins). Imaginons un utilisateur (voir Figure 3-4, sa taxonomie montrée à droite) qui veut trouver plus de sources sur des événements mondiaux. Afin d’obtenir des recommandations de contacts qui peuvent lui fournir cette information, il faut qu’il ait un topique avec des références (indiquant ainsi son intérêt). Notez que notre approche n’est pas faite pour servir comme un moyen de recherche d’information mais comme un moyen complémentaire à la « recherche d’information » car elle doit apporter à l’utilisateur de l’information de qualité grâce aux avis de contacts recommandés. Nous pouvons constater qu’avec cette dynamique, nous validons nos principes [p01; p02bis;p03;p04] où nous affirmons que l’intérêt de l’utilisateur est d’obtenir de l’information pertinente issue des humains[po01] (venant de contacts recommandés), afin de satisfaire un intérêt individuel [po03]. Il faudra effectivement que l’utilisateur de notre exemple place dans son topique, ses propres sources pour son topique « Nouvelles Mondiales ». De cette façon, le recommandeur pourra recommander des éventuels contacts, ayant de l’information intéressante96. Ceci applique nos principes [p03]et [p04], et également le flux d’information dans le réseau [m01]. Pour que ce dernier mécanisme s’accomplisse, selon [po04], il est nécessaire de diffuser [p03]. Nous détaillons cette mécanique dans la section 3.10.4. 96 Celle ayant de la pertinence par rapport au type de l’information désirée. 87 De cette façon, l’utilisateur peut gérer son information personnelle[p01], tout en ayant le contrôle de la visibilité et de la diffusion[p02], tout en conservant sa propre façon de l’étiqueter (profil individuel) . L’élément important issu des échanges est une information déjà classée et éventuellement déjà annotée, autrement dit, « ses références ». Nous le développons dans la section suivante. 3.7.2 La construction d’une connaissance collective Les références constituent un élément très important dans notre approche parce qu’elles intègrent des traces d’avis d’utilisateurs du réseau. Et c’est précisément ce que nous entendons par « avis » qui permettra : (i) les recommandations de contacts grâce à nos analyses de réseaux sociaux [p05]; (ii) la transformation de l’information dans le réseau, en connaissance collective[po05;p04]. Commençons par un exemple. Nous avons un document sur le Web identifié par son URI www.travelyucatan.com. Imaginons un scénario très simple. Quatre personnes utilisant notre approche peuvent trouver le contenu de ce document intéressant. Les quatre le classent dans leurs taxonomies personnelles. Chaque fois qu’un document est classé, il lui est créé une référence. Il y donc quatre références sur le même document. Figure 3-5. Le document "www.travelyucatan.com" est pointé par quatre références différentes : de Laura, de Paul, de Alain et de Jean. Imaginons que ces personnes ne se connaissent pas. La première personne étiquette le document avec son topique « Mexique » et écrit une petite note pour qu’elle se rappelle que c’est un endroit touristique ; l’autre l’étiquette avec son topique « Les Mayas » et n’écrit aucune note ; la troisième l’étiquette avec son topique « Vacances » et écrit un résumé du climat de la région ; la dernière l’étiquette avec son topique « Pyramides » et n’écrit pas de commentaire. Il en sort une connaissance collective simplement en associant les références créées (avant même d’avoir partagé de l’information) : ⋅ Selon sa classification dans les topiques, elle pourrait se traduire par : « le document www.travelyucatan.com, parle du Mexique, de la région des Mayas où il y a des pyramides et où les gens peuvent aller en vacances ». ⋅ Les textes/notes/résumés ajoutés ne font qu’affiner cette connaissance initiale. On déduit également qu’il s’agit d’un endroit touristique et on connaît le résumé du climat de la région. 88 L’analyse de ces éléments n’entre pas dans le cadre de notre approche. Cependant, l’ensemble des données inhérentes à un ensemble de références pointant sur un même document est utilisé par notre approche pour construire ce que nous appelons une trace d’avis : une collection des étiquettes97 de topiques et de sous-topiques, et une collection des éventuelles annotations (titres, commentaires). La Figure 3-5 ci-dessus, illustre que l’approche peut (si les utilisateurs le permettent) accumuler l’ensemble de traces de leurs avis sur le document « www.travelyucatan.com ». L’ensemble de références créées sur un même document par différentes personnes accumule une meilleure connaissance sur le document référencé. Nous appelons meta-information l’accumulation de traces d’avis et d’étiquettes des références pointant vers un document Web, qui sont donnés par les membres d’un réseau sur le même document. Cette meta-information qui circule aussi dans le réseau peut être utilisée pour donner de la pertinence à l’information elle-même. Ainsi, chaque fois que le propriétaire d’une référence la voit, elle aura associée la trace d’avis et les étiquettes (voir Figure 3-6, ci-dessous). L’information qui circule dans le réseau a associée de la meta-information : trace d’avis de membres du réseau. Si nous reprenons l’exemple de la Figure 3-6, le sens que l'utilisateur veut probablement donner au contenu du document, est « à Yucatán, je peux passer des vacances, et je peux y trouver des pyramides ». Notez que cet utilisateur pourrait également classer son document dans son sous-topique « Caraïbe ». 97 Une étiquette dans une référence est le nom du topique où elle a été classée. Une référence peut contenir plusieurs étiquettes, c'est-à-dire, qu’elle peut être associé/classé dans plusieurs topiques. Ceci est explique de suite. 89 Figure 3-6. Une personne crée une référence sur le document www.travelyucatan.com associée à deux topiques de sa taxonomie personnelle : Pyramides et Vacances. Nous appelons étiquetage multiple de références l’option d'association multiple d’une référence (à plusieurs topiques). Une fois associée à plusieurs topiques, elle peut donc être accédée par chaque topique. Donc, au fur et à mesure que des références sur un même document s’accumulent, les avis s’accumulent également (ceux liés aux références et/ou ceux liés aux topiques qui étiquettent ces références). Beaucoup de gestionnaires de favoris ne permettent pas cet accès multiple ayant associée une connaissance sur le document référencé. De cette façon, l’étiquetage multiple et les annotations constituent un ensemble très riche de « meta-information », c’est à dire, d’information sur l'information. Cette valeur ajoutée, fait de notre réseau social, un média pour le Web Sémantique98 (Berners Lee, 2001). L’étiquetage multiple enrichit la meta-information et facilite la gestion de l’information personnelle. L’ensemble d’avis que les références peuvent contenir ne peut sortir que des échanges que les membres du réseau social font sur un même document référencé. Nous les expliquons dans la section suivante. 3.7.3 Diffusion d’information et profil social Les diffusions d’informations qu’un utilisateur fait lui donnent une position dans le réseau social vis à vis des autres membres. Cette position lui donne un profil social. Par exemple, si l’utilisateur est altruiste (parque qu’il permet que les autres visualisent ses informations personnelles), passager clandestin (les autres lui ont donné la permission de visualisation mais il ne le fait pas en retour), etc. Grâce à ces diffusions, un utilisateur peut avoir des recommandations de contacts. Plus un utilisateur diffuse ses informations, plus recommandations de contacts lui seront offertes [p01;p03]. 98 « The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enable computers and people to work in cooperation » Tim Beers-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001. 90 Ainsi, pour que les personnes puissent avoir des recommandations de contacts pour qu’elles puissent visualiser le contenu des topiques des autres, il faut : soit que le(s) topique(s) en question soi(en)t déclaré(s) public(s) ; soit que la personne ait le droit de visualisation. Dans l’exemple précèdent, notre utilisateur pourrait, s’il le veut, déclarer son topique « Nouvelles Mondiales » comme public (le fait de déclarer un topique public, permet à d’autres personnes de s’ajouter librement à la liste de diffusion du topique correspondant). De cette façon, le recommandeur de contacts pourrait proposer ce topique à d’autres personnes qui pourraient s’intéresser à son contenu et, dans le meilleur des cas, leur donner envie d’ajouter leurs identificateurs à la liste de diffusion du topique « Nouvelles Mondiales ». Mais ceci n’est qu’un cas particulier. D’autres situations intéressantes peuvent arriver. Pour les traiter, nous utilisons notre concept de liste de diffusion. Il s’agit de donner des autorisations de visualisation du contenu de topiques aux utilisateurs susceptibles de créer un flux d’information vers un utilisateur. Nota : Un topique public n’implique pas qu’il sera diffusé à toutes les personnes ! Le système issu de notre approche permet à d’autres personnes de s’ajouter à la liste de diffusion du topique public (§3.7.3 ; §3.12.5.1 ; m01) pour visualiser son contenu. Ces personnes découvrent un tel topique grâce à nos mécanismes de conscience sociale et de recommandations (§3.8 et 3.9). Ainsi, il y a une liste de diffusion pour chaque topique. Par défaut, un topique est privé, c’est à dire que sa liste de diffusion n’a pas d’identificateurs d’utilisateurs associés. C'est son propriétaire qui contrôle le droit de visualisation. Pour donner ce droit, un utilisateur place dans la liste de diffusion de ses topiques personnels, les identificateurs des autres utilisateurs de son choix. L’idée est de diffuser l’information contenue dans le(s) topique(s), c’est à dire ses références personnelles. Les utilisateurs listés (leur identificateur) dans des listes de diffusion du topique, sont ses contacts pour ce topique. Les contacts peuvent être des amis, des collègues, des membres d’un groupe d’un projet, des membres de la famille ou d’autres… De cette façon, grâce à la gestion des listes de diffusion, un topique peut être : (i) public et diffuser de l’information ou (ii) privé et éventuellement diffuser de l’information si son propriétaire déclare explicitement les identificateurs des contacts à qui il souhaite permettre de recevoir l’information contenue. Le premier cas implique que, même si un topique est public, sa liste de diffusion doit contenir des identificateurs des contacts pour que le contenu du topique leur soit diffusé. Le but de cette diffusion peut être une stratégie pour obtenir une autre information ou pour se maintenir dans le réseau ou simplement pour diffuser de l’information, de façon altruiste. Notez qu’un utilisateur a plusieurs types de stratégies dans son réseau social : stratégies d’obtention d’information, détaillées dans la section 3.9.2.3 et stratégies pour se maintenir dans le réseau qui gouvernent son comportement social (altruiste et donc diffuse tout son information, égocentriste, etc.) et que nous appelons désormais « tactiques comportementales », détaillées dans la section 3.10.4. Le deuxième cas veut dire qu’un topique peut être maintenu privé : personne ne pourra le découvrir (donc valoriser son contenu), mais sa liste de diffusion ne sera pas 91 nécessairement vide. Elle pourra être remplie par son propriétaire pour les mêmes buts listés auparavant, et diffuser les références de son topique aux contacts ciblés. Notez que la liste de diffusion d’un topique peut rester totalement privée et ne diffuser son contenu à personne. Une taxonomie Carlo Personnel Jean-Charles CV en ligne Liste de diffusion: Laurence Hobbies Topiques (publique/privé/+diffusé) Mon projet Reports http://www.surfing.com Équipement Références http://www.mountain.org Figure 3-7. Carlo a créé une taxonomie personnelle de topiques et de sous topiques. Dans la liste de diffusion de son topique CV en ligne il a ajouté ses amis Jean-Charles et Laurence (ses contacts). Il a deux références étiquetées avec deux de ses topiques. Ceci veut probablement dire que les documents associés parlent des loisirs de Carlo et de l’équipement pour ces loisirs (d’autres données associées aux références ne sont pas montrées dans l’image). Comme nous l’avions décrit dans une section précédente, les références peuvent éventuellement être étiquetées avec plusieurs topiques. Que se passe-t-il avec les références ayant différents topiques associés avec leurs listes de diffusion différentes ? A qui seront-elles diffusées ? Une référence associée à plusieurs topiques regroupe99 les utilisateurs ayant droit de visualiser le(s) topique(s). Par exemple, de la Figure 3-7, Carlo a ajouté Jean-Charles et Laurence dans la liste de diffusion de son topique « CV en ligne ». CV en ligne [Jean-Charles, Laurence] Imaginons que pour son topique « Hobbies », Carlo ait dans sa liste de diffusion, Anne, Marie et Hélène et que pour son topique « Equipement » il ait dans sa liste de diffusion Erwan, Philip et Hélène. Comment va être diffusée la référence de Carlo sur le document http://www.surfing.com ? Évidement, elle sera diffusée à tous, mais tous ne recevront pas la même information. Hobbies Equipement [Anne, Marie, Hélène] [Erwan, Philipe, Hélène] Anne et Marie ne verront la référence que comme un hobby de Carlo ; Erwan et Philipe la verront comme un équipement proposé par Carlo ; Hélène verra les deux topiques associés. Nota : nous résolvons ici le problème de postage multiple d’information des forums de diffusion, à savoir qu’elle ne recevra pas deux fois la même information ! 99 Union de l’ensemble d’identificateurs contenus dans les listes de diffusion de topiques correspondantes. 92 Chaque mise à jour du contenu d’un topique va être transmise aux utilisateurs inclus dans la liste de diffusion associée. Que se passe-t-il si un contact (destinataire de nouvelles références du topique) a déjà cette référence dans ses propres topiques ? Tout simplement, il ne verra pas cette référence dans l’ensemble des références reçues ! Mieux encore, chaque fois qu’il reçoit cette référence dans ses topiques (possiblement à travers d’autres contacts), il verra la meta-information accumulée (avis, étiquetage, etc.) grâce aux autres utilisateurs ayant référencé le même document (selon le droit de visualisation). L’utilisateur qui gère sa propre taxonomie (topiques et sous-topiques), doit-il pour diffuser son information, gérer une énorme quantité de listes de diffusions ? Pas nécessairement ! 3.8 Dynamique du réseau Une dynamique du réseau se crée par le biais de règles (Reynaud, 1989) et de conventions (Boltanski et Thévenot, 1987) permettant de concilier échanges d’informations, transferts de compétences et comportements concurrentiels. Les règles sont synonymes de règlements, de manières de faire, de normes. L’analyse en termes de réseaux et la mise en oeuvre de la régulation (§3.1.2) deviennent des clés essentielles pour l’étude de la motivation à la participation et de l’engagement à la production et à la diffusion d’information dans le réseau (collaboratif, coordonné) : elles tiennent compte de la complexité des interactions en réseau. Ceci engendre la dynamique de réseau. Nous appliquons ainsi des concepts inhérents à la régulation avec pour finalité de : ⋅ Observer les participants dans le réseau et à partir de cette observation (conscience sociale), ⋅ Influencer, si possible, leur organisation (régulation). Nous pouvons débuter la dynamique du réseau à partir du constat que les utilisateurs ont besoin d'établir de nouvelles relations pour obtenir une information nouvelle de qualité100 selon leurs intérêts. Les utilisateurs motivés peuvent par exemple, déclarer une partie de leurs topiques comme publics. Donc, n'importe quel autre utilisateur peut ajouter son identificateur à la liste de diffusion. Si cet utilisateur est intéressé par le contenu, nous pouvons espérer qu’en retour il ajoutera le propriétaire du topique public à ses listes de diffusion. Par conséquent, « les utilisateurs sont motivés pour fournir des contenus intéressants dans leurs topiques publics s'ils savent qu’en retour ils recevront de la information pertinente »[p03 ; p04]101. Pour faire naître de tels types d’échanges dans le réseau, nous proposons c’est que nous nommons la conscience sociale102, c’est à dire, de montrer à l’utilisateur la position de chaque membre du réseau social. Nous considérons alors la conscience sociale comme un mécanisme de régulation [m03]. En effet, dans la section 3.10 nous montrons bien notre intérêt d’afficher à l’utilisateur un type de liste ou « carnet d’adresses » où il pourra choisir un topique recommandé en fonction du contenu de cette liste, c'est-à-dire, que l’acceptation 100 Par qualité, nous entendons, l’information obtenue avec une connaissance associée, sortie des avis d’autres humains et non seulement du résultat d’un calcul d’un logiciel. 101 Voici une dynamique qui permet la construction d’un profil social. 102 « Awarness » sur la dynamique des échanges dans le réseau. 93 d’une recommandation peut dépendre de la connaissance (conscience sociale) qu’a l’utilisateur du propriétaire du topique recommandé. Nous verrons alors, dans cette section 3.10 comment cette connaissance peut être influencée103 par un affichage particulier du « carnet d’adresses » de l’utilisateur. Avec une conscience sociale, nous permettons également le contrôle des échanges d’information afin d’établir des relations de confiance[po05]. Une relation de confiance s'établit quand les personnes choisissent leurs contacts parce qu'elles les considèrent pertinents pour le type d'information à échanger ou à partager avec eux. Pour permettre cette conscience sociale, nous utilisons des résultats de l’ensemble d’indicateurs sociaux que nous avons développé. Ces indicateurs ont été développés principalement pour valider nos critères de qualité du réseau social, indispensables pour l’analyse de la qualité globale du réseau et pour choisir les bons contacts à recommander. 3.9 Mécanisme de recommandation de contacts Nous avons déjà indiqué que notre approche cherche à mettre en relation des personnes afin de leur proposer des contacts de qualité [p02]. Ceci à la différence de la presque totalité des systèmes issus des approches de recherche/recommandation d'information sur Internet décrit au chapitre 2. C’est un nouveau moyen d'accès à l'information né de notre perception que « tout le monde gère de l'information et a besoin d'élargir ses connaissances ». Pour cela, seuls ceux ayant des compétences ciblées seront intéressants à rencontrer. Si vous étiez cuisinier, et que vous aviez besoin d'une recette spécifique, ne serait-t-il pas plus rassurant de trouver une personne (qualifiée comme compétente par les autres), que de chercher une recette quelconque ? En analysant les personnes du point du vu social, nous reconnaissons que chaque personne est différente. Nous avons également expliqué l’influence de la gestion de l’information sur la diffusion de l’information. Nous devons maintenant proposer des recommandations aux membres de notre réseau. Nous allons diviser ces recommandations en deux grandes sélectionnes. Ainsi, le moyen d’obtention de recommandations doit être compris selon : Pour une première sélection, il s’agit d’obtenir les topiques les plus similaires du point de vue de références qu’ils indexent. Ainsi, nous parlerons soit de topiques recommandés soit de contacts recommandés si nous cherchons le propriétaire du topique choisi à recommander. Pour une deuxième sélection, il s’agit de recommander contacts propriétaires des topiques indexant des références qualifiées intéressantes pour l’utilisateur à recommander. Ainsi, notre approche se distingue en ajoutant une étape de filtrage et de tri de recommandations issues d’algorithmes basés sur du filtrage collaboratif (Plu et al. 2003). Il s’agit d’obtenir une première sélection de recommandations à partir des personnes ayant des intérêts similaires. Cette première sélection doit encore être passé au crible de nos techniques d’analyses sur les réseaux sociaux avant d’être validée (nous avons développé nos 103 Accepter une recommandation plutôt qu’une autre. 94 algorithmes SocialRank). Nous faisons ceci dans une deuxième étape. Pour faire ceci nous proposons notre mécanisme de recommandations : [m02] Mécanisme de recommandations : utiliser des indicateurs sociaux comme qualification de contacts ayant d’information pertinente. Nous définissons un indicateur social comme le moyen d’identifier d’abord une caractéristique d’une information. Puis, selon la qualification donnée à cette information, le propriétaire de celle-ci sera alors identifié selon la qualification de son information. Par exemple, il s’agit de vérifier si l’information est « originale » ou si elle est « nouvelle » ou très « estimée » par les autres membres du réseau. Si une information peut être ainsi identifiée, nous pouvons offrir à l’utilisateur des moyens pour l’obtenir selon le type d’information qu’il recherche à un moment donné, en lui recommandant le contact propriétaire. Ces indicateurs104, nous les définissons en détail plus tard. Le point important ici, est qu’ils vont permettre de recommander de contacts, de manière plus adaptée aux besoins changeants des utilisateurs. Ces indicateurs sont obtenus à partir de l’analyse d’échanges d’information entre les membres du réseau. L’utilisation de ces indicateurs sociaux permettra au système issu de notre approche d’être proactif105 : offrir de manière anticipée à l’individu, le moyen pour obtenir de l’information adaptée. Ce moyen est son réseau social médiatisé, qui se construit en utilisant un recommandeur de contacts106. Préalablement, nous expliquons ci-dessous notre technique de filtrage collaboratif. 3.9.1 Première étape A l’instar des techniques de filtrage collaboratif (Resnick et Varian, 1997) notre algorithme (Plu et al. 2003) identifie les « topiques proches »107 qui permettent de déterminer des intérêts similaires entre deux utilisateurs. Nous avons décidé de contourner les algorithmes génétiques typiques ou d’apprentissage ou de raisonnement tels qui ceux utilisées par les systèmes dont nous avons parlé dans notre état de l’art (§2.1.2). Nous détaillons notre algorithme dans la section suivante. 3.9.1.1 Algorithme de filtrage collaboratif Il s’agit d’obtenir d’abord les topiques proches, grâce à l’utilisation d’un annuaire108 (ou de plusieurs), qui contient une énorme quantité d’URIs classifiées (Agosto et al., 2003). Puis nous pourrons personnaliser nos recommandations grâce à nos algorithmes issus de nos analyses. 104 Les indicateurs ne sont pas utilisés que pour obtenir des recommandations, ils peuvent être utilisés également pour « observer » les échanges et avertir sur l’état du réseau (conscience sociale vis à vis des autres). 105 Par proactif nous comprenons une démarche anticipant les événements et les mesures à prendre, pour faire face aux problèmes de manière positive, par opposition à une démarche dans laquelle on ne fait que réagir aux situations qui se présentent. 106 Ce recommandeur commence par obtenir un premier jet de recommandations issu d’idées des technologies de filtrage collaboratif (Plu et al. 2003). Puis, grâce à l’utilisation de nos indicateurs sociaux, nous raffinons les recommandations finales. 107 Par « topiques proches » il faut entendre des topiques indexant des références vers des informations similaires. La similarité est mesurée selon notre algorithme détaillé dans la section (§3.9.1.1) suivante. 108 En anglais « directory ». Un directory peut être vu comme un dépôt, un annuaire ou un répertoire, contenant une classification de catégories (topiques). 95 Nous utilisons, la co-citation des URLs (Kessler, 1963 ; Kautz et al. 1997) pour obtenir les topiques proches. Une co-citation se produit quand deux utilisateurs créent des références personnelles sur le même document109 ou sur le même type de documents. Notre algorithme de filtrage collaboratif calcule donc la similarité entre topiques d'utilisateurs différents. Il est évident que le WWW est énorme et contient des milliards d’URIs. Par conséquent l'intersection entre l’ensemble des URIs référencés dans les topiques pourrait être presque toujours vide (Popescul et al. 2001). Mais si nous utilisons seulement la co-citation d’URIs entre des topiques des utilisateurs, la possibilité d’avoir des topiques avec des intersections non-vides serait très faible compte tenu de la taille du Web et du nombre d’URIs. Pour résoudre ce problème nous utilisons un ou plusieurs annuaires d’URIs. On peut considérer un annuaire comme une classification d'un ensemble de topiques, une taxonomie stable, qualifiée « pertinente » par les propriétaires des annuaires, construite grâce à la collaboration de plusieurs personnes « altruistes ». Elles y placent les URIs du Web. Il faut alors comparer leurs références à des documents, qui s’identifient avec un URI, aux URIs existantes dans un ou plusieurs annuaires, par exemple « Open Directory Project » : ODP (http://dmoz.org/). L’algorithme est également influencé par des idées présentées par Molm (Molm, 2001). Figure 3-8. Processus de "crawling" effectué par le moteur de recherche qui utilise la technique de filtrage collaboratif. Pour détecter si deux topiques partagent sont susceptibles d’être recommandés, nous calculons une mesure de similarité entre topiques d’utilisateurs différents : il faut trouver un topique u1 d'un utilisateur u, qui soit similaire à un topique v1 d’un utilisateur v. La finalité est d’associer l'utilisateur u ayant une similarité d’information avec l’utilisateur v selon le contenu de son topique u1. Une telle similarité aurait donné une recommandation du type « recommander à l'utilisateur u d’ajouter l’utilisateur v dans la liste de diffusion de son topique u1 » ou « recommander à v d’ajouter u à v1 ». 109 Il ne faut pas oublier qu’un document est reconnu par son URI. 96 Deux topiques sont similaires si ils ont des URIs dans une même catégorie dans un annuaire. Pour comparer les URIs d’un topique et celles d’une catégorie, nous définissons une mesure de similarité sij : Si les URIs i et j sont les mêmes, alors sij = 1 Autrement, si les URIs se dirigent vers le même serveur et ont le même répertoire alors sij = 0.5 Autrement s'ils ont que le même serveur, alors sij = 0.25 Autrement sij = 0 Évidemment cette mesure est très limitée. Cependant, elle est vraiment simple à calculer. Comme nous l’avons déjà introduit, pour trouver des ensembles d’URIs couvrant un grand nombre d'URIs, un annuaire est utilisé (ou plusieurs). Donc, la similarité entre topiques dépende d’une similarité entre topique et catégorie. Cette similarité se calcule selon la formule : S1(t , c) = ∑ max( s i∈t j∈c n×m i, j ) où (1) t est un ensemble d’URIs pointés par les références d’un topique. c est un ensemble d’URIs dans une catégorie de l’annuaire de référence. si,j est la mesure de similarité entre les URIs i et j. n : est le nombre de URIs dans la catégorie c de l’annuaire de référence. m : est le nombre de URIs dans le topique t. Afin de prendre en compte la hiérarchie des catégories de l’annuaire de référence ou des topiques des utilisateurs, un topique ou une catégorie inclut tous les URIs de tous ses topiques secondaires ou catégories secondaires. Nous pouvons vérifier que la mesure de similarité S1 a sa valeur plus élevée si : la catégorie c et le topique t ne sont pas très spécialisés avec pas beaucoup d’URIs inclus donc, n x m étant petit ; au contraire : si c et t ne sont trop généraux avec beaucoup d’URIs, les deux provenant de leurs topiques ou catégories secondaires, alors ce n’est pas élevé. Nous calculons cette mesure S1(t, c) avec c correspondant à chaque catégorie des annuaires considérés et aussi pour chaque topique d’utilisateurs différents de chaque propriétaire de t. Ceci permet de prendre en compte d’éventuelles intersections non-vides entre topiques avec des URIs non référencés dans les annuaires considérés. Puis, la similitude entre deux topiques t1 et t2 correspond au résultat du calcul suivant : 97 S 2(t1, t 2) = ∑ S1(t1, c) × S1(t 2, c) c∈AR ∪T 1∪T 2 ∑ S (t1, c) 2 ∑ S (t 2, c) × c∈AR ∪T 1 (2) 2 c∈AR ∪T 2 AR : ensemble des catégories de l’annuaire. T1 : ensemble des topiques appartenant à un utilisateur différent du propriétaire de t1. T2 : ensemble des topiques appartenant à un utilisateur différent du propriétaire de t2. Évidemment, ce calcul est fait pour des topiques qui n’appartiennent pas au même utilisateur. 3.9.1.2 Exemple Un exemple très simple pour ces deux calculs précédents, pourrait être le suivant : nous imaginons que l’annuaire (ODP par exemple) a seulement quatre catégories, A, B, G et F110. A ayant des références sur des URIs : {a1, a2} B ayant une référence sur l’URI : {b5} G ayant des références sur des URIs : {g1, g2, g3, g4} F ayant une référence sur l’URI : {f1}. Dans notre réseau d’échanges nous avons deux utilisateurs u1 et u2. Nous avons aussi un topique t1 de u1, ayant l’ensemble de références pointant vers les URIs {a2, b5, g1, g2} et le topique t2 de u2 ayant l’ensemble de références pointant vers les URIs {b5, g1, g2, g3, g4, f1}. Maintenant, nous voulons savoir quelle est la similarité entre t1 et t2 à travers ODP. En suivant le calcul (1), nous obtenons S1(t1,A)=1/8, S1(t1,B)=1/4, S1(t1,G)=1/8, S1(t1,F)=0; S1(t2,A)=0, S1(t2,B)=1/6, S1(t2,G)=1/6 et S1(t2,F)=1/6. Par conséquent, en suivant le calcul (2), nous obtenons : S 2(t1, t 2) = (1 / 8 × 0) + (1 / 4 × 1 / 6) + (1 / 8 × 1 / 6) + (0 × 1 / 6) 1/ 8 +1/ 4 +1/ 8 + 0 2 2 2 2 × 0 +1/ 6 +1/ 6 +1/ 6 2 2 2 2 = 0.726967 Mieux encore, nous pouvons tenter t1 ∩ t2 = {∅}. Nous avons ainsi le topique t1 de u1, ayant l’ensemble de références pointant vers les URIs {a2, g2} et le topique t2 de u2 ayant l’ensemble de références pointant vers les URIs {b5, g1, g3, g4, f1} et nous cherchons la similarité entre t1 et t2 à travers ODP. En suivant le calcul (1), nous obtenons S1(t1,A)=1/4, S1(t1,B)=0, S1(t1,G)=1/8, S1(t1,F)=0; S1(t2,A)=0, S1(t2,B)=1/6, S1(t2,G)=3/20 et S1(t2,F)=1/5. Par conséquent, en suivant le calcul (2), nous obtenons : 110 Pour les calculs avec ODP, les classifications et les lettres représentent (fait le 04/09/2003) : -- A : Top: Computers: Programming: Languages: Java: News and Media (138) ; B : Top: Computers: Programming: Languages: Java: Resources: Micro (39) ; G : Top: Computers: Software: Internet: Clients: File Sharing (143) ; F : Top: Computers: Programming: Languages: Java: Databases and Persistence: Object Persistence (54); a1 : http://www.javapronews.com/; a2 : http://www.newsnow.co.uk/newsfeed/?name=Java; b5 : http://www.devicetop.com/site/main; g1 : http://www.afternapster.com/; g2 : http://www.reviewmanager.com/; g3 : http://www.cloneworkz.com/; g4 : http://www.wippit.com/ et f1 : http://db.apache.org/ojb/. -- 98 S 2(t1, t 2) = (1 / 4 × 0) + (0 × 1 / 6) + (1 / 8 × 3 / 20) + (0 × 1 / 5) 1/ 4 + 0 +1/ 8 + 0 2 2 2 2 × 0 + 1 / 6 + 3 / 20 + 1 / 5 2 2 2 2 = 0.0216 Comme prévu, les deux topiques sont similaires, si nous les comparons à la classification de ODP (voir la Figure 3-9 suivante). ODP Figure 3-9. A, B et C sont des catégories de la classification d’ODP. A l’intérieur, il y a des URIs qui éventuellement sont égaux à ceux pointés par les références dans les topiques des utilisateurs. A la fin du calcul, nous avons ciblé les topiques « similaires » entre les utilisateurs à droite et à gauche de la classification ODP : dans ce cas, le topique « A ». Les résultats de cet algorithme collaboratif doivent encore être filtrés, afin de « personnaliser » les recommandations de contacts. Par « personnalisation » il faut comprendre le fait d’adapter les recommandations de contacts selon les profils et les besoins des utilisateurs. Pour cela, nous utilisons nos algorithmes SocialRank de la section 3.9.2 Nous appelons « algorithmes SocialRank » à l’ensemble de mesures (inspirées des indicateurs sociaux) qui prennent en compte les échanges d’information dans le réseau. Ainsi, les recommandations de contacts, étant personnalisées, doivent être conformes aux objectifs des utilisateurs mais aussi du système issu de notre approche. Ceci ne peut être possible que grâce à l'établissement d’une dynamique spécifique au réseau social, qui permette à l’utilisateur d’avoir une conscience de l’information échangée et des gains obtenus pour sa participation dans une telle dynamique. Nous la détaillons dans la section suivante. 3.9.2 Deuxième étape : SocialRank Nous nous intéressons maintenant à appliquer nos algorithmes issus de nos analyses sociales (Plu et al., 2004). Nous cherchons à influencer la « qualité globale »111 du réseau[h03] tout en garantissant la satisfaction des besoins en information de l’utilisateur du réseau d’échanges. Une telle topologie optimale est l’un des objectifs de notre approche. Pour atteindre ces objectifs, nous proposons une dynamique prenant en compte des éléments suivants : Critères de qualité. Nous définissons la qualité globale d’un réseau à partir de différents critères d’efficacité du réseau (pouvant être appelés aussi « critères de qualité »). Ces critères doivent permettre la bonne circulation de l’information dans le réseau. Divers facteurs interviennent pour que ceci puisse. Parmi tous ceux envisageables nous avons retenus : La réactivité à l’information nouvelle. Nous pensons que si la topologie du réseau a une structure permettant le flux d’information, alors tous les membres du réseau 111 Noter qu’un réseau ayant de la qualité peut être considéré un réseau optimal. 99 pourront recevoir plus rapidement de l’information correspondant à leurs besoins. Nous analysons ce critère dans notre deuxième évaluation, appliqué sur la nouveauté d’une information (§I-6.1.7.6) et la rapidité nécessaire pour qu’elle arrive aux membres du réseau. Nous introduisons alors une mesure de réactivité à l’information nouvelle (§I-6.1.7.6). Nous utilisons cette mesure pour vérifier la « vitesse 112de diffusion de l’information nouvelle ». Il s’agit de valider si les nouveautés (informations qualifiées d’originales) sont appréciées. La dépendance aux gourous. Nous considérons comme gourous les membres du réseau qui centralisent les informations et les diffusent aux autres. Un membre gourou est dangereux car il rend fragile la topologie du réseau en devenant le « centre » ou un « passage incontournable » de l’information pour que les autres puissent obtenir cette information. Notre intérêt vise à diminuer leur influence sur l’efficacité du réseau en essayant d’homogénéiser la quantité de lien que chaque membre du réseau peut avoir pour diffuser de l’information. Nous analysons ce critère dans notre deuxième évaluation (§I-6.1.7.3). Le coût du réseau. Le coût sert à vérifier le prix pour construire des nouvelles relations avec d’autres membres du réseau. Nous introduisons la mesure du coût du réseau (§I-6.1.7.9) pour vérifier le prix à payer pour établir des nouvelles relations. Le calcul du coût d’un réseau est très important. En effet, nous espérons obtenir une haute efficacité du réseau s’il y a plus d'échanges (donc plus de connexions/relations). Cependant, dans tout réseau réel, il y a un prix à payer. Nous calculons donc le coût nécessaire pour construire ces nouvelles connexions (§I6.1.7.7, Définition I-19). L’efficacité du réseau. Nous voulons rendre compte du flux efficace d’information dans le réseau. Nous introduisons ainsi deux mesures d’efficacité. Nous parlerons d’efficacité locale (§I-6.1.7.8, Définition I-20) pour le calcul de la diffusion d'un topique aux membres du réseau telle qu’il existe au moins une possibilité d’établir une relation entre eux. Une telle possibilité d’établir une relation coûte et alors nous intégrons cette notion dans une formule d'efficacité (§I6.1.7.8, Définition I-21). Les mesures de qualité du réseau pour chacun de ces critères permettront de suivre la qualité du réseau et valider notre postulat[po03], afin que son évolution ait une topologie moins coûteuse. Nous montrerons ceci dans la section 4.2. Mécanisme de régulation. Nous allons appliquer le principe[p06]selon le postulat [po03]et les principes[p03;p04]pour choisir la recommandation de contacts. Ceci doit permettre d’améliorer la qualité globale du réseau, la qualité des informations reçues[p04]et l’engagement de participants[p03]. Le recommandeur de contacts va être donc notre mécanisme de régulation pour appliquer nos principes et postulats. Ainsi, ce mécanisme va permettre : d’observer les échanges (donc les relations entre les membres) et d'analyser ainsi l'accomplissement des objectifs des utilisateurs et du système113 ; de garantir que les « règles de jeu » soient suivies, c’est à dire, que les utilisateurs injectent des informations personnelles de qualité, qu’ils suivent des 112 Noter que le terme « vitesse » est utilisé pour décrire une facilité à la distribution de nouveautés dû à la typologie du réseau et à l’acceptation d’indexation de ces nouveautés de la part des autres membres du réseau. Elle n’est pas donc mesurée en termes de temps mais de ces facilités. 113 Noter que nous appelons aussi « les objectifs du système » « les objectifs de notre approche ». 100 recommandations, pérennisent les échanges avec des contacts (personnels ou recommandés), qu’ils utilisent les fonctionnalités (gestion d’information, conscience sociale) de notre proposition à leur profit. Pour cela nous allons utiliser des indicateurs sociaux pour sélectionner les contacts à recommander. Ces indicateurs portent sur les topiques des utilisateurs. Indicateurs sociaux. Un indicateur social permet de rendre compte des tendances comportementales ou informationnelles que les membres du réseau suivent. Grâce à eux nous pouvons réaliser nos analyses du réseau et prendre des décisions sur la mise en relation des utilisateurs et sur l’évolution de la topologie du réseau. Nous développons nos indicateurs sociaux : D’originalité. Cet indicateur permet de reconnaître les utilisateurs gérant une information originale (détenue par eux seuls et donc des possibles « sources » d’information). De réputation. Avec cet indicateur nous reconnaissons les membres les plus réputés, c’est à dire, ceux qui diffusent une information appréciée et adoptée par les autres. De redondance. Plusieurs membres peuvent avoir des intérêts informationnels similaires et donc détenir le même type d’information. Dans ce cas, nous disons que leurs informations sont redondantes. D’agrégation. Cet indicateur permet de reconnaître les utilisateurs ayant le plus de fournisseurs ou sources d’informations. Nous nous intéressons alors, à reconnaître les propriétaires de topiques qui agrègent de l’information. Nous verrons qu’identifier ces membres est très important pour améliorer la qualité d’un réseau. Nous utilisons principalement ces trois indicateurs pour définir des stratégies de recommandations de contacts, détaillées dans la section 3.9.2.3. Bien évidement d’autres indicateurs peuvent être introduit. Nous développons ces trois dans notre approche. Mesures des indicateurs. Pour obtenir les indicateurs sociaux et pour répondre aux analyses des critères de qualité, il faut bien analyser le réseau, l’information contenue et les échanges entre ses membres. Ainsi, notre proposition peut être vu comme un système complexe constitué d’« éléments » interdépendants, nécessitant des modèles mathématiques pour capturer des propriétés (sociales) importantes (Bar-Yam, 1997 ; Baranger-url). Ces éléments sont les utilisateurs des réseaux sociaux dont nous voulons comprendre les propriétés structurelles (propriétés de connectivité) indispensables pour la compréhension de la dynamique du réseau social. Pour les évaluer, nous définissons des mesures expliquées dans les sections 3.9.2.2 et formalisées dans l’Annexe I-6 : Mesure de l’originalité (§I-6.1.7.1). Cette mesure cherche à obtenir l’indice d’originalité de l’information. L’information originale est l’information dite nouvelle (§I-6.1.6.1), leur propriétaire en est le premier détenteur dans le réseau. Un topique ayant de l’information originale acquiert à son tour un degré d’originalité par rapport aux autres topiques du réseau. Par propagation, on taxera d’original (et non d'hurluberlu) la personne propriétaire d’un ou de plusieurs topiques originaux (par rapport aux autres membres du réseau). Mesure de la réputation (§I-6.1.7.3). Cette mesure permet d'identifier les pourvoyeurs d’informations indexées114 par un grand nombre de membres. 114 Les pourvoyeurs d’information les plus indexés sont ceux à qui les autres membres du réseau prennent des références pour les classer dans leurs topiques. Le fait d’indexer une référence est synonyme de l’étiqueter avec un ou plusieurs topiques. 101 L’information réputée est l’information reçue la plus indexée par les membres du réseau. Un topique regroupant une information réputée se voit crédité d'un degré de réputation par rapport aux autres topiques du réseau. Ainsi, le propriétaire d’un ou de plusieurs topiques réputés incrémente à son tour, sa réputation par rapport aux autres membres du réseau. Mesure de la redondance (§I-6.1.7.5). La redondance informationnelle s’obtient avec la mesure de la Définition I-17. Deux topiques sont considérés redondants si les deux couvrent un même type d’information car elle leur arrive des mêmes topiques. Ceci reflète la redondance entre topiques selon leur contenu actuel, mais aussi selon leur capacité à recevoir des contenus identiques. Mesure de l’agrégation (§I-6.1.7.10). Les topiques agrégeant de l’information s’obtiennent avec la mesure de la Définition I-22 pour évaluer l’information contenue dans les topiques. Deux topiques peuvent être comparés selon leur valeur d’agrégation. Ceci reflète les topiques qui ont plus de topiques qui leur diffusent de l’information et leur capacité à agréger des contenus futurs venant des topiques qui leur diffusent de l’information. Dans les réseaux sociaux que nous voulons développer avec notre approche, la dynamique des échanges doit disposer des éléments favorables à l’aboutissement des objectifs des utilisateurs et du système. Cette dynamique peut être influencée selon les stratégies de recommandation de contacts. Celle-ci peut être choisie soit pour tous par l’administrateur du système (§4.2.2.1), soit individuellement par chaque utilisateur. 3.9.2.1 Notre réseau social médiatisé Le réseau social médiatisé que nous proposons est un graphe orienté contenant : une série de nœuds avec des arcs orientés entre paires de nœuds. Les nœuds sont les topiques des utilisateurs et les arcs sont leurs relations. Les relations entre deux topiques sont calculées selon les références associées à ces deux topiques. Ainsi, il y a un arc i d'un topique v vers un autre topique u, si le propriétaire du topique u reçoit et « adopte115 » de l'information associée au topique v. C’est à dire : le propriétaire du topique u est dans la liste de diffusion du topique v ; le propriétaire du topique u prend au moins une référence contenu dans le topique v et crée une nouvelle référence sur le même document avec son topique u. Par conséquent, la représentation du graphe montrera la relation v → u. Cette relation montre le flux d'information appréciée à travers le réseau. Elle montre que le propriétaire du topique u reçoit et apprécie l'information du propriétaire du topique v. La Figure 3-10 suivante montre une représentation graphique d'un petit exemple d'un tel réseau. Dans cet exemple, il y a six utilisateurs. Chaque boîte montrée comme un dossier représente un des topiques de ces utilisateurs. Chaque relation v → u est représentée par une flèche. Les références originales sont écrites avec une lettre minuscule et un nombre. Les références échangées dans une relation sont écrites sur l’arc de cette relation. Les 115 « Adopter » une information d’un topique implique que, l’utilisateur qui reçoit cette information (une référence), va créer une nouvelle référence pour la mettre dans un ou plusieurs de ses topiques personnels. 102 références adoptées sont écrites de façon similaire à la référence source (une lettre minuscule et un nombre), mais elles commencent avec le symbole « + ». Figure 3-10. Exemple du réseau social médiatisé. Nous modélisons ce graphe dirigé comme une matrice d’adjacence. Chaque élément de la matrice représente la relation entre deux topiques. Comme nous l’avons introduit préalablement, une relation est établie quand un utilisateur crée de nouvelles références à partir des références reçues d’autres utilisateurs. Afin de comprendre la dynamique des relations dans notre réseau, nous utilisons les indicateurs sociaux, que nous présentons dans la section suivante. 3.9.2.2 Calcul des indicateurs sociaux Nous avons déjà beaucoup mentionné l’utilisation des indicateurs sociaux afin de mieux choisir de possibles mises en relation de contacts (Vignollet et al., 2005). Nous présentons ces stratégies ici et un exemple dans la section 3.9.2.4. Si un indicateur quelconque est utilisé pour obtenir les caractéristiques importantes des éléments d’un contexte donné, dans notre contexte (les réseaux sociaux), nous cherchons à comprendre les propriétés structurelles ou informationnelles des membres du réseau, que permet la prolifération de connexions entre ses membres. Ainsi, l’utilisation d’un indicateur social permet de recommander un contact plutôt qu'un autre, pour améliorer la topologie du réseau de relations. Néanmoins, d’autres indicateurs peuvent exister. Les indicateurs que nous présentons ici sont issus de ceux que nous avons pu tester et formaliser dans nos expérimentations. Ils sont détaillés dans l’Annexe I-6. Nous les testons dans la section 4.2.4. Déjà dans le domaine de l’analyse de réseaux sociaux nous trouvons plusieurs indicateurs (§2.2.2.2), par exemple, un indicateur de centralité pour reconnaître les personnes qui gèrent la circulation de l’information ou un indicateur de densité pour montrer le degré de connectivité du graphe, etc., (§2.2.2). Nous nous sommes alors inspiré de ces types d’indicateurs pour construire les nôtres et ainsi mieux estimer les contacts à recommander et influencer ainsi la manière dont le réseau peut évoluer. Nous les utilisons alors comme un moyen de régulation d’échanges dans le réseau. 103 Pour calculer nos indicateurs sociaux (algorithmes SocialRank) il faut analyser les contributions des utilisateurs au réseau. Puis, les résultats de ces analyses vont nous permettre de filtrer la première sélection de recommandations obtenues à partir de l’algorithme de filtrage collaboratif expliqué dans la section 3.9.1.1. Les trois indicateurs sont calculés en utilisant la matrice adjacente (§2.2.2.3) représentative de notre réseau. Nous commençons par prendre en compte l'importance de chaque relation. Pour le faire, nous nous intéressons aux échanges de références entre topiques. Ainsi, chaque sommet (ou topique ; §2.2.2.1) est pondéré par une mesure W(e, f) défini dans l’Annexe §I-6.1.4. Cette mesure représente le nombre de documents reçus du topique f et référencés dans un topique e. Elle peut être vue comme l’importance de ce que le topique f donne au topique e. A partir d’elle, nous calculons la matrice W (de poids) avec chaque élément W(e, f) dont le topique e se trouve sur les lignes et le topique f sur les colonnes de la matrice W. Ainsi W(e, f) est calculé avec (Définition I-5, Annexe I-6) : W (e, f ) = Card * (e, f ) avec W(e, f) = 0 si Card(e) = 0 Card (e) (3) La Card*(e, f) inclut tous les documents ayant une référence avec le topique e et une référence avec le topique f ; la référence « source116 » est celle du topique f, adoptée par le topique e; la Card(e) est le nombre total de références dans le topique e. L’importance W des relations (3) est très utile pour calculer d’autres indicateurs. Nous nous intéressons maintenant à l’indicateur de la réputation. La réputation peut être vue commet la centralité d’un topique par rapport aux autres (introduit dans les premiers paragraphes du §2.2.2.2 et formalisé dans l’Annexe §I-6.1.7.3 et §I-6.1.7.4). Ainsi, le concept de « page » réputée (dans notre contexte ce serait un « topique » réputé) du point de vue de Page et collaborateurs (Page et al., 1998) en introduisant leur algorithme de réputation PageRank117, est en citant Ridings : “le PageRank d’une page est simplement une mesure de son vote; il peut distribuer son vote entre un lien ou deux liens ou plusieurs, mais la totalité de son vote sera toujours la même” (Ridings, 2001-url). Dans notre contexte, un topique sera réputé si les références qu’il contient sont appréciées par les autres utilisateurs. Ils lui donnent un vote positif en indexant les références qu’il indexe. L’indicateur de réputation ou rang de réputation (que nous baptisons RankReputation ou RR) est un vecteur de valeurs entre 0 et 1 pour chaque topique. Pour calculer ces valeurs, nous utilisons une mesure de réputation d’un topique. Elle est définie récursivement selon la réputation des topiques recevant de l'information à partir de lui-même. Chaque élément RR(e) du vecteur de réputation est défini selon la formule récursive (§I-6.1.7.4, Définition I16) : RR (e) = ∑ W (h, e)RR (h) 116 (4) Une référence est « source » d’un document par rapport à une autre, si elle a étiqueté en premier ce document. 117 Pour plus de détail sur cet algorithme, voir l’Annexe IV §IV.3 sur les algorithmes des moteurs de recherche. 104 Pour le calcul du vecteur RR, nous utilisons alors l'algorithme nommé PageRank, utilisé pour les pages de WWW (Brin et Page, 1998). Par contre, la matrice utilisée doit refléter une relation de réputation (« e donne de la réputation à f », f←e). Nous considérons que cette relation est l'inverse de la relation modélisée dans notre matrice W, qui reflète le flux d'information à travers les topiques (f→e). En effet, si un utilisateur fait référence aux documents reçus d’un topique f par son topique e, alors le topique e donne de la réputation (le vote) au topique f. Pour cette raison nous utilisons W(h, e) au lieu de W(e, h) pour le calcul de RR (e). L'algorithme de PageRank nécessite que les poids de la matrice adjacente W(e, f) soient modifiés en W*(e, f) afin d'avoir les propriétés de convergence nécessaires (Brin et Page, 1998). Ceci est partiellement atteint, parce que, une fois que les nouveaux poids W*(e, f) sont normalisés, ils représentent la probabilité pour qu’un document référencé avec le topique f soit référencé avec un topique e. Ainsi, notre matrice W correspond à une matrice stochastique. D’ailleurs, en suivant l'algorithme PageRank, nous complétons également le graphe avec de nouvelles connexions afin d'avoir tous les nœuds connectés. Pour calculer les indicateurs de redondance et d'originalité, nous définissons deux vecteurs. Premièrement le vecteur N(e) étant l’ensemble de tous les topiques n connectés au topique e (Définition I-4, I-6.1.1). Deuxièmement, nous définissons le vecteur P(e, f). Il représente la proportion de la relation entre le topique e et le topique f, parmi les relations de tous les topiques avec le topique e. P(e, f) est calculé avec la formule (Définition I-6, Annexe I-6) : W (e, f ) Si f ∈ N (e), alors P(e, f ) = sinon, P(e, f) = 0 (5) ∑ W (e, g ) n∈N ( e ) Un topique e est « redondant » avec un topique f si les deux obtiennent des références d’une même source. L'indicateur de redondance identifie donc les topiques redondants, non seulement selon leur contenu actuel, mais aussi selon leur capacité à agréger les contenus futurs venant des autres topiques. Explicitement, la redondance entre topique e et le topique f dépend de : ⋅ Si le topique f est connecté au topique e. Ceci signifie que le topique e a l'information du topique f. ⋅ Si les topiques connectés au topique e sont aussi connectés au topique f. Ceci signifie que les topiques qui envoient de l'information au topique e, l'envoient aussi au topique f. La redondance entre les topiques est calculée avec une matrice RED. Nous calculons RED(e, f) avec (Définition I-17, Annexe I-6) : RED (e, f ) = P(e, f ) + ∑ P(e, n)P( f , n) (6) n∈N ( e ) Pour calculer l’indicateur d’agrégation nous utilisons le vecteur N(e) pour obtenir le nombre de fournisseurs ou sources d’information (Définition I-4) de deux topiques : AGREG(e, f ) = ∑ inN n f ∈N ( f ) (7) E où inNE = 1 ssi nf ∈ N(f) ∧ nf ⊄ N(e) sinon inNE = 0 105 Ainsi la valeur d’agrégation d’un topique f par rapport à un topique e est mesurée avec la matrice AGREG(e, f). Finalement, nous calculons le vecteur Original pour représenter les topiques originaux. L'originalité d'un topique est mesurée suivant la nouveauté des URIs pointées par les références du topique, comparées avec les URIs des références reçues d’autres topiques. Un topique e est original, s'il contient plus de références pointant vers des URIs « découverts » par le propriétaire du topique, que celles reçues d’autres topiques. Il dépend aussi du nombre de références dans le topique. Nous calculons ce vecteur Original selon la formule suivante (Définition I-9, Annexe I-6) : Original (ti ) = 1 1 * ∑ ∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri ) (8) t j ∈T IR(ti) ⊆ R est l'ensemble références indexées dans ti (§I-6 I-1.k) ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri et pointé par ri | ri ∈ RU(lri) ⊆ R (§I-6 I-1.j.a ; §I-6 I-1.i) ri.li selon (§I-6 I-1.h) : une référence ri a un lien lri assigné, etc. ∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri) Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans le réseau sur un lien indépendamment de ses propriétaires. Dans la section suivante nous montrons l’utilisation de ces indicateurs, en termes de stratégies de l’utilisateur pour obtenir de l’information pertinente. 3.9.2.3 Stratégie de recommandations de contacts Pour trouver des contacts nous utilisons différentes stratégies d’obtention d’information. Pour cela, nous devons filtrer les recommandations de contacts obtenues à partir de notre algorithme de filtrage collaboratif grâce aux valeurs des indicateurs sociaux définis antérieurement. Pour trouver des contacts de qualité nous devons filtrer les premières recommandations issues de l’algorithme collaboratif grâce aux valeurs de nos indicateurs sociaux. Ces stratégies peuvent être choisies globalement par l’administrateur du système (§4.2.2.1) ou individuellement par chaque utilisateur si nous supposons que les utilisateurs chercheront à avoir des recommandations de contacts et donc à établir des relations [po01, p02]. Pour cela les stratégies d’obtention d’information sont importantes. Si l’utilisateur connaît les stratégies qu’il peut suivre, nous pouvons supposer que certains d’entre eux adapteront leurs comportements à leur convenance. 106 Grâce à l’utilisation de nos indicateurs pour le filtrage de recommandations, des utilisateurs ayant des intérêts similaires ne recevront pas forcement les mêmes recommandations de contacts en choisissant des stratégies différentes ! Ceci simplement parce que les positions des utilisateurs dans le réseau varient et parce que les stratégies d’obtention d’information varient d’un utilisateur à l’autre. Voici l’interprétation de nos stratégies pouvant être proposées à l’utilisateur : « Recherche de Réputés ». L'utilisateur a seulement confiance en des membres réputés qui filtrent l'information pour lui. « Recueillir Tout ». L'utilisateur veut obtenir les informations issues de ceux qui ont plus de fournisseurs ou sources d’information pour un topique, ainsi il aime rassembler le plus d'information possible : il aime thésauriser. « Aller aux Sources ». L'utilisateur veut obtenir rapidement l’information la plus récente en évitant les utilisateurs qui ne sont que des intermédiaires. Au début de nos analyses nous avons inclus une autre stratégie que nous baptisons « Recherche de Redondants », elle sert à garantir le cas où l’utilisateur veut avoir la couverture la plus large sur un topique. Plutôt qu’une stratégie, la recherche de contacts redondants sert à filtrer les recommandations de contacts. En effet, cette fausse stratégie n’est qu’un moyen pour choisir entre topiques qui apportent le même type d’information, un filtre pour dans le processus de recommandation de contacts. Afin de détailler l’utilisation de nos stratégies, nous présentons un exemple dans la section suivante. 3.9.2.4 Exemple de stratégies d’obtention d’information Notre exemple correspond à la Figure 3-10 dans laquelle il y a six acteurs, sept topiques montrés comme dossiers, et des références écrites avec une lettre minuscule et un nombre. Les valeurs ne sont pas ici normalisées. Une telle normalisation est prise en compte dans le service développé. Nous devons calculer premièrement la matrice W et la matrice P. Pour faire court, nous dirons que : le topique « Web Technologies » est équivalent à WT, le topique « New Technologies » est équivalent à NT, le topique « Online Communities » est équivalent à OC. De (3) nous calculons le W(WT, NT). Alors, nous avons : W (WT , NT ) = Card * (WT , NT ) 3 = = 0.75 Card (WT ) 4 (10) Nous supposons que b5 a été référencé par WT après avoir été référencé par NT. Le résultat (10) montre que la moyenne de l'information ayant été étiquetée par NT et WT est de 0.75. Noter que nous disons « après avoir été référencé », parce qu’il existe également la possibilité que WT reçoive directement l’information de NT si la relation entre les deux existe déjà. Si c’est le cas, W(WT, NT)=0.75 peut être interprété comme l’importance de ce que NT fournit à WT, c’est à dire, la proportion de références que WT a obtenu de NT. 107 Ci-dessous nous montrons les résultats de la matrice W (Tableau 2) et de la matrice P (Tableau 3) de notre exemple : NT W WT NT WT 0.75 Java OC 0.2 0.25 0.2 0.25 Tableau 3-1.Résultats de la matrice W. P NT WT Java OC NT WT 0.6 0.5 0.2 0.5 0.2 Tableau 3-2 Résultats de la matrice P. Avec la matrice P, nous obtenons la proportion de la relation entre WT et NT parmi toutes les relations avec WT : W(WT, NT) W(WT, OC) + W(WT, Java) + W(WT, NT) 3/ 4 = = 0.6 1/ 4 + 1/ 4 + 3 / 4 P(WT, NT) = La valeur 0,6 indique une relation importante entre les deux topiques. Elle montre la proportion de références que WT a obtenu auprès de ou à partir de NT, parmi tous les autres topiques qui ont étiqueté les mêmes références que WT. 3.9.2.4.1 Résultats de l’indicateur de réputation Pour obtenir les topiques ayant l’information la plus réputée, nous utilisons le vecteur RR (4) : Value RR Topic WT 0.095879 NT 0.080576 Java 0.07185 OC 0.07185 Developing 0.062746 Objects 0.062746 Internet 0.0616 Tableau 3-3. Résultats du vecteur RR. Si nous suivons la stratégie de recherche de réputés, nous obtiendrons RR(WT) =0.095879, RR(NT) = 0.080576 pour les topiques WT et NT. Ce résultat est interprété comme suit : 108 ⋅ Le topique WT est le plus « réputé ». Nous pouvons noter de la Figure 3-10, que même s'il n'a pas ses propres références, il a recueilli différentes références à partir de deux topiques ayant un bon niveau de réputation. Le WT fourni son information à deux autres topiques : Objets et Developping, ce qui lui donne un genre de crédibilité ou de réputation. ⋅ Le topique NT est au deuxième niveau de réputation. De la Figure 3-10, nous pouvons observer qu'il a recueilli différentes références de deux topiques avec un bon niveau de réputation. Cependant, il fournit seulement son information à un topique ! Il faut se rappeler que le calcul de RR est basé sur une mesure de centralité indiquant un degré de réputation (Brin et Page, 1998). Par contre, son niveau de réputation est suffisamment haut pour être gardé comme un candidat à recommander. 3.9.2.4.2 Résultats de l’indicateur de redondance Comme nous l’avons expliqué antérieurement, la matrice RED aide à connaître la redondance entre topiques. De (6), RED (WT, NT) peut être calculé comme : ⎡ ⎛ P(WT , OC ) P( NT , OC ) + ⎞⎤ ⎟⎥ ⎜ ⎢ RED(WT , NT ) = ⎢ P(WT , NT ) + ⎜ P(WT , Java) P( NT , Java) + ⎟⎥ = 0.8 ⎟⎥ ⎜ P(WT , NT ) P( NT , NT ) ⎢⎣ ⎠⎦ ⎝ Cette valeur indique la redondance entre WT et NT. Elle révèle que WT pourrait être une source d'information similaire à NT; par conséquent, il est pertinent de recommander seulement un des deux mais pas les deux ! RED Developing Objects Internet Developing Objects Internet NT WT Java OC NT 1.0 WT Java OC 0.5 0.2 0.5 0.2 1.0 1.0 1.0 0.2 0.8 Tableau 3-4. Résultats de la matrice RED. Un autre calcul similaire donne RED(NT, WT) = 0,2. Noter que RED(WT, NT) > RED(NT, WT) ! Ceci est un résultat important parce qu'il aide à décider quels topiques recommander selon la stratégie d’obtention d’information de l'utilisateur. 3.9.2.4.3 Résultats de l’indicateur d’originalité Pour obtenir les topiques sources d’information nous appliquons la formule (8). Les valeurs normalisées du vecteur Original sont montrées ci-dessous : Original (e) Topique Internet 1.0 Java 1.0 OC 1.0 109 NT WT Developing Objects 0.6 0.25 0.0 0.0 Tableau 3-5. Résultats du vecteur Original. Le résultat est interprété comme suit : Internet est le topique le plus original. L'originalité de ce topique est évidente parce qu'il est isolé, parce qu’il n'est pas redondant avec les autres et parce qu'il peut apporter une nouvelle information. Le topique Java et le topique Online Communities sont des topiques originaux également parce que les URIs pointés par ces références, ont été référencés avant les autres topiques (voir Figure 3-10). Cependant, si nous comparons leur position dans le vecteur Original, NT est plus original que WT. 3.9.2.4.4 Résultats de l’indicateur d’agrégation Pour obtenir les topiques agrégateurs d’information nous appliquons la formule (7). Les valeurs différentes de zéro sont : AGREG(NT, WT) =1, AGREG(NT, Objets) =1, AGREG(NT, Developing) =1, AGREG(Objets, WT) =3, AGREG(Objets, NT) =3, AGREG(Developing, WT) =3, AGREG(Developing, NT) =3. Cet indicateur permet de réponde à la stratégie « Recueillir Tout ». Le résultat est interprété comme suit : WT, Objects et Developing agrègent information pour NT. WT et NT agrègent information pour Objects. WT et NT agrègent information pour Developing. Nous pouvons alors constater que avec l’indicateur d’agrégation nous sélectionnons ceux qui ont plus d’information (selon leurs fournisseurs d’information). 3.9.2.4.5 Évaluation de résultats des indicateurs Les résultats des indicateurs que nous venons d’obtenir nous permettent de répondre aux stratégies choisies par les utilisateurs (§3.9.2.3). Supposons que Layda veuille obtenir des recommandations sur son topique Internet. Le calcul de similarités avec notre algorithme de filtrage collaboratif produira les recommandations suivantes118 : Internet → New Technologies Internet → Web Technologies De notre exemple, nous observons que ces trois topiques ont des références sur des URIs référencés dans la catégorie G d’ODP (même si leur intersection est vide !). Ces recommandations initiales vont être analysées par notre algorithme SocialRank. Le dilemme Une recommandation notée (t1 →t2 ), signifie que le propriétaire du topique t2 doit être dans la liste de distribution du topique t1, si c’est ne pas déjà le cas. 118 110 d’une telle analyse est de déterminer : quel topique recommander à Layda par rapport à son topique Internet ? Web Technologies ou New Technologies ? Les deux ? RED est une matrice importante parce qu'elle aide à décider si deux topiques sont redondants l’un avec l’autre. Avec elle nous pouvons répondre à la question lequel des deux est le plus pertinent à recommander, selon la stratégie de l’utilisateur ? Cette décision va être appliquée au topique Web Technologies (WT) et au topique New Technologies (NT). Notons que WT et NT ont été identifiés comme ayant une redondance non vide, un seul sera choisi selon la stratégie choisie. Celle-ci est : Chercher des Réputés : ceci mène à sélectionner le topique avec le plus haut indicateur de réputation ; la réponse du recommandeur serait WT. Recueillir Tout : le topique choisi serait WT, parce que la stratégie donne la priorité à ceux qui ont plus de fournisseurs ou sources d’information : AGREG(WT, NT) < AGREG(NT, WT). Cette résultat est renforcé par l’indicateur de redondance RED, par rapport à la plus haute valeur de redondance nous choisissons WT parce que RED(WT, NT) > RED(NT, WT) (renforçant l'approbation globale que WT recueille plus que NT). Aller aux Sources : le topique choisi serait NT, parce que la stratégie donne la priorité au plus original parmi les topiques avec un niveau suffisant de réputation. Il est très important de protéger le caractère privé de l’information des utilisateurs. Le système issu de notre approche ne permet à aucun utilisateur d’ajouter son identificateur aux listes de diffusion des topiques privés d’autres utilisateurs. Pour répondre à ces problématiques les recommandations affichées suggèrent uniquement les contacts à qui envoyer de l’information. Dans notre exemple, le recommandeur de contacts recommandera à Layda d’ajouter Michel (propriétaire de NT) ou Laurence (propriétaire de WT) à la liste de diffusion de son topique Internet (Layda ne verra pas les topiques correspondants). Nous supposons que l’utilisateur recevant la nouvelle information, ajoutera (éventuellement) à son tour Layda dans la liste de diffusion de son topique (assurant ainsi un retour d’information à Layda). Notez qu’afin d’encourager ce type de réciprocité, le recommandeur de contacts vérifiera à son tour, si le topique de Layda satisfait à la stratégie d’obtention d’information de Michel et de Laurence pour son topique NT et WT. 3.9.2.5 Calcul de toutes les recommandations possibles Pour calculer les recommandations, le recommandeur de contacts construit deux tableaux avec tous les topiques et leurs possibles relations : les topiques intéressants les uns avec les autres. Les topiques intéressants sont les topiques connectables selon les références qu’ils indexent. Elles sont obtenues grâce à notre algorithme SocialRank qui procède de la manière suivante. Pour chaque topique e il construit un autre tableau contenant tous les possibles envoyeurs d’information intéressante pour ce topique e. Pour chacun de ces envoyeurs f, il est associé une valeur correspondante au nombre de références pointant vers le même URI que topique e et envoyeur f ont en commun. Également, il existe un autre tableau, contenant tous les possibles récepteurs d’information intéressante pour un topique envoyeur. A chaque topique récepteur, il lui est 111 associé une valeur correspondante avec le nombre de références pointant vers le même URI que le topique envoyeur et le topique récepteur ont en commun. Nombre de références pointant vers le même URI que le topique envoyeur et récepteur ont en commun … Id_du_topique_envoyeur Id_du_topique_récepteur … … … Tableau 3-6. Tableau calculé après chaque itération, si il y a eu des échanges entre topiques. Il permet d’avoir les relations intéressantes à établir entre topiques : pour un topique récepteur, ses possibles topiques envoyeurs. Le tableau montré ci-dessus liste les possibles relations qui peuvent s’établir pour des topiques étant possibles récepteurs. Étant donné que nous testons des scénarios correspondant aux réseaux thématiques (tous les membres du réseau aiment le même type d’information), ce tableau sera symétrique au tableau des possibles relations qui peuvent se faire pour des topiques étant possibles envoyeurs (voir Tableau 3-6). Bien évidemment, le remplissage de ces tableaux respecte les droits de visualisation par topique (le contenu de leurs listes de diffusion). Étant donné que nos simulations utilisent les informations contenues dans ODP, ces données peuvent être vues comme équivalents à celles obtenues grâce à notre algorithme de filtrage collaboratif avec le processus de « crawling » sur le Web, que nous avons décrit dans la section 3.9.1.1. Id_du_topique_ récepteur Id_du_topique_envoyeur … … Nombre de références pointant vers le même URI que le topique envoyeur et récepteur ont en commun … … Tableau 3-7. Tableau calculé après chaque itération, s’il y a eu des échanges entre topiques. Il permet d’avoir les relations intéressantes à établir entre topiques : pour un topique envoyeur, ses possibles topiques récepteurs. Une fois que les topiques intéressants sont mis à jour pour chaque membre du réseau ou « Contact », des recommandations de contacts sont calculées selon la stratégie saisie à travers le paramètre « stratégie de personnes » où selon la stratégie associée de manière aléatoire, si la valeur saisie dans le paramètre « stratégie de personnes » a été -1. 3.9.2.6 Filtrage des recommandations selon la stratégie Pour filtrer les recommandations calculées, le système119 construit un autre tableau qui va prendre en compte la valeur de l’information contenue dans chaque topique. 119 Ou le simulateur dans le cas des simulations. 112 Nota : la valeur de l’information dépend du type d’information désirée de l’utilisateur qui la cherche. C'est-à-dire, si il cherche information réputée, alors sa valeur sera réputée, etc. Si le topique en cours appartient à un contact cherchant de l’information venant de contacts/topiques Réputés, le système calcule des possibles recommandations contenant des contacts/topiques Réputés pour ce topique en cours avec l’indicateur de réputation qui, dans le cas de nos simulations, utilise la mesure de réputation du degré (§I-6.1.7.3) : g RD(ti ) = g ∑m j =1 ji ∑m j =1 ji T −1 où implique le degré de sortie ti qui satisfait : ∀ti∈T, ∃tj |W(tj,ti)>0 De manière similaire, le calcul pour les utilisateurs cherchant des informations venant de contacts/topiques Originaux pour ce topique en cours avec l’indicateur d’originalité qui utilise le vecteur Original (Définition I-9, Annexe I-6) introduit dans la section 3.9.2.2 avec l’équation (8) : 1 1 Original (ti ) = * ∑ ∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri ) t j ∈T IR(ti) ⊆ R est l'ensemble références indexées dans ti (§I-6 I-1.k) ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri et pointé par ri | ri ∈ RU(lri) ⊆ R (§I-6 I-1.j.a ; §I-6 I-1.i) ri.li selon (§I-6 I-1.h) : une référence ri a un lien lri assigné, etc. ∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri) Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans le réseau sur un lien indépendamment de ses propriétaires. Nous calculons la valeur d’Agrégation de deux topiques (§3.9.2.2, formule (7)) pour répondre à la stratégie des utilisateurs cherchant à thésauriser l’information : AGREG(e, f ) = ∑ inN E n f ∈N ( f ) où inNE = 1 ssi nf ∈ N(f) ∧ nf ⊄ N(e) sinon inNE = 0 Également, il ne faut pas oublier de vérifier notre indicateur de Redondance (§3.9.2.2, formule (6)) qui utilise la mesure RED(e, f) selon la Définition I-17 de l’Annexe I-6 : RED (e, f ) = P(e, f ) + ∑ P(e, n)P( f , n) n∈N ( e ) Ainsi, ce tableau qui prend en compte la valeur de l’information contenue dans chaque topique (voir Tableau 3-8), liste tous les topiques vus comme récepteurs, avec des recommandations possibles selon la stratégie choisie. 113 De cette manière, à chaque topique récepteur lui est assigné un tableau listant ses possibles envoyeurs correspondant à sa stratégie choisie. Chaque topique envoyeur a assigné la valeur de son information selon la stratégie du propriétaire du topique récepteur : valeur de réputation ou d’originalité ou d’agrégation. Ces topiques envoyeurs sont listés en ordre décroissant de la valeur de leurs informations. Valeur de l’information contenue dans le topique envoyeur selon la stratégie du propriétaire du topique récepteur … Id_du_topique_envoyeur Id_du_topique_ récepteur … Id_envoyeur01 id_récepteur02_cherchant_Réputés … … Valeur de réputation du topique Id_envoyeur01 = 0,3 … … Tableau 3-8. Tableau prenant en compte la stratégie du contact/topique récepteur pour lui assigner de possibles topiques envoyeurs à recommander avec leurs valeurs selon la stratégie du topique récepteur. Dans la deuxième ligne (en grise), on voit un exemple d’un topique récepteur cherchant de l’information venant de possibles topiques envoyeurs réputés (en ordre décroisant de leur réputation). Le pas suivant consiste à faire un premier « filtrage » de ce tableau. Nous allons prendre en compte le « pourcentage de liste de topiques recommandés pour diffuser ». En effet, à chaque topique récepteur, nous lui assignons en vérité, seulement un pourcentage du tableau listant ses possibles topiques envoyeurs. Nous ne prenons que les premiers listés, c’est à dire, ceux ayant les valeurs plus élevées d’information selon la stratégie du propriétaire du topique récepteur (voir l’exemple du Tableau 3-9). Ce tableau va suivre un deuxième filtrage : cette fois, nous allons transformer le tableau en la transposant (voir l’exemple du Tableau 3-10). En effet, conformément à nos principe et mécanisme de la dynamique du système, nous devons faire des recommandations de diffusion d’information [p01 ; m01]. Alors, tout simplement, il faut lister les envoyeurs d’information dans le tableau final : le recommandeur de contacts doit faire des recommandations de diffusion d’information personnelle vers des contacts ciblés ! 114 Valeur de réputation =0,4 Valeur de réputation =0,3 … Id_envoyeur02 id_récepteur02_cherchant_Réputés Id_envoyeur01 … … première position dans la liste deuxième position dans la liste … Tableau 3-9. Première filtrage : ne laisser que les possibles topiques envoyeurs ayant les valeurs plus élevées. Se transforme en id_récepteur02_cherchant_Réputés Id_envoyeur01 … id_récepteur02_cherchant_Réputés Id_envoyeur02 … … Position dans la liste pour id_récepteur02_cherchant_Réputés =2 … Position dans la liste pour id_récepteur02_cherchant_Réputés =1 … … Tableau 3-10. Transposition du tableau de recommandation de topiques par stratégie. De cette façon, les valeurs associées aux topiques envoyeurs selon les stratégies des propriétaires des topiques récepteurs ont servi pour leur donner une position cible pour les topiques récepteurs. Ainsi, pour chaque topique envoyeur, nous listons leurs topiques récepteurs correspondants avec les positions déjà associées selon les stratégies de propriétaires de ces topiques récepteurs. Ce tableau transposé résultant (voir l’exemple du Tableau 3-10) est utilisé pour recommander des contacts. 3.10 Réseau personnel de l’utilisateur : son ego-network Les indicateurs sociaux décrits antérieurement sont associés aux topiques. En appliquant notre mécanisme de conscience sociale [m03] décrit dans la section 3.8, nous les utilisons aussi afin d'aider l’utilisateur à choisir des contacts recommandés. Une fois que la mise en relation est en place, il est aussi intéressant pour l’utilisateur de « se situer » par rapport aux autres dans le réseau. Notre mécanisme de conscience sociale assurera cette fonctionnalité. 3.10.1 Ego-network Nous montrons la position des utilisateurs, souvent qualifié de « réseau personnel » ou d’« ego network 120» (Figure 3-11 ; §3.12.3). Pour les analystes de réseaux sociaux, la 120 Un ego-network permet de représenter les personnes (alters) avec qui l’utilisateur (ego) collabore en qualifiant cette collaboration (Mcdonald, 2000). 115 position des utilisateurs est décrite en fonction de critères de connectivité ou de centralité121 de l’utilisateur (Freeman, 1979) ; de son statut de membre de sous-groupe du réseau d’ensemble, ou « clique » ou encore de son rôle de lien (« boundary-spanner » ou « pont » ou « liaison ») entre différentes cliques. La structure de l’ensemble du réseau est définie comme la configuration des relations parmi ses membres. Nous utilisons l’ego network pour montrer ce qu’un utilisateur u reçoit et de qui et également ce qu’il envoie et à qui (Borgatti, 1998-url). Nous qualifions ces échanges avec notre indicateur « niveau d’appréciation », qui est calculé dans une matrice nommée Appréciation. La valeur plus haute de Appréciation (u, v) indique que l’utilisateur v apprécie hautement l’information offerte par l’utilisateur u. Cette matrice se calcule avec la formule : Appréciati on(u , v) = ∑ ∑ W (i, j ) (9) i∈Tv j∈(Tu Ι N ( i )) Tu = l’ensemble de tous les topiques de u Tv = l’ensemble de tous les topiques de v N(te) ⊆ T = l'ensemble de topiques « voisins » du topique te (Annexe I-6, Définition I-4). Pour décrire les utilisateurs v appréciant l’information venant de l’utilisateur u, la description des utilisateurs sera montrée selon l’ordre décroissant de la matrice Appréciation (u, v) tandis que pour décrire les utilisateurs u appréciant l’information de l’utilisateur v, la description des utilisateurs sera montrée selon l’ordre décroissant de la matrice Appréciation (v, u). 3.10.2 Description de contacts Chaque utilisateur v donnant de l’information à l’utilisateur u est décrit dans l’ego network de u par la liste des topiques t de v ayant u dans sa liste de diffusion. L’affichage de chacun des topiques t indique, avec un logotype spécifique, si le topique t est le plus réputé, le plus original ou s’il a une valeur d’agrégation élevée pour un (ou plusieurs) des topiques de u. Un topique j est reconnu étant le plus réputé pour un topique i si et seulement si RR(i, j) est la valeur la plus haute de RR(i, h) pour tous les h appartenant à N(i). Un topique j est reconnu étant le plus original pour un topique i si et seulement si Original(i, j) est la valeur la plus haute de Original(i, h) pour toutes les h appartenant à N(i). Un topique j est reconnu étant le plus agrégateur pour un topique i si et seulement si AGREG(i, j) est la valeur la plus haute de AGREG(i, h) pour toutes les h appartenant à N(i). Nous pouvons également utiliser notre indicateur de redondance dans le cas de besoin de filtrage entre topiques redondantes : un topique j est reconnu ayant la plus haute redondance pour un topique i si et seulement si RED(j, h) est supérieur ou égal à RED(h, j) pour tous les h appartenant à N(i). 121 Pour nous la centralité dans un réseau social médiatisé est un indicateur de réputation. 116 Nous allons illustrer cela sur notre exemple. 3.10.3 Exemple d’ego-network Supposons que Laurence soit l’utilisateur u. Dans son ego network, Michel, Jean-Charles et Pascal sont les utilisateurs « sources » d’information. Ils seront listés par ordre décroissant de la matrice Appréciation(v, Laurence). La relation avec Michel est décrite par son topique NT, qui est montré étant le plus réputé pour le topique WT de Laurence et, également, NT apparaît comme ayant la plus haute valeur d’agrégation pour WT parce que AGREG(WT, NT) < AGREG(NT, WT) et RED(NT,OC) > RED(OC,NT) et RED(NT, Java) > RED(Java, NT). La relation avec Jean-Charles est décrite par son topique OC, qui est montré comme le plus original pour le topique WT de Laurence. Figure 3-11. Page de l’ego-network d’un utilisateur « X » connecté au système. Les logotypes à coté des noms de topiques reflètent la qualité d’un topique en tant que : source(s)-s ou (e) réputé-e ou (c) agrégateur-c, avec des valeurs supérieures à la moyenne de tous les topiques Les relations peuvent s’afficher à travers l’interface de l’ego-network de l’utilisateur (Figure 3-11). La visualisation de l’ego network d’un utilisateur u contient également une description des appréciations de l’utilisateur v sur l’information qu’il a reçue de u. Ces descriptions sont affichées selon l’ordre décroissant de Appréciation (u, v). Elles sont composées des topiques de l’utilisateur u qui sont appréciés par l’utilisateur v. La description de chacun de ces topiques t montre avec des pictogrammes, si le topique t est le plus réputé, le plus original ou s’il a la plus haute valeur d’agrégation pour un (ou plusieurs) des topiques de l’utilisateur v. L’ego-network de l’utilisateur est aussi montré dans la section 3.12.3. 117 3.10.4 Tactiques pour modifier l’ego-network Obtenir de l’information pertinente ou avoir le moyen de la détecter, incite les utilisateurs à s’impliquer dans la dynamique du réseau social d’où l’importance de modifier l’ego-network. Le fait de répondre à leurs objectifs de manière positive ne doit être que le résultat de plusieurs dynamiques inhérentes au réseau. Une dynamique importante résulte de la possibilité de lui montrer les rapports productions/consommation d’information dans son réseau[po04] afin qu’il puisse suivre des tactiques comportementales pour que le recommandeur de contacts lui apporte des recommandations pertinentes. Figure 3-12. Extrait de l'interface du réseau de contacts d'un utilisateur. Nous présentons ici la partie qui lui permet de suivre des tactiques comportementales pour enrichir ses informations personnelles. Ces tactiques sont montrées dans la Figure 3-12 et nous les décrivons ci-dessous : Contrôle de son ego-network. L’utilisateur peut à tout moment connaître la position de ses contacts. Le système lui affiche ses « fans » et ses « préférés ». Les fans des utilisateurs sont les personnes qui apprécient le mieux les informations qu’il leur envoie. Les préférés des utilisateurs sont les contacts dont il apprécie le plus les informations. Cette tactique lui sert à visualiser les échanges qu’il fait. Il peut suivre éventuellement122 la trace d’échanges de ses contacts avec d’autres membres du réseau ou se rendre compte du type d’information échangée entre contacts. Dans la Figure 312, c’est le lien appelé « Afficher Mon Réseau ». En affichant son réseau social, l’utilisateur va pouvoir par exemple privilégier les topiques recommandés appartenant aux utilisateurs préférés réputés, originaux ou agrégateurs par rapport à ses topiques. Il peut aussi savoir comment il est apprécié original, réputé ou agrégateur par rapport à d’autres. Il peut aussi connaître ses chances d’être recommandé et accepté par d’autres. Ceci peut donc influencer son comportement pour chercher à être mieux apprécié plus original ou expert. Il joue ainsi son engagement, sa motivation. Dans le cadre de cette thèse nous n’avons pas pu vérifier cette hypothèse. Recevoir plus d’information. L’utilisateur peut également demander au système de lui offrir de l’information adaptée à un besoin donné. Le système ne peut que lui offrir des informations étant déclarées publiques [po03]. Cependant, si les utilisateurs donnent de la crédibilité à l’information venant des humains [po01], nous lui présentons une 122 Selon le droit de visualisation de l’utilisateur sur les topiques affichés. 118 troisième tactique : diffuser ses informations. En effet, diffuser est une tactique pour recevoir par réciprocité. Recevoir plus d’informations d’un topique public d’un nouvel utilisateur permet de se faire connaître de celui-ci. Mais pour recevoir d’autres topiques il doit se faire recommander à d’autres. Et pour cela il doit avoir des topiques intéressants et des bonnes propriétés sociales pour être accepté. Diffuser ses informations. L’utilisateur doit suivre une dynamique de diffusion[p03, p04] pour recevoir des recommandations de qualité. Cette dynamique doit suivre ces pas, du point du vu de l’usager : Naviguer. C’est le fait de filtrer l’information du Web avec des critères personnels (humains). Par exemple, en utilisant un moteur de recherche, l’utilisateur ne prend que les résultats qui répondent au but de sa recherche. Indexer de l’information préférée. Avoir une taxonomie personnelle pour classer l’information résultat du filtrage de la navigation. Diffuser une partie de l’information personnelle à ses amis, à ses collègues, à ses employées, … aux contacts recommandés. Pour être reconnu et diffuser son information il doit aussi recevoir des recommandations et donc comme nous avons dit précédemment, avoir des topiques intéressants et des bonnes propriétés sociales. 3.10.4.1 Diffuser l’information personnelle Le fait de lui proposer ces tactiques comportementales pose encore quelques questions. Cette dynamique permet-elle de recevoir une information intéressante même si l’information n’est pas publique ? L’usager de notre système développera-t-il l’attitude de diffuser ? La réponse à ces deux questions sera validée avec nos évaluations (voir chapitre 4), mais nous pouvons déjà faire certaines intuitions. Voyons par exemple une exemple de dynamique d’échanges sur le diagramme ci-dessous. NNNAAAVVVIIIG G O GAAATTTIIIO ONNN L’utilisateur navigue sur Internet pour trouver des documents de son intérêt. FILTRAGE L’utilisateur découvre des documents intéressants. IIINNNDDDEEEXXXAAATTTIIIO O ONNN L’utilisateur indexe les documents issus de sa recherche dans sa taxonomie personnelle sur notre système. RECOMMANDEUR Le recommandeur analyse son profil (sa taxonomie personnelle) afin de lui proposer de possibles contacts ayant de l’information qui puisse enrichir la sienne. DDDIIIFFFFFFUUUSSSIIIO O ONNN L’utilisateur veut enrichir son information et demande au recommandeur. RECIPROCITE Le contact reçoit l’information de l’utilisateur. Il visualise son contenu. Si son Le recommandeur lui montre les contenu lui semble personnes ayant l’information de intéressant, il ajoute à ce contact dans le son intérêt. topique L’usager diffuse son information correspondant. au contact recommandé en espérant que celui-ci trouve intéressante le contenu des informations reçues Tableau 3-11. Dynamique de diffusion d'information avec une éventuelle réciprocité. La dynamique de diffusion d’information décrite dans le tableau ci-dessus est résumée dans le cas suivant. Un utilisateur navigue sur Internet, comme tout le monde le fait. Il trouve de l’information qui lui plait par rapport à un sujet donné. L’action typique, est de la garder dans ses favoris. Pour cette tâche il s’agit, par exemple sur IE123, d’aller au menu Favoris, choisir « Ajout de Favoris » et cliquer sur « OK » et éventuellement créer un dossier. Dans le cas 123 Internet Explorer. 119 de notre système, l’utilisateur peut auparavant ajouter un bouton-lien appelé « 1 click-Review ». C'est un lien qu'il suffit de copier/coller dans la barre de liens du navigateur. La fenêtre de notre système s’ouvre avec la possibilité d’indexer le document désiré dans sa taxonomie personnelle et d’éventuellement écrire un commentaire. Une fois que cette action est faite, le système infère deux choses : Quand l’utilisateur indexe, il donne sens à l’information indexée, il lui construit une meta-information, une connaissance sur son contenu. Donc, la pertinence du contexte de l’information est garantie. L’utilisateur n’indexe pas de choses incohérentes dans sa taxonomie. D’autre part, l’utilisateur a besoin de trouver une information plus complète124 sur l’information indexée (celle qui se trouve dans un ou plusieurs de ses topiques). Il demande alors au recommandeur de lui montrer des contacts susceptibles de l’avoir. Si les contacts ont cette information publique, le recommander la montre à l’utilisateur, sinon, le recommandeur lui montre l’identificateur du contact. A son tour, l’utilisateur diffus l’information de son topique au contact recommandé en espérant que lui, la trouvera intéressante : Si le contact trouve l’information intéressante, il peut à son tour, diffuser le topique ayant la robustesse cherchée par l’utilisateur, induisant une réciprocité aux échanges. Si l’information ne lui semble pas intéressante, l’utilisateur saura qu’il faut qu’il continue à indexer de l’information pertinente. Cependant, même si le contact ne lui diffuse pas l’information (pas de réciprocité aux échanges), il peut voir le profil de l’utilisateur et découvrir les topiques qu’il publie. L’utilisateur peut espérer également que le contact trouve une ou plusieurs de ses informations publiques intéressantes pour qu’en retour puisse s’établir l’échange de son intérêt. Avec cet exemple nous exploitons une double finalité : Faire que les utilisateurs indexent plus d’informations dans ses topiques, afin d’obtenir de retours informationnels intéressants et pertinents. Faire que les utilisateurs publient ses informations, pour se faire connaître face aux autres membres du réseau, afin d’élargir leur ego-net et par conséquent, le moyen d’accès aux informations. 3.10.4.2 Classement des utilisateurs Le système peut également montrer l’état des contributions de l’utilisateur au réseau par rapport à ses fans et à ses préférés. De cette façon il est possible de savoir quels sont les bénéfices qu’il obtient du media social : Par exemple, reçoit-il du système plus qu’il n'apporte ? Ces informations respectent toujours les droits de visualisation des membres du réseau. De cette manière, dans le réseau de contacts de chaque utilisateur, les contacts fans et préférés seront classés selon leur rang de Réputation et d’Originalité de l’information qu’ils gèrent (voir les vignettes « Topiques de contacts réputés », « Topiques de contacts sources » et « Topiques de contacts agrégateurs » de la Figure 3-11). La valeur de réputation d’un 124 Selon l’objectif choisi de l’utilisateur. 120 utilisateur u est la somme du vecteur RR(j) pour tout topique j appartenant à u. De façon similaire, nous calculons l’originalité (source d’information) de l’utilisateur, c’est la somme du vecteur Original(j) pour tout topique j appartenant à u. Un utilisateur peut être classé avec un faible rang de réputation si peu d’utilisateurs apprécient ses informations. Cependant, il pourra être classé avec un haut rang d’originalité s’il apporte au réseau beaucoup d’informations nouvelles. Il découle de l’étude de la littérature sur les systèmes de recommandation, des utilisateurs essayant d’influencer le flux d’information à leur profit avec de la publicité ou du pollupostage. Nous avons établi les stratégies d’obtention d’information et les tactiques comportementales des utilisateurs précisément pour éviter ces actions. Les utilisateurs « pollueurs » ne seront pas aperçus par les autres comme ayant du contenu pertinent et ils seront discriminés125 et ils se verront bientôt isolés (sans contacts). Cela sera reflété sur l’interface (monitorage126) du réseau social. 3.11 Revue des concepts de notre approche Nous avons expliqué dans cette section les grandes lignes utilisées pour constituer le cadre théorique de notre approche : les postulats, les hypothèses, les principes, les concepts clés et les mécanismes pour constituer une dynamique d’échanges d’information dans un réseau social médiatisé. Le diagramme de classes de la Figure 3-13 ci-dessous montre bien les principaux composants mis en jeu dans notre proposition et leurs relations. Figure 3-13. Diagramme UML des principaux composants de notre proposition mis en jeu et de leurs relations. 125 Un utilisateur peut annuler le flux d’information venant d’une personne donnée. Le « monitorage » du réseau social est garanti grâce au type de conscience sociale dans le système, que nous détaillons plus tard. 126 121 La gestion de favoris est l’association entre le Contact et le Gestionnaire d’information personnelle. Cette association développe la nature individualiste des utilisateurs [po03] et pour cela nous lui offrons le contrôle sur ses informations [p02]. Cependant, un Contact décide de participer au Réseau Social. Ceci implique d’accepter la dynamique du réseau et donc, l’association « participe » implique la gestion de favoris (décrit ci-dessus), la recommandation de contacts et la conscience d’autres membres du réseau social [po06]. Pour que cette dynamique du réseau se mette en place, il faudra que le Contact maintienne sa Taxonomie en indexant des Références (avec ses Topiques) pour les échanger [h01;po04]. Les échanges déclenchent des recommandations selon des analyses sociaux et du filtrage collaboratif (utilisant des annuaires), des analyses sur les membres [po01;po02] et des analyses sur la qualité [p04] du réseau (application des indicateurs sociaux [h02]à travers nos algorithmes SocialRank). Les recommandations générées sont validés du point du vue objectif du système pour que la structure du réseau social soit de qualité [h03;p04]. Dans cette même dynamique, l’association récursive entre les rôles « expéditeur »/« récepteur » d’un Contact permet la construction de la connaissance collective, l’échange de recommandations pertinentes [p01] et donc de qualité [p05]. De cette manière, pour vérifier nos hypothèses nous avons conçu : un système d’échange de « favoris » basé sur l’échange entre personnes et un recommandeur de contacts pour influencer la dynamique du réseau. Nos hypothèses doivent permettre le déploiement des objectifs des utilisateurs et nos critères de qualité à optimiser le déploiement des objectifs du système. Les moyens pour atteindre ces objectifs sont les mécanismes de régulation qui utilisent des indicateurs sociaux. Ces éléments sont synthétisés dans le tableau ci-dessous. Éléments que nous voulons offrir à l’utilisateur Critères de qualité globale du système Critères de qualité qui vont permettre de déterminer l’efficacité du système pour optimiser le réseau. Mécanismes de Régulation Moyens pour permettre des relations pour satisfaire les objectifs des utilisateurs et la qualité du système. Indicateurs sociaux Ensemble de caractéristiques sociales qui vont permettre de valider nos hypothèses. - Originalité. Mesurée avec I.1.7.1. - Réputation. Mesurée avec Vitesse de réactivité à l’information nouvelle Pertinence Motivation Éviter la prolifération des Gourous Engagement Coût du Réseau Efficacité du Réseau Mécanisme de recommandations Mécanisme de gestion et diffusion de l’information. Conscience sociale I.1.7.3 - Agrégation. Mesurée avec I.1.7.10. - Redondance. Mesurée avec I.1.7.5. D’autres formules qui aident à valider ces indicateurs sociaux : - Efficacité du réseau (selon une calcule d’efficacité locale et le coût) - Coût du réseau - Réactivité à l’information nouvelle Tableau 3-12. Éléments de notre approche pour la dynamique des réseaux sociaux. 122 L’objectif du système (et donc de notre approche) est d’appliquer des critères de qualité pour optimiser la structure d’un réseau social. De cette façon nous avons construit un support pour une dynamique en réseau, qui utilise nos mécanismes de régulation et de conscience sociale en tenant compte des critères que nous considérons importants à développer pour obtenir un réseau ayant une topologie optimale. Ces critères sont analysés grâce à notre algorithme SocialRank, qui utilise les mesures de nos indicateurs sociaux. 123 124 SSeeccttiioonn 44.. D Deessccrriippttiioonn d du u SSyyssttèèm mee rrééaalliisséé Nous avons développé SoMeONe comme un prototype intégrant des caractéristiques de gestionnaire d’information et de contacts personnels du réseau. 3.12 Fonctionnalités Dans cette section nous présentons le fonctionnement général127 du système que nous avons construit : La navigation dans l’information avec SoMeONe. Grâce à notre système, l’utilisateur peut naviguer sur le Web et récupérer facilement de l’information. L’information récupérée sera indexée dans SoMeONe dans la taxonomie personnelle de chaque utilisateur, c’est à dire, dans leurs topiques ; La gestion d’informations. Pour gérer sa taxonomie, chaque utilisateur peut compter avec une série d’outils que SoMeONe lui offre afin de lui faciliter la tache d’indexation. Ego-network. L’ego-network ou réseau personnel de contacts de l’utilisateur, se construit grâce à la dynamique d’échanges d’informations (information reçue et information envoyée) dans son réseau de contacts. Les personnes qui interviennent dans un tel réseau sont les personnes qui reçoivent de l'information et les personnes qui envoient de l'information. La gestion de contacts. L’indexation d’information se fait sous les topiques de la taxonomie. Chaque topique est associé à une liste de diffusion. Dans ces listes l’utilisateur intègre les contacts de son choix. A cette fin, SoMeONe lui offre également une série d’outils de gestion. 3.12.1 La navigation avec SoMeONe L’utilisation de SoMeONe peut être vue comme une page personnelle permettant à l’utilisateur l’accès au Web. Hors cette page personnelle, SoMeONe offre des facilités d’indexation de « documents128 », c'est-à-dire de références. 3.12.1.1 Une interface personnelle L’utilisateur a son espace personnelle sous la forme d’une page Web, voir la Figure 3-14 ci-dessous. Le système lui présente sa taxonomie personnelle du coté gauche et le contenu de ses topiques de coté droit. En haut, ils lui sont présentés les liens pour la gestion de ses topiques personnels, de ses topiques reçus et de son réseau de contacts. 127 Pour connaître en détail ces fonctionnalités il faudra s’adresser à l’annexe II-7. Rappelez-vous que dans SoMeONe, quand nous parlons de « documents » nous faisons référence à l’« information indexée » par l’utilisateur. Notez que l’information indexée par l’utilisateur dans ses topiques est celle que nous avons définie comme une « référence » à un document mono ou multimédia accessible sur le Web. Donc, ces références ont le rôle des liens que normalement, l’utilisateur a l’habitude de mettre dans un répertoire de favoris. 128 125 User-Test User-Test Figure 3-14. Page personnelle d'un utilisateur dans SoMeONe129. Chaque élément de cette page sera décrit dans les sections suivantes. 3.12.1.2 Faciliter la navigation Pour faciliter le processus d’indexation, nous avons intégré un raccourci qui permet d’intégrer des nouvelles informations dans la taxonomie des utilisateurs. De cette façon, l’utilisateur dispose d’un bouton (lien) placé de manière optionnelle sur la barre de liens de son navigateur. Ce bouton s’appel le « 1 click-Review ». Lors de prochaines recherches sur Internet, si l’utilisateur trouve un document Web intéressant, il lui suffit de cliquer sur le lien « SOMEONE ». Une nouvelle fenêtre s'ouvre sur le formulaire d'ajout d'information. Le titre, l'URI et le texte sélectionné dans la page sont envoyés automatiquement à ce formulaire. L’utilisateur n'a alors plus qu'à sélectionner un ou plusieurs de ses topiques et la référence est créée. 3.12.2 Gestion d’informations Le profil de l’utilisateur (§3.7.1.3) est constitué de ses informations personnelles. Celui-ci est géré sur forme de sa taxonomie personnelle, qui est composée de topiques et sous-topiques et que nécessite également la gestion des listes de diffusion associées. 3.12.2.1 Profil de l’utilisateur L’utilisateur contrôle l’information sur son profil tel que son identificateur (le nom avec lequel les autres membres du réseau le reconnaîtront), son mot de passe, son courrier électronique (public ou privé selon sa préférence) et éventuellement le lien vers sa page personnelle. 3.12.2.2 Taxonomie personnelle Pour la gestion de sa taxonomie personnelle il doit manipuler diverses actions sur ses topiques. Les actions possibles sur un topique sont proposées dans la fenêtre de gauche de la page « Mes Topiques ». On peut créer, modifier, diffuser, déplacer ou supprimer un topique en 129 Chaque symbole « V » à coté d’une étiquette montre à l’utilisateur, au passage du pointeur de la souris, une description de l’action ou l’affichage liée à l’étiquette (par exemple, au passage sur le ? de « mon réseau », la liste des contacts du réseau de l’utilisateur et les actions possibles sur les contacts seront affichées). 126 cochant le topique concerné dans la fenêtre de gauche de la page « Mes Topiques » et en sélectionnant l’action (voir Figure 3-14 à gauche). 3.12.2.2.1 Code de couleurs de topiques Le système offre un code de couleurs afin de visualiser l’état des topiques : le rouge indique que le topique est privé. Si tous les topiques sont privés, l’utilisateur n’est même pas considéré comme possible contact à recommander dans SoMeONe ! Exemple dans la Figure 3-14 : « A Étiqueter ». Le vert indique que le topique est public, visible de l’extérieur (voir Figure 3-14 : « essai de dépôt » et « Dico »). La couleur orange indique que le topique n’est diffusé qu’à certaines personnes (voir Figure 3-14 : « A Regarder »). Le surlignage en jaune identifie le topique dont l’utilisateur peut voir les références en partie droite (voir Figure 314 : « Dico »). 3.12.2.2.2 Documents reçus Chaque fois qu’un membre du réseau indexe des références dans ses topiques, tous les contacts dans les listes de diffusion correspondantes recevront automatiquement l’information indexée. Pour visualiser cette information reçue, chaque utilisateur a un lien appelé « Docs Reçus ». Il est possible donc que l’utilisateur puisse consulter à tout moment, les références qu’il reçoit et également celles qu’il envoie. Pour que de tels échanges se produisent, il faut d’abord que chaque utilisateur puisse contrôler à qui il veut diffuser ses informations personnelles, c’est à dire, les références contenues dans leurs topiques. A ces fins, le système permet la gestion de listes de diffusion, comme décrit ci-dessous. 3.12.2.2.3 Listes de diffusion La gestion de listes de diffusion par topique permet de diffuser un topique désiré et ne le rendre visible qu’aux personnes choisies inscrites à SoMeONe. Ceci peut se faire soit en sélectionnant des contacts préexistants, soit en indiquant : le login visible en première page de SoMeONe l’adresse mail déclarée lors de l’inscription à SoMeONe (visible en rentrant chez l’utilisateur souhaité et en cliquant sur « Informations » dans le bandeau supérieur de SoMeONe). La gestion de listes de diffusion par topique implique la possibilité d’échanger de l’information, comme nous l’expliquons dans la section ci-dessous. 3.12.2.3 Échange de l’information Grâce aux listes de diffusion, SoMeONe permet l’échange des informations indexées. Avec SoMeONe l’utilisateur peut donc envoyer ou recevoir des références et diffuser des topiques. 127 Le partage d’une référence dépend du degré de confidentialité du topique dans lequel il est classé130. De cette manière, l’utilisateur peut connaître ses : « Topiques reçus » : les topiques auquel l’utilisateur s’est inscrit et donc desquels il va recevoir de l’information. « Topiques envoyés » : les topiques que l’utilisateur diffuse ou auxquels des utilisateurs se sont inscrits. Le partage d’information, issu de la gestion de listes de diffusion par topique implique la gestion de contacts que nous détaillons ci-dessous. 3.12.3 Ego-network de l’utilisateur L’ego-network de l’utilisateur se construit grâce à la dynamique d’échanges d’informations (information reçue et information envoyée) dans son réseau de contacts. Les personnes qui interviennent dans un tel réseau sont : Les contacts qui reçoivent de l'information. Ces personnes peuvent au même moment se diviser-en : Ceux qui reçoivent de l'information et se l'approprient en l’indexant dans leurs propres topiques. Ceux qui reçoivent information mais la lisent sans l'indexer. Ceux qui reçoivent de l'information et décident de ne pas continuer à la recevoir, simplement parce que l'information n'est pas pertinente. Les contacts qui envoient de l'information. Pour ces contacts, l'information qu'ils produisent peut provoquer l'intérêt d'autres contacts qui sont : Ceux qui aiment cette information et l’indexent dans leurs propres topiques. Ceux qui simplement reçoivent de l'information, la lisent sans l'indexer. Ceux qui reçoivent information et décident de ne pas continuer à la recevoir, simplement parce que l'information n'est pas pertinente pour eux. De cette manière, selon le type de contacts, il est possible d’identifier pour un utilisateur131 : Les préférés de l’utilisateur. « Les préférés de l’utilisateur sont les contacts propriétaires de topiques que l’utilisateur apprécie ». L'appréciation que l’utilisateur fait sur le contenu des topiques de ses préférés est calculée si l’utilisateur crée une référence sur les références contenues dans les topiques qu’il reçoit et l’indexe dans se(s) propre(s) topique(s). C'est à dire, quand l’utilisateur indexe des références pointant vers les mêmes documents Web que ses préférés ont déjà indexés132. Bien évidement, pour que l’utilisateur puisse indexer les références de ses préférés, il faut : soit que le topique du préféré soit public et que l’utilisateur se soit préalablement inscrit dans sa liste de diffusion de manière volontaire, soit que le contact préféré ait ajouté l’identificateur de l’utilisateur dans la liste de diffusion de son/ses topique(s). 130 Un topique peut être privé, public ou semi-public, c’est-à-dire diffusé qu’à certains utilisateurs. Pour convention, nous utilisons l’« utilisateur » quand nous faisons référence à l’utilisateur courrant ou connecté au système. Ses contacts sont les autres personnes avec lesquelles il échange des informations. 132 Processus de co-citation : création de références sur un même document. 131 128 Les fans de l’utilisateur. « Les fans de l’utilisateur sont les contacts ayant créée des références sur les références que l’utilisateur avait créées ». L'appréciation que font leurs contacts fans sur un ou plusieurs topiques de l’utilisateur est calculée si ces fans créent des références sur les références contenues dans les topiques reçus, venant de l’utilisateur. Bien entendu, pour que leurs fans puissent indexer références sur les références de l’utilisateur, il faut : soit que le topique de l’utilisateur soit public et donc ses fans se soient inscrits dans la liste de diffusion de manière volontaire, soit que l’utilisateur ait ajouté l’identificateur de ses fans dans la liste de diffusion de son/ses topique(s). L’ego-network de l’utilisateur se présente selon l’interface ci-dessous : Figure 3-15. Interface correspondante à l'ego-network de l'utilisateur, qui liste les contacts de l’utilisateur connecté selon l’ordre d’appréciation : comment l’utilisateur est apprécié par ses fans ou l’appréciation que l’utilisateur a de ses préférés (IDEM Figure 3-11). Pour les autres options de l’interface de « Mon réseau », SoMeONe affiche : Les topiques de contacts Réputés. Le système affiche les topiques réputés qui sont accessibles à l’utilisateur. Un topique est dit réputé lorsqu’il contient de l’information très appréciée par d’autres personnes. Les topiques Sources. le système affiche les topiques originaux qui sont accessibles à l’utilisateur. Plus un topique indexe des nouvelles références dans SoMeONe, plus il est considéré comme « original ». Dans ce cas, une référence est « nouvelle » si elle n’émane pas d’un topique d’une autre personne. Les topiques Agrégateurs. Le système affiche les topiques qui agrègent d’autres topiques. Un topique a une grande valeur d’agrégation lorsqu’il agrège des informations provenant de nombreux topiques. C’est très utile pour reconnaître un topique qui contient le plus d’information représentative d’un sujet. 3.12.4 Gestion de Contacts L’apport de notre approche est l’utilisation de réseaux sociaux afin de trouver des contacts qui puissent apporter de l’information adaptée à chaque membre du réseau. La 129 gestion de contacts s’avère donc incontournable pour que l’utilisateur contrôle : l’état de sa position dans le réseau vis à vis des autres, ses diffusions (topiques reçus et topiques envoyés), les possibilités d’enrichir le contenu de ses informations personnelles et/ou élargir ses domaines d’intérêt ou compétences. La gestion du réseau de contacts se fait à partir du lien « Mon réseau » qui présente l’interface décrite ci-dessous : Figure 3-16. Interface présentée à partir du lien "Mon réseau". Les liens sont représentés en gras et couleur bleue. De cette façon, le réseau de contacts se construit à partir des échanges entre les membres du système. Pour visualiser son réseau, l’utilisateur a le lien appelé « Mon Réseau ». Celui lui mène dans une page que lui offre différents choix : Afficher son réseau personnel (ou ego-network du point de vue de sociologues). Le réseau personnel de chaque membre est présenté par contacts avec lesquels il échange de l’information : ceux à qui il envoie et ceux de qui il reçoit. Recherche d’information à partir du recommandeur de contacts. Dans SoMeONe l’utilisateur a toujours le contrôle sur le type d’information qu’il souhaite trouver, pour cela le système met à sa disposition une série de stratégies (§3.9.2.3) et de tactiques comportementales (§3.10.4). Cependant, l’utilisateur n’obtient pas d’information mais des contacts susceptibles de l’avoir. Ces contacts sont obtenus grâce à l’utilisation du recommandeur de contacts du système. 3.12.5 Recommandeur de Contacts La recherche d’information, à partir du recommandeur de contacts proposé par SoMeONe est le cœur de notre approche. L’idée est d'influencer le flux d’information adaptée à chaque membre du réseau. Pour ce faire, SoMeONe offre une page pour trouver des contacts susceptibles d’offrir de l’information intéressante pour l’utilisateur du système. Nous considérons que l’utilisateur de notre système connaît la dynamique d’échanges proposée par le système. Cette dynamique se base sur le principe [p03] à partir duquel nous spécifions que pour se maintenir dans le réseau, il faut diffuser ou échanger une partie de son 130 information personnelle, et sur [p04] à partir duquel nous pouvons garantir la « qualité » de l’information qui circule dans le système seulement si l’utilisateur gère une information personnelle de « qualité ». De ce fait, un utilisateur peut utiliser le système de recommandation de contact pour : Recevoir plus. C’est le cas quand l’utilisateur demande au recommandeur de contacts de lui proposer des nouveaux contacts susceptibles de l’intéresser. Notez qu’avant tout, SoMeONe doit garantir le caractère privé de l’information, donc, les seules recommandations pouvant être proposées sont celles correspondantes aux topiques déclarés publics auxquels l’utilisateur n’accède pas encore. Figure 3-17. Interface correspondante à « Recevoir Plus ». Dans la partie supérieure droite, il y a des liens selon la stratégie d’obtention d’information de l’utilisateur, puis le texte explicatif de l’interface et en bas, une liste de topiques publics qui ne se trouvent pas dans les recommandations de topiques publiques recommandés. Dans le cas de cet exemple, il n’y a pas de topiques publics autres dans le système pour cet utilisateur. Diffuser plus. Dans ce cas quand l’utilisateur, conscient de l’importance de sa participation aux échanges pour obtenir des recommandations de qualité, décide de diffuser ses informations personnelles. Mais il ne va pas les diffuser à n’importe qui. Il utilise le recommandeur de contacts pour que celui-ci lui dise à qui il doit diffuser, en espérant qu’en retour, l’utilisateur à qui il diffuse lui envoie de l’information intéressante. 131 Figure 3-18. Interface correspondante à « Diffuser Plus ». Dans la partie supérieure droite, il y a des liens selon la stratégie d’obtention d’information de contacts de l’utilisateur, puis le texte explicatif de l’interface. L’utilisateur est également averti que les contacts qui lui seront recommandés n’ont pas de topiques susceptibles de l’intéresser et déclarés publics. L’utilisateur ne pourra voir que le profil public des contacts recommandés pour décider de suivre les recommandations proposées. 3.12.5.1 Recommandation de topiques publics Les recommandations des topiques publics susceptibles d’intéresser l’utilisateur sont listées selon les trois stratégies possibles d’obtention d’information que le système offre : Recommandation de topiques publics de contacts Réputés. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés pour chacun des topiques de l’utilisateur selon l’ordre de leur réputation. Recommandation de topiques publics de contacts Sources. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés pour chacun des topiques de l’utilisateur selon l’ordre de leur originalité. Recommandation de topiques publics de contacts avec Agrégation. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés pour chacun des topiques de l’utilisateur selon l’ordre de leur valeur d’agrégation. Pour l’affichage de recommandations, pour chacune des stratégies listées ci-dessus, l’utilisateur verra deux colonnes. La première intitulée « Pour votre topique » liste ses topiques ayant des recommandations. L’autre intitulée « s’ajouter dans le(s) topique(s) » liste pour chacun de topiques listés dans la première colonne, les recommandations selon l’ordre de leur réputation. Les topiques recommandés sont affichés selon : Un lien sur son nom, qui permet l’accès à son contenu. Un symbole cliquable, qui affiche sa valeur de réputation. Un lien sur l’identificateur de son propriétaire, qui montre son profil public. 132 Figure 3-19. Interface correspondante à la « Recommandation de topiques publics des contacts Réputés ». Une interface similaire est présentée pour les options « Recommandation de topiques publics Sources » et « Recommandation de topiques publics avec Agrégation ». Dans le dernier cas, c'est-à-dire pour l’affichage de topiques publics de contacts avec Agrégation, la deuxième colonne montre pour chaque topique de l’utilisateur, une liste de topiques agrégateurs pour le topique de l’utilisateur. Jusqu’ici nous avons décrit la recommandation de topiques ou plutôt le contenu des topiques. Cependant, nous nous intéressons aux contacts. La partie la plus intéressante est liée à la dynamique de recommandation de contacts décrite ci-dessous et qui dépend de la participation des utilisateurs et de la qualité de leurs informations. 3.12.5.2 Recommandation de contacts Les recommandations des topiques privés susceptibles d’intéresser un utilisateur sont interdites. Ceci suit notre volonté de respecter le caractère privé de l’information personnelle des utilisateurs. Ainsi, nous introduisons une dynamique de participation motivée [po04] qui doit garantir la satisfaction de recommandations [p02], obtenue grâce aux propres membres du réseau [p03] vis à vis de tous. Nous appliquons donc les mécanismes [m01 ; m02] que nous avons défini et la régulation (§3.1.2). De cette manière, les recommandations de contacts susceptibles de maintenir de l’information intéressante pour l’utilisateur, sont listées selon les trois stratégies possibles que le système offre : Recommandation de contacts avec topiques Réputés. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les membres du réseau ou contacts possibles, n’ayant pas de topiques publics susceptibles d’intéresser l’utilisateur mais qui maintiennent des topiques privés susceptibles de l’intéresser. Ceci se fait pour chacun des topiques de l’utilisateur, selon l’ordre de réputation du topique (ou des topiques) du contact recommandé. Recommandation de contacts avec topiques Sources. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les contacts susceptibles de l’intéresser pour chacun des topiques de l’utilisateur selon l’ordre de leur originalité. Recommandation de contacts avec topiques avec Agrégation. Le résultat de recommandations selon cette stratégie montre à l’utilisateur les contacts susceptibles de 133 l’intéresser pour chacun des topiques de l’utilisateur selon l’ordre de leur valeur d’agrégation. Figure 3-20. Interface correspondante à la « Recommandation de contacts avec topiques Réputés ». Une interface similaire est présentée pour les options « Recommandation de contacts avec topiques Sources » et « Recommandation de contacts avec topiques Agrégateurs ». Pour l’affichage de recommandations, pour chacune des stratégies listées ci-dessus, l’utilisateur verra deux colonnes. La première intitulée « Ajouter dans » liste ses topiques ayant des recommandations de contacts. L’autre intitulée « au(x) contact(s) » liste pour chacun de topiques listés dans la première colonne, les recommandations de contacts selon l’ordre de réputation de leurs topiques. Les contacts recommandés sont affichés selon : Un lien sur son nom, qui permet l’accès à son contenu. Un symbole cliquable, qui affiche sa valeur de réputation. Un lien sur l’identificateur de son propriétaire, qui montre son profil public. Dans le cas « Recommandation de contacts Agrégateurs », la deuxième colonne montre pour chaque topique de l’utilisateur, une liste de topiques agrégateurs pour le(s) topique(s) de l’utilisateur. Nous avons également la possibilité de montrer le rang de membres (selon droits de visibilité) du réseau de relation des utilisateurs. 134 de réputation réputation de réputation Figure 3-21. Interface correspondante à « Rang de contacts ». Pour ceux qui n’appartiennent pas au réseau de relation des utilisateurs, nous présentons tout simplement les topiques public existants. Dans la figure ci-dessous nous présentons l’interface qui représente le fait de vouloir connaître d’autres membres du réseau. A cet effet, le système présente à l’utilisateur une liste avec le nom de personnes ayant de topiques publics, sur forme d’accès à leurs pages personnelles. Figure 3-22. Interface correspondante au fait d’aller sur le lien « D’autres contacts ». Nous pensons qu’en présentant à l’utilisateur les topiques publics hors l’intérêt inhérent à son profil personnel, il peut éventuellement s’intéresser à des nouveaux sujets et de cette façon ouvrir son réseau de relations. 3.13 Architecture informatique L’architecture générale du système présente à l’utilisateur étant connecté sur SoMeONe (Plu et al. 2003 ) son information personnelle avec des éléments de : Navigation Une interface personnelle, son site sur notre système. Un bouton (lien) placé de manière optionnelle sur la barre de liens de son navigateur. Ceci afin de lui faciliter la tâche d’indexation d’information pendant la navigation. Gestion de ses informations : L’information sur son profil général. La gestion de sa taxonomie personnelle. La gestion de listes de diffusion par topique. Gestion de Contacts : Une page pour atteindre ses objectifs de recherche d’information à partir du recommandeur de contacts. 135 Figure 3-23. Architecture fonctionnelle de SoMeONe. Nous utilisons Jalios Content Management Suit (www.jalios.com) pour développer le serveur d’application. Nous avons utilisé la partie «JCMS» afin d’expérimenter notre système. Bien évidemment, nous sommes conscients que pour placer notre système sur Internet de manière définitive, il faudra définir une solution plus légère et standardisée. Dans les sections suivantes nous présentons le serveur JCMS d’application du système et notre outil de filtrage collaboratif. 3.13.1 Serveur d’application du système : JCMS Jalios JCMS est une application de gestion de l’information qui fournit au travers d’un progiciel intégré des services de gestion de contenu et de GED légère, des outils collaboratifs et de portail documentaire; il fournit un référentiel pour gérer l’ensemble des documents et des publications, et supporte les processus permettant de maîtriser son contenu. Les contenus gérés peuvent aussi bien être des publications Web structurées que des documents ou des fichiers. JCMS Figure 3-24. Jalios JCMS s’appuie sur un sous-ensemble de l’architecture J2EE : JSP/Servlet. Chaque site JCMS est une application gérée par un Serveur d’Applications Web. Chaque site est autonome et dispose de ses propres données, de ses propriétés, fichiers de ressources, classes et JSPs. 136 Nous utilisons Jalios parce qu’il nous offre une infrastructure collaborative avec une architecture basée sur des objets légers qui offre : Intégrabilité Serveur Web intégré ou externe : Apache, IIS Servlet moteur JSP performant : Resin Base de données relationnelles : JDBC Annuaire LDAP : JNI Outils infographisme : JSP Administrabilité Interface entièrement Web Création de canaux, de schémas 3.13.2 Outil de filtrage collaboratif Notre outil de filtrage collaboratif commence par analyser une « collection d’URIs » contenue dans un ou plusieurs annuaires de sites. Cette collection est complétée par l’ensemble de topiques des utilisateurs, c’est à dire, les URIs pointées par les références de chacun de topiques des utilisateurs. Cette collection sera augmentée avec les URIs du Web après le processus d’exploration (crawling). L’idée est d’obtenir un stock de pages qualifiées d’ « similaires133 » à celles correspondantes aux URIs de la collection initiale (profils des utilisateurs). Figure 3-25. Module de « filtrage collaboratif » utilise les profils des utilisateurs venant du module « filtrage SocialRank » pour valider ses résultats dans l’annuaire ODP. Puis il génère en retour un fichier XML contenant l’ensemble de similarités entre profils selon les URIs contenues dans les profils des utilisateurs. Le crawler (§3.9.1.1, Figure 3-8), télécharge périodiquement le contenu des annuaires sur le Web, afin d'enrichir perpétuellement sa banque de pages HTML. Crawleur. Le crawler est un utilitaire réseau qui télécharge des fichiers du World Wide Web, en utilisant le protocole HTTP (Hyper Text Transfer Protocol) et le FTP (File Transfer Protocol), les deux protocoles Internet les plus utilisés. Il permet à partir d’une collection de pages initiale, de télécharger toutes les pages qui y sont répertoriées, ainsi que les pages de ces pages 133 La similarité est déduite selon notre algorithme de filtrage collaboratif expliqué dans la section 3.9.1.1. 137 répertoriées, et ainsi de suite. Ce logiciel est donc capable de chercher récursivement dans la structure HTML des documents et dans les arborescences des répertoires FTP. Le crawler n’est pas interactif, c’est à dire qu’il peut travailler alors que l’utilisateur n’est pas connecté. Il fonctionne bien sur les connexions instables, gardant en mémoire l'état d'un téléchargement jusqu'a ce que la connexion soit rétablie, afin de reprendre où il s'était arrêté. Les annuaires collectés sont en suite analysés (parsés). Parseur. Le parseur est un analyseur grammatical de la structure HTML des pages crawlées. Il a été réalisé par l’équipe d’Hector Molina [Hirai et al] de l’Université de Stanford. L’algorithme a été modifié pour être adapté à notre approche. Le langage HTML est composé de balises, entre lesquelles sont donnés tous les éléments de la page. Le parseur reconnaît les balises et détermine en fonction de cela s'il s'agit d'un lien ou d'autre chose. Le parseur a une autre fonctionnalité : déterminer pour chaque URL le numéro du chapitre (bloc) dans lequel elle se trouve. Ce numéro est déterminé en fonction de certaines balises que le parser rencontre dans son analyse de la page. Une fois parsés, un index regroupant tous les URIs est créé. Indexeur. L'indexeur est une partie essentielle au traitement rapide des données. C’est un dictionnaire géant, qui associe un numéro à une URL. De cette façon les URIs sont stockées dans un fichier sous une forme compressée pour optimiser la taille des fichiers et du temps d’accès aux données. Les résultats du parseur sont stockés dans une structure de données, et les liens entre les URIs sont analysés selon le principe : [p04]Considérons deux pages A et B. S'il existe un lien hypertexte dans la page A allant vers la page B, alors on peut dire que le créateur de la page A recommande la page B. Les résultats sont répertoriés dans une page HTML et analysés pour donner de la pertinence (au sens de degré de similarité entre pages) à ses résultats. Le principe de fonctionnement de cette analyse est inspiré d'un système nommé Parasite (Spertus, 1996). A partir de la « collection d’URIs » initiale et les résultats accumulés antérieurs (ceux du crawler, du parseur et de l’indexeur), cet analyseur constitue une structure de données étudiée selon l’algorithme décrit dans la section 3.9.1.1, capable de fournir une liste d’URIs des pages pertinentes134 avec une note de « pertinence » entre pages. Puis cette liste élargie d’URIs pourra se comparer avec la structure de liens d’un annuaire Web (§3.13.2.2). 3.13.2.1 L’annuaire « Open Directory Project » L'Open Directory est un projet gigantesque. Démarré sous le nom de NewHoo en juillet 1998 par deux programmeurs californiens, repris par Netscape à la fin de la même année, (sous le nom de Directory Mozilla ou « dmoz »). Il vise à développer l'annuaire135 le plus complet sur Internet en faisant appel à des d'éditeurs volontaires du monde entier. Il représente le plus gros annuaire mondial actuel de sites Web, avec plus de 3 millions de sites, 43 000 éditeurs, 445 000 catégories et 62 catégories linguistiques. 134 La pertinence est validée au sens de notre algorithme de filtrage collaboratif : faire des rapprochements par corrélation entre les utilisateurs. Si par exemple les individus X et Y sont fortement corrélés, et que X aime un document, alors on recommandera également ce document à Y. 135 Catalogue de fiches descriptives de sites classées en grandes rubriques arborescentes. 138 Avantage principal d’ODP : la très grande réactivité du bataillon de « netsurfeurs » ainsi constitué. Inconvénient majeur : le risque d'une certaine disparité dans la qualité de contenu entre les catégories, certains éditeurs ayant plus ou moins de temps à consacrer à la mise à jour de leur domaine. Le concept est, en tout cas, plus qu'intéressant, à tel point que le Go Network (ex-Infoseek), a lancé ses « Go Guides », basé exactement sur le même concept. Il s'agit clairement d'un outil qui se développe à grande vitesse. Tout le monde peut utiliser les données de l'ODP. Elles sont accessibles au public et 100% gratuites. Toutefois, il faut accepter la licence de l'ODP. L'Open Directory fournit ses fichiers de données au format « Ressources Description Framework » (RDF), une variante du format XML (voir http://www.w3.org/RDF/). 3.13.2.2 Intégration d’ODP La propriété d’ODP d’être constamment maintenu par des « humains » nous intéresse [h00]. De cette façon, notre outil de filtrage collaboratif, dans son processus d’automatisation des « similarités » entre d'utilisateurs, est donc complété pour prendre en compte les URIs dans chacun de profils des utilisateurs par rapport à la gigantesque classification d’ODP. De cette manière, notre module « Filtrage SocialRank » doit construire, pour notre module « Filtrage Collaborative » l’ensemble de profils des utilisateurs sur la forme de fichiers HTML, voir Figure 3-23. Les données trouvées serviront pour deux sousprocessus, un pour l'analyse du contenu de topiques et l'autre pour l'analyse des profils utilisateurs. Figure 3-26. Le module « Filtrage Collaboratif » reçoit les profils des utilisateurs sur format HTML. Il crawle le Web pour collecter les annuaires utilisés (générer une liste avec le profil de topiques des utilisateurs) et les analyse pour trouver les plus similaires (selon notre algorithme de filtrage collaboratif). Il utilise ODP pour vérifier s’il y a de topiques ayant des liens classés sous des catégories similaires dans la classification ODP. A la fin de l'analyse, un fichier XML est généré nommé « ResultatODP.xml ». Ce fichier contient toute l'information nécessaire à notre module « Filtrage SocialRank » pour 139 permettre de proposer des utilisateurs aux membres de SoMeONe. Sa structure XML est la suivante : 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 <User><userid>c_46</userid></User> <UTopic><utopicid>c_75</utopicid></UTopic> <UTopic><utopicid>c_3605</utopicid></UTopic> <RUser><ruserid>c_32</ruserid></RUser> <RUTopic><rutopicid>c_98</rutopicid></RUTopic><d:Note>0.110432</d:Note> <RUser><ruserid>c_53</ruserid></RUser> <RUTopic><rutopicid>c_70</rutopicid></RUTopic><d:Note>0.13484</d:Note> <Utopic><utopicid>c_83</utopicid></UTopic> Id de utilisateur c_46 Id du topique c_75 de l'utilisateur c_46 Id du topique c_3605 de l'utilisateur c_46 Id de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur c_46 Id du topique c_98 de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur c_46 avec une note de 0.110432 Id de l'utilisateur c_53 recommandé au topique c_3605 de l'utilisateur c_46 Id du topique c_70 de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur 46 avec une note de 0.13484 Id du topique c_83 de l'utilisateur c_46 Tableau 3-13. Structure du fichier ResultatODP.xml. La première ligne du tableau présente sa structure XML tandis que la deuxième, sa signification. Ces balises sont au nombre de 9 : - <User> et </User> : début et fin des données sur l'utilisateur à qui l'on peut proposer d'autres utilisateurs. - <userid> et </userid> : entre ces balises est indiqué l'identifiant (propre à SoMeONe) de l'utilisateur à qui l'on peut proposer d'autres utilisateurs. - <UTopic> et </UTopic> : début et fin des données sur le topique de l'utilisateur à qui l'on peut proposer d'autres utilisateurs. - <utopicid> et </utopicid> : entre ces balises est indiqué l'identifiant (propre à SoMeONe) d'un topique de l'utilisateur à qui l'on peut proposer d'autres utilisateurs. - <RUser> et </RUser> : début et fin des données sur l'utilisateur que l'on veut proposer à un autre utilisateur. - <ruserid> et </ruserid> : entre ces balises est indiqué l'identifiant (propre à SoMeONe) d'un utilisateur que l'on veut proposer à un autre utilisateur. - <RUTopic> et </RUTopic> : début et fin des données sur le topique de l'utilisateur que l'on veut proposer à un autre utilisateur. - <rutopicid> et </rutopicid> : entre ces balises est indiqué l'identifiant (propre à SoMeONe) d'un topique de l'utilisateur que l'on veut proposer à un autre utilisateur. - <D:Note> et </D:Note> : entre ces balises est indiquée la note avec laquelle on recommande les deux utilisateurs. Cette note est celle du bloc représentant l'utilisateur recommandé. Nous venons de décrire le cadre théorique de notre approche : les concepts de base, les objectifs que nous poursuivons, des postulats, des hypothèses et des principes que nous devons valider. Pour cela nous avons décrit également les grandes lignes à suivre pour approuver cette approche ainsi que sa conception et la description du système proposé. Maintenant nous voulons la valider à l’aide de deux évaluations que nous décrivons dans le chapitre suivant. 140 4 Validation de notre approche Résumé du chapitre Deux évaluations ont été développées pour valider les hypothèses de notre approche : une avec des utilisateurs réels et une autre en faisant des simulations pour tester nos algorithmes suivant différents comportements sociaux. Pour chaqu’une des évaluations nous présentons donc nos contributions techniques, theoriques, fonctionnelles et l’analyse des résultats obtenus. La première évaluation est développée et testée avec des utilisateurs réels. Elle présente le système SoMeONe comme un service Web de mise en relation de personnes par la gestion de leurs informations personnelles. Nous présentons l’analyse de cette première évaluation, l’intérêt de son implantation, les résultats obtenus, les points forts, les points faibles et d’autres facteurs intervenant dans ces résultats, qui nous ont permis de valider une partie importante de notre approche. Ensuite nous présentons nos conclusions. Une conclusion importante est l’acceptation positive du système. Malheureusement les interfaces de notre proposition ont souffert d’un manque d’ergonomie. Notre simulation cherche à valider les mécanismes de mise en relation de contacts de SoMeONe (à travers le recommendeur de contacts). L’idée est de montrer que la manière de choisir un contact (stratégies spécifiques) a une influence sur la qualité du réseau (meilleur flux d’information) et valider nos hypothèses. L’analyse de cette dernière évaluation, l’intérêt de son implantation, les résultats obtenus et les conclusions, nous ont permis de compléter la validation de notre approche. Nous développons finalement, l’évaluation globale de notre système de recommandation de contacts selon la littérature présentée dans notre état de l’art et nos constatations. ’évaluation du prototype baptisé SoMeONe a été faite en deux étapes. La première a été proposée aux utilisateurs réels. Les résultats de celle-ci ont validé notre hypothèse [h01]136, nos postulats et la mise en place et acceptation de nos principes. La deuxième évaluation a été faite à travers d’un ensemble de scénarios de simulations qui prennent en compte différentes variables, inabordables en temps et quantité, avec des L 136 Ces résultats ont également encouragé des améliorations sur d’autres versions du service proposé. 141 utilisateurs réels. Les résultats obtenus nous permettent de ratifier nos hypothèses [h01;h02;h03]. Nous intégrons de manière traverse à ces deux évaluations, une analyse de la qualité de notre approche en tant que « système de filtrage collaboratif pour un réseau social de diffusion d’information pertinente » (Herlocker et al, 2004Nous allons surveiller donc le déroulement de l'usage du système pour chacune des évaluations. 4.1 Première évaluation : utilisateurs réels Cette première évaluation a été mise en place pour des utilisateurs réels, dans le portail de l’Université de Savoie pendant la période scolaire 2003-2004. Elle a été développée pour valider les fondements psychosociaux de notre approche. Ainsi, cette évaluation s’adresse aux étudiants et aux professeurs. Nous présentons ici les objectifs de ces premières évaluations, la méthode que nous avons suivie, nos résultats, les points forts, les points faibles et les conclusions. 4.1.1 Objectifs Évaluer l’acceptation de notre système et évaluer nos hypothèses, à travers différents profils d'usages d’utilisateurs réels est l’objectif principal de cette première évaluation de notre système SoMeONe137. Par évaluation du profil d’usage du système, nous comprenons l’utilisation que les utilisateurs ont faite des outils proposés dans SoMeONe et leurs utilité dans le processus d’amélioration de flux d’information. Nous présentons l’évaluation de la première version du prototype SoMeONe, étant un gestionnaire de favoris qui permet leur partage. Ainsi, nous développons des analyses sur : L’identification de profils d'usage des topiques. L’identification des profils d'utilisation des liens. L’analyse de l'utilisation des recommandations de contacts. L’analyse des logiques d'usage spontané des utilisateurs en étudiant les premiers échanges qui ont été effectués. Les deux premières analyses sont particulièrement riches parce qu'elles renvoient aux deux aspects du service de mise en contact avec des réseaux sociaux susceptibles de fournir des informations de qualité, et de gestion de ces informations via l'utilisation des taxonomies personnelles. Les profils d'utilisation des topiques vont permettre de rendre compte du type d'usage des réseaux de contacts. Les profils d'utilisation des liens vont par ailleurs permettre de rendre compte du degré d'utilisation de la fonction de gestion des informations (nomenclatures personnelles). Les deux dernières analyses, relatives aux recommandations et aux logiques d'usages spontanées du service, renseignent sur les aspects des usages. 137 Dans le cartable électronique® de l’Université de Savoie, les services offerts par offerts sous le nom de « Webothèque » (§II.2). 142 SoMeONe, ont été 4.1.2 Méthode Nous avons commencé à développer notre proposition dans le portail de l’Université de Savoie, particulièrement dans le service du cartable électronique®138 de cette université. Nous avons donc intégré une version du prototype compatible avec le cartable électronique®. La population ciblée est d’environ 150 étudiants scientifiques de l'Université de Savoie plus une quantité similaire d’enseignants et collaborateurs de l'Université de Savoie. 4.1.2.1 Intégration dans le portail de l’Université de Savoie Cette partie a pour objectif de définir la manière dont SoMeONe et le cartable électronique® ont été intégrés. Notre service SoMeONe est l’ensemble des applicatifs et bases de données hébergées sur les serveurs de France Télécom R&D. Le but de l’intégration est de réaliser un client qui doit interroger le service existant afin de proposer aux utilisateurs du cartable électronique® un moyen d’interagir avec ce service. Le choix d’intégration a dépendu de deux choses : D’un point de vue technique, son infrastructure collaborative avec une architecture basée sur des objets, nos a permis d’échanger des flux d’information XML entre deux services Web. D’un point de vue fonctionnel, les usagers du cartable électronique® obtiennent un service personnel de gestion et d’échange de favoris et de recommandation de contacts. L’architecture mise en œuvre est présentée sur la figure suivante. N avigation WWW Serveur W eb XML HTTP cartable électronique® A PI G estion de C ontacts G estion d’information personnelle Serveur JSP JCMS JaliosDB List es de D iffusion T axonomie personnelle T opiques Recommandeur de C ontacts Filtrage C ollaboratif Filtrage SocialRank SoMeONe Figure 4-1. Architecture multi-tiers de l’intégration des applicatifs de SoMeONe dans le cartable électronique® de l’Université de Savoie. 138 Pour plus d’information sur le cartable électronique® de l’Université de Savoie, aller sur http://savoie.cartable-electronique.org ou http://www.univ-savoie.fr 143 Le cartable électronique® effectue des requêtes via HTTP sur le serveur JCMS (JSP) et récupère en réponse un flux XML. Ces flux sont ensuite traités et affichés à l’utilisateur. Les temps de réponse ont été analysés et sont tout à fait admissibles. L’ensemble d’objets du cartable électronique® est du type Zope139 que l’on peut instancier dans le cartable des usagers. Cet objet est uniquement un client chargé de dialoguer avec le serveur SoMeONe pour fournir aux usagers du cartable électronique® les services implémentés par SoMeONe. Ainsi, les usagers du cartable électronique® ne voient pas SoMeONe mais des interfaces adaptées appelant ses services. De ce fait, nous allons analyser les usages de ces services dans la section suivante. 4.1.2.2 Profil d’usages Il faut bien noter que pour le cartable électronique®, nous avons utilisé un vocabulaire adapté au contexte des utilisateurs. Cependant nous avons essayé de maintenir un vocabulaire le plus similaire possible vis à vis de celui utilisé dans notre approche et dans les interfaces de SoMeONe140. Ainsi, les utilisateurs ont bien des topiques, dans une nomenclature personnelle141 (constituée de topiques personnels). Ils peuvent gérer leurs liens ou références et obtenir des recommandations. Les topiques peuvent être diffusés142 ou publics143. Les liens dans les topiques reçus peuvent être déplacés ou importés (indexés) dans les nomenclatures personnelles ou marquées lus ou supprimés ou déplacés dans une section de liens « non traités ». Une fois que nous avons bien clarifié le vocabulaire utilisé, nous pouvons tenter de rendre compte de profils d'usage des différents éléments selon un échantillon de 20 utilisateurs analysés (étudiants et professeurs)144 : Identification de profils d'usage des topiques. Il s'agit de rendre compte de la répartition des usages des différents types de topiques (selon leur degré de diffusion et de caractérisation). De ce fait, nous essayons de répondre aux questions du type : Quels sont les topiques qui ont été les plus reçus ? Quels sont les effets des descriptions associées aux topiques sur le nombre de topiques reçus, selon qu'ils sont diffusés, publics ou diffusés et publics ? Identification des profils d'utilisations des liens. Les liens peuvent être utilisés différemment, selon qu'ils sont « non traités », « marqués lus » ou « supprimés » ou « déplacés ». Par ailleurs, le croisement des données relatives aux types de topiques et aux types de liens nous permet de définir des profils plus précis. Nous essayons de répondre à la question : Quel usage des nomenclatures personnelles ? Pour répondre il faut d’abord répondre aux questions : Quelle est la part de liens reçus déplacé, non traités, marqués lu ou supprimés ? 139 http://www.zope.org/ Pour avoir une référence des interfaces dans la version de SoMeONe qui a offert le service au cartable électronique®, voir l’Annexe II-7 section 7.2. Cette annexe montre la version initiale v0 dans la première partie, et pour les améliorations à la gestion de contacts, la version v0.1 dans la deuxième partie. 141 Taxonomie personnelle selon notre approche (§3.4.1). 142 Nous disons que les topiques sont diffusés reçus si un autre utilisateur les a diffusé à travers des listes de diffusion. 143 Nous disons que les topiques sont publics reçus dans le cas où les utilisateurs se sont inscrits euxmêmes aux listes de diffusion des topiques publics. 144 En effet, sur l’ensemble d’utilisateurs inscrits, seulement une vingtaine a inséré des liens. 140 144 Comment se sont répartis les types de liens en fonction des topiques desquels ils sont issus ? Analyse de l'utilisation des recommandations. Cette analyse étudie la part relative aux recommandations proposées par le système qui sont suivies par les utilisateurs, et celles qui ne sont pas suivies. Analyse des logiques d'usage spontanées des utilisateurs en étudiant les premiers échanges qui ont été effectués. Ces échanges peuvent être opportunistes (l'utilisateur a consommé de l'information) ou altruistes (l'utilisateur a produit de l'information). Après avoir défini ces profils d’usages, nous présentons les résultats obtenus de nos analyses dans la section suivante. 4.1.3 Résultats de l’évaluation Nous présentons les résultatsde nos évaluations du point de vue des usages de topiques, liens et recommandations. Nous intégrons également une analyse de réciprocité d’échanges, à partir de ces usages. L’information rassemblée dans cette section, est la synthèse d’un ensemble de livrables issus de résultats d'expérimentations menées par Laurence Gagnière et Ghislaine Chabert dans le cadre d'un contrat entre l’Université de Savoie et de FranceTélécom R&D. 4.1.3.1 Profils d'usage des topiques Les résultats de notre évaluation par rapport à l’identification de profils d'usage des topiques visent à répondre aux questions suivantes : Quels sont les topiques qui ont été les plus reçus ? Il y a différents niveaux d'utilisation du système, soit pour évaluer le nombre de topiques diffusés reçus ou le nombre de topiques publics reçus. Pour le premier, le nombre de topiques reçus correspond au nombre d'utilisateurs ayant reçu des topiques diffusés. Les topiques sont organisés en hiérarchie de topique. Cette hiérarchie peut être vue comme la nomenclature personnelle de l'utilisateur. Les topiques sont diffusés reçus si un autre utilisateur leur a diffusé à travers des listes de diffusion. Les topiques sont publics reçus dans le cas où les utilisateurs se sont inscrits eux-mêmes aux listes de diffusion des topiques publics. Le nombre de topiques reçus relatifs aux topiques publics, est plus significatif du degré d'usage de l'utilisateur puisqu'il ne considère que les topiques ayant été sélectionnés par lui, parce que considérés comme pertinents et intéressants. Il s'agit donc bien d'une mesure du degré d'adoption des topiques par l'utilisateur. Cependant, il paraît difficile d'émettre des interprétations sur la base de ces résultats. Nous ferons néanmoins la distinction entre topiques reçus et adoptés selon qu'ils se Nombre de topiques reçus rapportent à des topiques diffusés ou publics. 172 180 La figure ici à droite, expose l’effet des types de topiques (publics, diffusés, publics et diffusés) sur le nombre de topiques reçus. Elle montre le nombre de topiques reçus lorsqu'ils ont été diffusés. Les chiffres montrent que les utilisateurs ont mieux accepté les topiques lorsqu'ils leur étaient adressés personnellement. Les résultats relatifs à ces types de topiques 160 140 120 107 100 80 60 35 40 20 0 Topiqu e s P u blic s To piqu e s Dif f usé s Top ique s P ub lic s e t Dif f u sé s 145 indiquent que 172 utilisateurs sur la totalité d’utilisateurs, ont reçu des topiques diffusés, qui ont directement été considérés comme des topiques reçus. Le nombre de topiques reçus relatifs aux topiques publics révèlent que des topiques publics ont été reçus un grand nombre de fois (au vu du nombre total de topiques publics existant; 35) par les utilisateurs, qui les ont alors importés dans leurs topiques reçus. Ce rapport entre nombre de topiques publics et nombre de fois où les topiques publics ont été adoptés vérifie la théorie de la masse critique (Markus, 1987) et confirme l'hypothèse posée au (§2.2.1.1.2). Une masse critique, créatrice de contenu, a en effet produit volontairement et consciemment à destination de tous de l'information diversifiée, de qualité. Il y a bel et bien eu un petit groupe d'individus plus actifs que les autres. Quels sont les effets des descriptions associées aux topiques sur le nombre de topiques reçus, selon qu'ils sont diffusés, publics ou diffusés et publics ? La figure expose l’effet de la description des topiques et des types de topiques sur le Nombre de topiques reçus nombre de topiques reçus. Les résultats montrent que la 100 94 T opiques sans 90 description différence entre le nombre de topiques décrits reçus et le 80 78 T opiques avec nombre de topiques non décrits reçus n'est pas 70 60 description 60 significative, ceci pour les topiques diffusés (χ(3,84)=1,57, 50 47 p=0,05) et publics (χ(3,84)=1,28, p=0,05). La description 40 30 30 ne peut pas, du fait du système, impacter d'une manière ou 20 5 d'une autre l'adoption du topique par l'utilisateur puisque ce 100 T opiques T opiques T opiques topique est automatiquement ajouté à ses topiques reçus, publics publics et diffusés par le biais de la liste de diffusion qui lui est associée. diffusés En ce qui concerne les topiques publics, l'absence de différence significative entre le degré d'adoption de topiques décrits et non décrits permet de signaler une absence d'effet des descriptions sur l'adoption des topiques par les utilisateurs. On pourrait supposer que les descriptions n'ont peut-être pas été pertinentes par rapport aux attentes des utilisateurs ! La seule différence significative qui émerge est relative aux topiques publics et diffusés (χ(3,84)=17,85, p=0,05). Cependant, le nombre de topiques reçus publics et diffusés inclue d'une part le nombre de topiques automatiquement reçus par les listes de diffusion, et d'autre part le nombre de topiques publics que les utilisateurs ont véritablement adopté, en les important dans leurs topiques reçus (ceux qui ne figuraient pas sur la liste de diffusion associée à ces topiques). Nous pouvons alors dire qu’il n’y a pas d’effet significatif à décrire les topiques. 4.1.3.2 Analyse de l'utilisation des recommandations La figure ici expose la répartition des recommandations No mb re d e re co mman d atio n s rec u es 23 selon qu'elles ont été suivies ou non. Les résultats représentés montrent que le nombre de recommandations suivies apparaît Suiv ies comme étant largement inférieur au nombre de recommandations N o n Suiv ies non suivies. Les utilisateurs n'ont pas utilisé le cartable électronique® pour trouver des contacts. Durant la période d'utilisation analysée, il semble que les utilisateurs se soient 344 contentés de perpétuer leurs réseaux sociaux existants. Ce résultat confirme l'idée selon laquelle des réseaux sociaux ne peuvent pas être crées artificiellement, 146 par la seule mise en place d'un réseau technique de communication (§2.2.1). Des réseaux sociaux doivent préexister aux réseaux techniques, qui ne peuvent être une fin en soi Collot (1993), à fortiori lors de la phase d'amorçage d'un système. Sinon, nous constatons qu’il faut avoir une vrai volonté ou besoin pour partager. Par ailleurs, les recommandations constituent une fonctionnalité du système à part entière. L'utilisateur doit être motivé à rechercher des nouveaux contacts pour accéder à cette fonctionnalité. En phase d'amorçage du système, les utilisateurs ne sont pas nécessairement motivés à nouer de nouveaux contacts sauf la masse critique, qui contribue à faire vivre les réseaux constitués. 4.1.3.3 D’autres profils d'usages : consommateurs versus producteurs Nous avons constaté de profils d'usages spontanés : consommateurs versus producteurs. Son identification a été effectuée à travers l'analyse des premiers échanges effectués par les utilisateurs. La figure expose la répartition de ces premiers usages constatés. Ce Repartition des profils d'utilisation spontanée du service (consommateurs versus producteurs) résultat s'explique par l'existence d'un petit groupe d'individus actifs, prêt à contribuer même si les autres Consommateurs 37% ne le font pas. Il s'agit de l’hypothèse de la masse Producteurs critique (§2.2.1.1.2) qui rend compte "d'un petit 63% segment de la population qui choisit de faire de grosses contributions à l'action collective alors que la majorité fait peu ou rien". Selon cette hypothèse, la masse critique serait nécessaire à la généralisation des comportements de production à tous les membres du réseau. 4.1.3.4 Degrés de réciprocité des échanges Nous nous intéressons également à l’identification de degrés de réciprocité des échanges de liens et de topiques, et de recommandations. Cette analyse a l’intention : De ne tenir compte que des utilisateurs actifs, c'est à dire des utilisateurs ayant reçu ou diffusé des éléments. De faire un rapport entre le nombre d'éléments reçus pour chaque utilisateur et le nombre d'éléments qu'il a envoyé (nous entendons par-là, le nombre d'éléments qui ont été reçus par d'autres utilisateurs que cet utilisateur x). De ce fait, pour chaque élément (topiques, liens et recommandations), nous avons ensuite analysé : Le degré de réciprocité des échanges. C'est-à-dire la présence ou l'absence totale de réciprocité entre le nombre d'éléments reçus et le nombre d'éléments envoyés pour chaque utilisateur. Ainsi, une absence totale d'éléments reçus par rapport au nombre d'éléments diffusés renvoie à des échanges de type altruiste. Une absence totale d'éléments diffusés par rapport au nombre d'éléments reçus correspond à des échanges de type opportuniste. Un rapport, aussi minime soit-il entre le nombre d'éléments reçus et diffusés traduit des échanges réciproques. Le degré de réciprocité des échanges réciproques. Ces échanges réciproques sont ensuite qualifiés. Ainsi, lorsque le nombre d'éléments reçus est supérieur au nombre d'éléments diffusés, nous considérons que l'utilisateur a eu des échanges réciproques opportunistes (considérons par exemple un utilisateur Ux, qui a reçu 10 éléments et en a 147 diffusé 5). Les échanges réciproques traduisant un nombre plus élevé d'éléments diffusés comparativement au nombre d'éléments reçus sont considérés comme des échanges réciproques altruistes. Les échanges parfaitement réciproques renvoient à un rapport parfait entre le nombre d'éléments reçus et le nombre d'éléments diffusés (considérons par exemple un utilisateur Uy qui a reçu 10 éléments et en a diffusé 10). Les topiques reçus et consultés, les liens consultés, déplacés et reçus et les recommandations vont être analysées selon ces deux axes d'analyse. 4.1.3.4.1 Topiques reçus Dans la réciprocité des échanges relatifs aux topiques reçus, seulement 29.76% des utilisateurs ont été actifs (89 utilisateurs sur la totalité des utilisateurs), en recevant des topiques d'autres utilisateurs ou en envoyant des topiques qui ont été reçus par d'autres utilisateurs. Quelle part de réciprocité dans les échanges relatifs aux topiques reçus ? La majorité des échanges a été opportuniste. En effet, 46% (41 sujets sur 89) des utilisateurs a reçu des topiques sans en diffuser eux-mêmes. Le plus grand Répartition en % des types d'échanges relatifs aux topiques reçus nombre de topiques reçus par un même utilisateur sans 24% qu'il ait lui-même émis de topiques est de 12, le plus petit 30% étant de 1. La moyenne de topiques reçus par ces utilisateurs opportunistes est de 2.71 topiques. réciproques opportunistes Les échanges altruistes ont été relativement élevés. altruistes Ils correspondent aux utilisateurs ayant envoyé des 46% topiques sans en recevoir eux-mêmes (21 sujets sur 89). Ces utilisateurs ont envoyé en moyenne 1.43 topiques sans en recevoir, avec un nombre de topiques maximum envoyé de 6 et un nombre de topiques minimum envoyé de 1. Les échanges réciproques ont été partagés par 30% des utilisateurs (27 sujets sur 89). Ces utilisateurs ont véritablement échangé avec d'autres personnes, en diffusant et en recevant des topiques. Ils ont reçu en moyenne 7.07 topiques pour 10.07 diffusés. La forte part de ce type d'échanges est un résultat encourageant, car il traduit une volonté des utilisateurs à s'intégrer dans un réseau social, au-delà de leur intérêt à recevoir de l'information de qualité. Quel degré de réciprocité dans les échanges relatifs aux topiques reçus ? La figure cidessus essaie de répondre à cette question. Nous voyons que l’intérêt de cette analyse est qu'elle nous permet de comprendre la tendance générale des réciprocités. Les analyses précédentes distinguaient uniquement les différences entre une absence totale de topiques reçus par rapport au nombre de topiques diffusés (et inversement) et un rapport entre le nombre de topiques reçus et diffusés. Ces analyses permettent de qualifier cette notion de réciprocité, selon qu'elle est de tendance altruiste, opportuniste ou parfaite (équitables). On s'aperçoit que la majorité des échanges réciproques est de nature opportuniste. En effet, 41% (11 sujets sur 27) des utilisateurs ont plus reçu qu'échangé. La réciprocité de l'échange, même si elle existe, est déséquilibrée. Les échanges réciproques parfaits sont les plus faibles (26%, c'est à dire 7 sujets sur 27). Ce type d'échange rend compte d'une réciprocité parfaite entre le nombre de topiques reçus et le nombre de topiques diffusés. Il traduit une volonté forte de perpétuer des relations 148 avec les personnes du réseau, puisque à chaque topique reçu, un topique est diffusé en retour aux émetteurs de ce topique. Les échanges réciproques altruistes constituent 33% des échanges réciproques totaux (9 sujets sur 89). Dans ce type d'échange, les utilisateurs ont diffusé plus de topiques qu'ils n'en ont reçu. Ils s'inscrivent donc dans la même lignée que les échanges réciproques parfaits, de développement d'un réseau social large, indépendamment des intérêts qu'il apporte. 4.1.3.4.2 Topiques consultés Dans l’analyse de la réciprocité des échanges relatifs aux topiques consultés, le rapport étudié n'est plus relatif aux nombres de topiques reçus ou émis, mais à celui des topiques qui ont été consultés par un utilisateur et des topiques de cet utilisateur qui ont été consultés par d'autres utilisateurs. De manière générale, 20.41% des utilisateurs (61 utilisateurs sur 299) ont consulté des topiques ou d’autres ont consulté leurs topiques. Quelle part de réciprocité dans les échanges relatifs aux topiques consultés ? Nous conservons les termes réciproques, altruistes et opportunistes associés aux échanges, parce qu'ils sont communs à tous les éléments analysés. Cependant, ils n'apparaissent pas des plus pertinents pour cette analyse. La part relative aux échanges altruistes renvoie aux échanges dans lesquels les utilisateurs ont été consultés sans qu'ils n'aient jamais consulté. La finalité de ces utilisateurs était donc de diffuser au plus grand nombre les informations dont ils disposaient, ce qui nous renvoie à l'hypothèse d'une masse critique ayant contribué Répartition en % des types d'échanges dans le but de développer et de maintenir un réseau social relatifs aux topiques consultés et non pas dans le but de consommer de l'information 36% pertinente. Les utilisateurs impliqués dans ces types 39% d'échanges ont été consultés en moyenne 1.41 fois, avec reciproques une fréquence maximum de 6 et minimum de 1. altruistes Néanmoins, ces types d'échanges ont été les moins opportunistes fréquents (22 utilisateurs sur 61), et révèlent que cette 25% finalité n’est partagée que par une petite part d'utilisateurs. La part relative aux échanges opportunistes caractérise les échanges pour lesquels les utilisateurs ont consulté sans que les autres aient consulté ses topiques. Cette proportion est plus élevée (24 utilisateurs sur 61) que celle relative aux échanges altruistes. Le nombre de consultations le plus élevé est de 14, le plus bas de 1. Le nombre moyen de consultation est de 2.72. Le fait de ne pas avoir été consulté peut s'expliquer par le fait de ne pas avoir diffuser de topiques ou de ne pas avoir diffusé de topiques intéressants. La consultation des topiques a été majoritairement réciproque (24 utilisateurs sur 61). Les utilisateurs ont consulté en moyenne 4.25 fois et ont été consultés en moyenne 5.81 fois. Ce résultat pourrait être interprété par la volonté qu'ont eu les utilisateurs de privilégier les relations sociales par rapport aux informations qu'ils ont pu obtenir. En effet, il semble que la réciprocité ait été un critère de consultation des topiques, dans le sens où les utilisateurs ont plus facilement consulté (et ont été plus facilement consultés) dès lors qu'une relation avait 149 déjà été établie. Ces résultats relatifs aux échanges réciproques de topiques consultés semblent montrer une réciprocité plutôt altruiste. Quel degré de réciprocité dans les échanges relatifs aux topiques consultés ? La part d'échanges réciproques opportunistes a été identique à celle d'échanges réciproques parfaits. En effet, pour les deux types d'échanges, il y a eu autant d'utilisateurs (9 sur 21) qui ont d'une part, plus consulté qu'ils n'ont été consultés, et d'autre part, consulté autant qu'ils ont été consultés. Ces résultats peuvent sembler paradoxaux, mais expliquent bien en quoi les différentes motivations des utilisateurs peuvent impacter les usages qu'ils ont développé du service. Ainsi, les utilisateurs ayant eu des échanges réciproques parfaits ont été motivés par le fait d'appartenir à un réseau social d'échange, alors que les utilisateurs ayant eu des échanges réciproques opportunistes ont plutôt été motivés par la volonté de trouver de l'information pertinente. La part d'échanges réciproques altruistes a été la plus forte. Ce type d'échange renvoie aux utilisateurs ayant plus été consulté qu'ils n'ont consulté, et se rapproche, dans ses motivations, des échanges réciproques parfaits. Répartition en % des types d'échanges réciproques relatifs aux topiques consultés 25,00% 37,50% Réciprocité altruiste Ainsi, il semble que ce soit une dynamique plutôt sociale qui ait régi les échanges entre utilisateurs, relativement aux topiques consultés. Réciprocité opportuniste Réciprocité parfaite 37,50% 4.1.3.4.3 Liens reçus, consultés, déplacés Par rapport à la réciprocité des échanges relatifs aux liens reçus, consultés, déplacés, nous avons choisi de regrouper les analyses relatives à la réciprocité des liens reçus, consultés et déplacés. Ce regroupement nous permet de rendre compte : De la variation du nombre d'utilisateurs actifs en fonction du degré d'appropriation de l'outil. Cette comparaison nous a permis d'observer si les deux fonctionnalités de création et de maintien de réseaux sociaux et de création de nomenclatures personnelles étaient également utilisées. La diminution du nombre d'utilisateurs actifs consultant ou déplaçant des liens rendrait compte d'un usage moins développé de la fonction de création de nomenclatures personnelles du service. De la variation du nombre d'échanges en fonction de leur degré de réciprocité. Les degrés de réciprocité sont identiques aux autres analyses, relatives aux échanges opportunistes, altruistes ou réciproques. De l'interaction entre le degré d'appropriation de l'outil et le degré de réciprocité des échanges relatifs aux liens reçus, consultés, déplacés. Cette comparaison permet de mesurer les effets d'interactions de ces deux variables sur le nombre d'échanges. L'augmentation du nombre d'échanges réciproques relatifs aux liens déplacés traduirait un effet du système sur l'émergence de communautés virtuelles. A l'inverse, la diminution de ce type d'échange en fonction du degré d'appropriation de l'outil (liens reçus<liens consultés<liens déplacés) traduirait un effet inhibiteur du système dans l'émergence de communautés virtuelles. Quel effet du degré d'appropriation de l'outil sur le degré de réciprocité des échanges ? Le nombre d'utilisateurs actifs diminue lorsque le degré d'appropriation de l'outil augmente. Nous entendons par-là que lorsque l'outil est utilisé relativement à toutes les 150 fonctions qu'il offre, son degré d'appropriation est élevé. En effet, les liens reçus correspondent uniquement à l'aspect social du système, via les réseaux virtuels qu'il permet de créer et de maintenir. Les liens consultés traduisent un degré d'appropriation plus élevé du système par des utilisateurs qui considèrent leur liste de topiques reçus comme un buffer, c'est-à-dire un fichier tampon à l'intérieur duquel ils peuvent annoter les liens reçus. Le degré d'appropriation le plus élevé correspond aux liens déplacés, véritablement indexés dans les nomenclatures personnelles. De la figure ici à droite sur la répartition des échanges selon leur degré de réciprocité et le degré d’appropriation des liens, nous observons que 87 utilisateurs ont été actifs relativement aux liens reçus, 21 en ce qui concerne les liens consultés, et seulement 16 relativement aux liens déplacés. Répartition des échanges selon leur degré de réciprocité et le degré d'appropriation des liens En ce qui concerne la variation du nombre d'utilisateurs actifs en fonction des types d'échanges, on observe une majorité d'utilisateurs opportunistes. Ils sont 45.98% lorsqu'il s'agit des liens reçus, 71.43% relativement aux liens consultés et 43.75% en ce qui concerne les liens déplacés. 100 21 40 50 26 0 LIENS RECUS Les utilisateurs ayant eu des échanges réciproques sont plus nombreux lorsqu'ils concernent les liens reçus (29.89%) et déplacés (31.25%) que lorsqu'ils concernent les liens consultés (9.52%). 4 4 15 7 5 2 LIENS LIENS CONSUL DEPLAC altruistes 21 4 4 opportunistes 40 15 7 reciproques 26 2 5 En ce qui concerne l'effet d'interaction entre le degré de réciprocité des échanges et le degré d'appropriation de l'outil, on constate que plus ce dernier est élevé, moins les utilisateurs sont actifs. Au niveau qualitatif, cependant, on peut noter une répartition plus homogène des types d'échanges, avec une supériorité des échanges réciproques (31.25%) comparativement aux échanges altruistes (25%). Quel degré de réciprocité au niveau des liens reçus, déplacés et consultés ? Au niveau quantitatif, on observe un plus grand nombre d'échanges réciproques relatifs aux liens reçus (26), comparativement aux liens déplacés (5), les échanges réciproques relatifs aux liens consultés étant les plus faibles (2). Les types d'échanges suivent la même courbe quel que soit le type de lien auquel ils renvoient. En effet, on observe une majorité d'échanges réciproques altruistes et une absence totale d'échanges réciproques parfaits. De manière générale, les liens des utilisateurs ont ainsi eu tendance à être plus reçus, consultés et déplacés qu'ils n'ont euxmêmes reçu, consulté ou déplacé. Répartition des échanges selon leur degré de réciprocité et le type de liens 14 12 10 8 6 4 2 0 13 Lie ns Re c us Lie ns Consult é s Lie ns Dé pla c é s 4 2 0 réciprocité altruiste 151 13 1 réciprocité opportuniste 00 réciprocité parfaite 4.1.3.4.4 Réciprocité dans les recommandations Les analyses relatives aux recommandations sont intéressantes pour rendre compte des effets des Répartition des types de recommandations effectuées par le système recommandations sur les actions des utilisateurs. Le 9,68% système a donné des recommandations à 51 utilisateurs 12,90% sur un total de 299 utilisateurs, ce qui conduit à dire que seuls 51 utilisateurs ont été actifs vis à vis des R s ur-e s tim a nte s recommandations dans l'utilisation du système durant la R s o us e s tim a nte s R pa rfa ite s 77,42% période d'expérimentation étudiée. Ces analyses permettent d’observer : La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été supérieur au nombre de fois où ils ont été recommandés; il s'agit des recommandations « sur-estimantes ». La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été inférieur au nombre de fois où ils ont été recommandés; il s'agit des recommandations « sous-estimantes ». La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été identique au nombre de fois où ils ont été recommandés; il s'agit des recommandations parfaites. Les résultats montrent que la majorité des recommandations ont été parfaites (24 sur 31). Les recommandations « sous-estimantes » (4) ont été plus élevées que les recommandations « sur-estimantes » (3). Néanmoins, la plupart des recommandations ont permis des échanges parfaitement réciproques, ce qui conduit à dire que le système permet effectivement de favoriser la participation symétrique des utilisateurs au sein de réseaux sociaux virtuels. 4.1.4 Les points forts de l’évaluation L’expérimentation a permis de définir très précisément les valeurs ajoutées du service qui sont principalement : A. Le nomadisme. Les enseignants et étudiants utilisateurs du service ont effectivement beaucoup apprécié la possibilité de pouvoir récupérer leurs liens référencés indépendamment d’un poste de travail : o o o « C’est une sorte de bookmark unique pour moi, je peux changer de machine et conserver mes bookmarks, c’est super avec la bookmarklet145 » (enseignante) « J’ai des liens disponibles de partout, j’y accède au travail, à l’université, à domicile, c’est surtout ce qui a suscité mon intérêt au départ » (étudiant) « Je peux retrouver mes adresses web partout » (étudiant) Une bookmarklet (appelée « 1 click-review », voir §7.1.3.2) est un lien qu'il suffit de copier/coller dans la barre de liens du navigateur, qui sert dans notre contexte, comme raccourci pour ajouter des références quasiautomatiquement dans la nomenclature personnelle pendant la navigation sur le Web. Ceci ne fonctionne qu’avec Internet Explorer (Annexe IV, §IV.3.1.1.2). 145 152 B. Le partage de références. Les utilisateurs considèrent que le partage de références est un des points forts du service afin de constituer une sorte de « Webiographie » commune à un groupe d’individus : o o o o « c’est un espace de partage de références avec les étudiants, notamment avec mon étudiante en thèse (usage en recherche pour mutualiser de références collectives) » (enseignante) « j’ai utilisé le service pour pouvoir partager des connaissances avec mon collègue, mutualiser des informations dans un espace dédié (ce qui décharge le mail d’une tâche spécifique) » (enseignant) « on peut partager des liens avec les autres utilisateurs, profiter des bons tuyaux et bonnes références trouvées et données par les autres utilisateurs » (étudiant). « La publication de thèmes à une liste de diffusion est facile » (étudiant) On peut aussi mettre en avant ici le fait de profiter du tri effectué par les autres : o « Quand on fait une recherche d’informations, on tombe sur un sujet précis, une information très fine, c’est intéressant alors de réutiliser le tri déjà effectué par quelqu’un ». (étudiant). C. L’organisation des informations. Il est également clair que le service a permis à des utilisateurs d’organiser leur espace personnel de stockage de liens. Ces utilisateurs ont eu un usage plutôt « personnel » du service : o o « Je me suis servi du service pour stocker des adresses personnelles » (étudiant) « J’en ai surtout eu un usage personnel au départ » (étudiant) A partir de ces résultats, une nouvelle version du service permet maintenant : De s’approprier un topique et d’en conserver éventuellement le nom dans son espace personnel. De privilégier plutôt une démarche active où les utilisateurs vont chercher de l’information en s’inscrivant à un topique public (hypothèse du tiers de confiance plus forte). En déduction nous envisageons pour une version ultérieure du service, classer les liens par priorités d’intérêt dans un topique, de prévoir d’extraire une bibliographie suivant le modèle structuré dans un topique (« pour faciliter l’écriture d’un papier en recherche par exemple »). 4.1.5 Les points faibles de l’évaluation L’expérimentation a également permis de distinguer des faiblesses du service, principalement : A. Le manque d’ergonomie. Tous les utilisateurs ont à un moment ou à un autre de l’entretien souligné le manque d’ergonomie et d’intuitivité de l’interface (7/8). Les remarques à ce niveau sont nombreuses et soulignent la nécessité de re-développer une autre interface afin de rendre le produit plus intuitif et attractif. Nous avons distingué 4 niveaux de recommandations ergonomiques : - Celles qui relèvent de l’interface. Entre autres : avoir une légende pour rappeler la signification des couleurs (attention : un enseignant daltonien voit tous les topiques noirs), attribuer une couleur spécifique aux topiques mixtes « publics et à diffuser », etc. - Celles qui relèvent de la gestion des topiques et liens. Entre autres : permettre de structurer la liste des topiques publics, hiérarchiser les liens dans les topiques, pouvoir 153 - - lire les informations contenues dans un topique sans avoir à se l’approprier (problème : obligation de déplacer avant de lire un topique), faciliter la création de sous-topiques quand les topiques deviennent trop « gros », etc. Celles qui relèvent de la visibilité du réseau de contacts. Les nouvelles recommandations de contacts du système ne sont pas suffisamment mises en valeur car il faut avoir une démarche active de mutualisation pour y accéder alors qu’elles devraient être systématiquement proposées à chaque topique diffusé. In faudrait par exemple, supprimer les « fans » de « mon réseau de contacts ». Celles qui relèvent des métaphores et textes associés au service offert. Entre autres : changer le terme de « topique » peu intuitif en « thématique », « sujet », « centre d’intérêt »…, proposer plutôt deux titres différents du type « topiques diffusés » (pour topiques en provenance d’une liste de diffusion) et « topiques reçus » (pour topiques en provenance d’un topique public) dans deux espaces différents. Le terme de « topique reçu » est en effet à lui seul trop réducteur car il ne s’agit pas seulement des topiques reçus par liste de diffusion mais aussi des topiques reçus parce que l’utilisateur a donné son accord pour les recevoir depuis la liste de topique public (démarche d’inscription active). A partir de ces résultats, une nouvelle version du service permet maintenant : D’identifier plus clairement les différents espaces (personnels, publics, à diffuser). D’avoir un graphisme pour différencier les topiques des liens. De différencier et facilement identifier les couleurs/marques des topiques. De rajouter une personne dans plusieurs listes de diffusion en même temps. De pouvoir lire les informations contenues dans un topique public sans avoir à se l’approprier. De dater les actions qui concernent l’ajout de liens et de topiques car cet élément d’information peut être utile pour connaître « l’ancienneté » d’une information. D’avoir une représentation graphique de ce que sont les « fans » par rapport aux « favoris » afin de rendre les recommandations plus « visibles ». Ceci est validé grâce à l’intégration de « stratégies de filtrage d’information » (§3.9.2.3). D’expliciter plus clairement ce qu’est « marquer lu » ou « à étiqueter ». De mettre « Diffuser topique » plutôt dans le menu Gestion qu’Édition. De changer le terme « ajouter au Carnet d’adresse » en « ajouter aux Contacts » (pour être cohérent avec le portail). B. Le manque d’awareness. Par « awareness » il faut comprendre : avoir conscience de ce qu’il se passe. Les utilisateurs ont ensuite été nombreux à évoquer également le manque d’awareness du service (5/8). A ce sujet, la version actuelle du système inclut : - Plus des « retour » (feedback) sur les actions effectuées (par exemple, liens déplacés suivi du texte explicatif), et sur les possibles actions à effectuer (notamment grâce à l’affichage de réseau personnel de l’usager, voir (§3.8 ; §3.10.4 ; §3.12). - L’annonce systématique des ajouts de nouveaux liens ou de nouveaux topiques dans les topiques reçus (avertissement). - Un historique, une « corbeille des topiques reçus » pour éviter notamment le problème de suppression définitive des topiques reçus. - Voir les « fans » ou les « préférés » directement en page d’accueil du service, qui sont devenus des « possibles contacts » : « Recevoir Plus » et « Diffuser Plus » (§3.10.4). 154 - Ainsi, une version ultérieure pourrait : Faire des recommandations au fur et à mesure des actions car l’avantage est de voir alors directement pourquoi le système recommande un contact (§3.10.4). Annoncer les nouvelles recommandations dans la page d’accueil. Permettre de différencier la provenance des topiques dans les « topiques reçus » (par une liste de diffusion ou par un topique public ou par une dynamique de recommandation du système). C. Le manque de régulation. Dans la version d’évaluation il n’était pas possible d’exprimer des positions vis-à-vis d’un topique pas souhaité de recevoir. Dans la version actuelle, ceci est possible. D. La difficulté à réorganiser les informations. Certains utilisateurs ont soulevé le fait que la structuration et le nommage utilisé par d’autres membres du réseau n’est parfois pas ceux qu’il souhaite conserver : - « J’ai voulu utiliser des pointeurs donnés par une collègue mais le nommage qu’elle utilisait au niveau des topiques ou des liens ne correspondait pas à ma structuration, j’ai eu du mal à réorganiser à ma sauce » (enseignante) Dans le même ordre d’idée, certains souhaiteraient pouvoir commenter un lien avant de se l’approprier : - « Je pense qu’il serait bien de pouvoir annoter avant de s’approprier d’un lien » (enseignante). D’autres enfin considèrent qu’il serait pertinent à ce niveau de pouvoir « filtrer » la liste des topiques publics en écartant les topiques jugés non intéressants. E. Le parcours trop long pour la production d’informations. Une enseignante et deux étudiants soulignent que la production d’informations (ajout de liens, de topiques) est trop longue : - « ça prend trop de temps pour créer de l’information, c’est plus long qu’avec les bookmarks traditionnels ». Nous constatons à partir de ce commentaire, la pauvre publicité que le bookmarklet (§7.1.3.2) proposé a eu vis à vis des utilisateurs. F. Le manque de publicité. Un enseignant nous a fait remarquer qu’il a eu de nombreuses contraintes professionnelles au moment où le service est arrivé dans le portail et qu’il considère qu’il n’y a pas eu assez d’incitations à découvrir le service. Pour cet utilisateur, le produit est « trop complexe et ne peut se contenter d’une démo en séance, il nécessite un petit TP pour les étudiants ». L’avantage de la bookmarklet (§7.1.3.2) par exemple n’a pas été mis en avant, ce qui néanmoins eût été difficile sachant que cette fonctionnalité est associée à un poste de travail alors que les étudiants sont contraints de changer souvent de poste. G. La population expérimentale trop limitée. Un étudiant considère que le principal frein à son utilisation est lié au fait que la population de l’expérimentation ait été limitée. Il aurait aimé sortir de l’Université de Savoie : - « J’ai eu envie de partager des liens avec d’autres amis en dehors de l’Université de Savoie, je me suis senti isolé dans mon utilisation du service, je n’ai pas eu beaucoup d’échanges alors que c’est ce qui me motivait à la base (…) Il n’y avait pas de masse critique au départ, au lancement de l’expérimentation, ce qui a freiné l’usage partagé des informations ». 155 Nous ne pouvons effectivement que constater que les tests doivent se faire sur un réseau plus grand. H. Le manque d’usage du service par la totalité des participants. Malgré l’usage important de certains utilisateurs, les résultats sont dilués par le nombre d’utilisateurs qui a peut participer. 4.1.6 D’autres facteurs à prendre en compte Le résultat de cette évaluation est fortement influencé par d’autres facteurs non-négligeables, tels que : A. Des pratiques de mutualisation préexistantes. Le fait d’être déjà familiarisé ou non avec la pratique de mutualisation d’informations et de liens semble avoir eu un effet favorable à l’utilisation (ou la non-utilisation) du service. - « C’était déjà courant pour moi de répertorier des liens ; j’ai déjà fait une mauvaise expérience de perdre mon fichier de bookmarks en réinstallant de nouvelles versions de navigateurs, j’ai même déjà cherché des outils indépendants des navigateurs et gratuits. Je classe surtout les liens que je juge « incontournables» » (Étudiant) Au contraire, le fait de ne pas pratiquer au préalable la mutualisation a eu dans certains cas une incidence sur le non-usage du service. Une enseignante, faiblement utilisatrice, nous dit qu’elle n’a « pas d’usage préalable de mutualisation de liens, peu d’usage des favoris, et qu’elle refait systématiquement ces recherches en interrogeant de nouveau les moteurs». B. Le rapport avec le portail de l’Université de Savoie. Le fait que le service reprenne le système de navigation du portail a été plutôt incitatif. Cependant, certains utilisateurs auraient souhaité plus d’interconnexions entre les espaces de groupe du portail et du service pour « favoriser la construction collective de connaissances associées un groupe » : - « J’aurais aimé pouvoir transférer des liens de mon cartable et mes espaces de groupe vers le service (pour ne plus avoir usage des bookmarks) » (enseignante) Paradoxalement, le fait que les utilisateurs soient familiarisés au portail de l’Université de Savoie a pu être notamment un frein à l’utilisation de certaines fonctionnalités du service. En effet, plusieurs enseignants ont soulevé le problème de diffusion d’un topique à tout un groupe d’étudiants organisés et existant par ailleurs dans le portail (par exemple, DESS, DUT…) : - - - « C’est trop individualisé dans les listes de diffusion, j’ai eu tendance à continuer à mettre des références dans les espaces de groupe parce qu’il me manquait la vision filière dans le service » (enseignante) ; « J’aurais aimé établir des liens entre les groupes de travail sur le portail et le service, associer par exemple un sous-topique à un groupe de travail » (enseignante) ; « Le service est trop individuel et ne prend pas en compte l’organisation, le service est fait pour des individus » (enseignant). Il a également été mentionné ici la possibilité d’exporter un topique complet dans l’atelier d’un groupe structuré dans le portail. Le problème étant à ce niveau de créer les dossiers et les sous-dossiers correspondants à la structuration des informations dans les topiques. 156 4.1.7 Conclusion de l’évaluation Les interprétations effectuées sur la base de ces analyses de trace révèlent que deux types d'usages bien distincts sont à dissocier : D'une part les usages relatifs à la partie du système qui permet la construction de réseaux sociaux. D'autre part les usages relatifs à la partie du système qui permet de gérer les ressources reçues dans une nomenclature personnelle, au même titre que les gestionnaires de favoris des navigateurs Internet. Il apparaît, au vu des résultats observés, que les usages relatifs à la deuxième fonctionnalité du système (nomenclature personnelle) ont été peu représentés. Néanmoins, une prise en compte de la dynamicité du processus d'appropriation des ressources par l'utilisateur devrait être effectuée. Nous entendons par-là une analyse du cycle de vie d'un élément (topiques et liens), qui selon leur nature et leur type, ne débute et ne se termine pas au même moment. Ainsi, l'analyse du processus d'appropriation des topiques publics devrait commencer par l'action de déplacement de ces topiques vers les topiques reçus, puis continuer avec l'analyse des liens marqués lus ou supprimés dans la liste des topiques reçus, pour se terminer par l'analyse des liens indexés dans les topiques personnels de l'utilisateur. Les résultats décourageants de cette première évaluation sont justifiés par le contexte dans lequel elle a été développée. Le facteur principal mis en évidence a été la pauvreté des métaphores dans l’interface, capables d’encourager l’usage. Autre justification, compte tenu de l’idée validée de que des réseaux sociaux ne peuvent pas être crées artificiellement par la seule mise en place d'un réseau technique de communication (§2.2.1), est le besoin du temps d’adoption du système. Nous pouvons également citer le fait qu’une intégration des fonctionnalités du SoMeONe dans un autre système, doit rester cohérente avec les fonctionnalités déjà offertes par le système où l’on intègre (§4.1.6 B), c’est à dire, les compléter ; au cas contraire les usagers auront tendance à utiliser ce qu’ils connaissent déjà. Aussi, dans ce type de système, une chose à considérer fortement est le fait de ne pas restreindre la population (§4.1.5 G). Ainsi, d’après ces résultats, avec le service tel qu’il était évalué, une validation théorique de l’amélioration de l’engagement et de la motivation, s’avère impossible à valider par les usages (voir notamment §4.1.4, §4.1.5 et §4.1.6) dans le temps dont nous disposions. Néanmoins, ces premières analyses ont permis de développer de bonnes pistes pour les recommandations à réaliser, en vue d'améliorer les fonctionnalités du système qui n'ont pas été beaucoup utilisées. Par exemple, la mise en place de stratégies de « recherche » d’information que le service offre aux utilisateurs dans une dernière version ou l’adoption d’un topique reçu dans une nomenclature personnelle, entre autres. De cette manière, ces différentes analyses ont apporté des pistes claires qui ont servi de base pour la deuxième évaluation. 4.2 Deuxième évaluation : Simulations de nos hypothèses Nous avons utilisé des simulations parce que nous avons identifié de nombreux facteurs sociaux (voir nos propositions d’indicateurs sociaux dans la section 3.9.2.2), qui peuvent influencer les dynamiques d’échanges d’information dans un réseau social médiatisé et donc la qualité du réseau. Mais, avec des utilisateurs réels, l'influence de chaque facteur sur 157 la qualité du media social est difficile à analyser. Nous avons choisi alors, d’évaluer ces indicateurs avec des simulations (à travers de paramètres). L'avantage important de simuler est la possibilité de tester diverses stratégies de recommandation pour étudier leur influence sur l’évolution de la topologie du réseau ; Il s’agit de montrer que la manière de choisir un contact, appelée stratégie, peut influencer la qualité du réseau selon les objectifs du système (§3.11). Rappelez vous que l’objectif du système (et donc de notre approche) est d’appliquer des critères de qualité pour optimiser la structure d’un réseau social (§3.11). 4.2.1 Objectifs de l’évaluation Suite à notre étude de l'état de l'art en analyse de réseaux sociaux, nous pensons qu’il est possible d’influencer la structure d'un réseau social pour optimiser le flux d’information délivré à ses membres. L’idée est de valider les deux dernières hypothèses de notre approche [h02;h03] (§3.4) : [h02] L’utilisation des indicateurs sociaux est importante pour la mise en relation de personnes. Nous avons construit un ensemble d’indicateurs sociaux pour appuyer la mise en relation de personnes. Ils vont nous permettre d’influencer des qualités globales d’efficacité d’un réseau social médiatisé. [h03] La qualité globale d’un réseau social dépend de sa structure. Avec nos indicateurs sociaux nous pouvons vérifier des qualités globales d’efficacité d’un réseau social médiatisé. Ces qualités globales dépendent de sa structure. Avec notre algorithme SocialRank (§3.9.2) nous allons mesurer les indicateurs sociaux utiles pour sélectionner les topiques à mettre en relation, et donc les contacts à recommander. Les indicateurs utilisés dépendent de la stratégie de recommandation choisie. Cette stratégie permet de contrôler l'évolution de la topologie du réseau et les flux d'informations échangés. Rappelons que cet algorithme intervient uniquement pour sélectionner les topiques à mettre en relation avec un topique parmi tous ceux qui ont été préalablement identifiés comme intéressants pour ce topique ; ces topiques intéressants étant identifiés auparavant par notre mécanisme de filtrage collaboratif défini dans la section 3.9.1.1. Une manière d’augmenter un critère de qualité particulier du réseau est de choisir la stratégie de recommandation de contacts à appliquer pour optimiser ce critère. Une « entité » semble alors nécessaire pour contrôler la qualité du réseau. Une telle entité peut être vue : Soit comme un administrateur du système ; Soit comme un logiciel dédié (un agent moniteur de l’état du réseau par exemple) ; Soit comme un opérateur du service de recommandation de contacts. Nous appellerons cette entité, l’administrateur du réseau social. Son rôle consiste à faire le monitorage de l’état du réseau et identifier l’état de la topologie du réseau 158 afin de mieux choisir les stratégies de recommandation, en fonction des critères qu'il veut optimiser et qui influenceront les propositions du recommandeur de contacts. Le but des simulations effectuées est de montrer l'impact des différentes stratégies sur ces différents critères. L’idée est de tester les stratégies que le recommandeur de contacts devra utiliser pour améliorer le critère demandé. Pour l'optimisation de certains critères, nous avons simulé différentes stratégies selon différents scénarios de simulation que nous avons imaginé. Un scénario correspond donc à des hypothèses sur une configuration initiale du réseau et un comportement typique des utilisateurs simulés. Plus concrètement ces hypothèses définissent un jeu de paramètres des simulations. Chaque scénario est alors simulé avec chacune des stratégies de recommandations étudiées. En choisissant une stratégie de recommandation plutôt qu'un autre, nous voyons ainsi la possibilité de donner le contrôle du réseau à un administrateur du réseau social. Il s’agit de savoir quelle stratégie de recommandation utiliser et c’est l’administrateur du réseau qui décide en fonction de critères qu’il veut optimiser. Nous avons développé un simulateur pour simuler les scénarios qui vont représenter les réseaux et stratégies de recommandation à évaluer. Pour simplifier ces simulations, définir ces scénarios et orienter l'analyse des simulations effectuées nous avons établies différentes hypothèses. 4.2.2 Hypothèses de simulations L’ensemble des scénarios que nous simulons prend en compte les considérations listées ci-dessous : (CNS-I) La communauté à évaluer est du type « communauté thématique ». En effet, nous considérons que pour mieux interpréter les analyses des donnés à faire évoluer dans les simulations, il faut utiliser des « scénarios simples » comme ceux formés par les réseaux du type réseaux thématiques. Justification. Pour comprendre cette considération, il faut d’abord répondre aux questions : (CNS-Ia) Qu’est-ce que c’est un scénario simple ? Un scénario simple peut être facilement interprété et va servir de base pour construire des plus complexes. Les plus complexes suivront alors le même type d’évolutions. Ainsi, leurs analyses, de la création à l’état final, nous permettent de visualiser et de conclure une logique d’évolution similaire. (CNS-Ib) A quel type de réseau appartient un réseau thématique ? Étant donné le caractère d’intérêt centré sur le même sujet par ses membres, nous parlons de petits mondes. En effet, nous pensons que les réseaux formés dans notre système suivront le modèle de « small worlds » tel que Watts et Strogatz le définissent dans (Watts et Strogatz, 1998), où il est trouvé que la topologie formée par les connections de réseaux sociaux n’est ni régulière ni aléatoire mais quelque chose au milieu de ces deux cas extrêmes (Watts, 1999). Ceci en analogie avec le phénomène du petit monde observé il y 30 ans dans les systèmes sociaux (Milgram, 1967). Ainsi, la topologie de ce type de 159 réseaux permet de considérer le niveau d’efficacité par lequel l’information peut être échangée à travers tout le réseau. De ce fait, dans un réseau « idéal146 » les informations doivent pouvoir arriver d’un membre à un autre, grâce à la topologie du réseau que forment les relations147 entre les membres. Nous pensons que, quand des personnes sont intéressées par le même type d’information, il y a sûrement plus de possibilités qu’elles cherchent à se les échanger et donc la topologie des relations qu’elles forment favorisera le flux d’information, ce qui s’adapte bien à notre contexte. (CNS-II) Une topologie « idéale » suit la structure des réseaux petits mondes. Il s’agit de concevoir des configurations de réseau (des possibles scénarios) qui puissent permettre la difussion d’information vers tous les membres du réseau. Justification. La justification est la même que (CNS-Ia), il suffit d’approfondir dans les travaux de la littérature référencée. (CNS-III) Une topologie « non-idéale » est celle où on ne privilège pas l’information originale. Grâce à l’apport d’informations nouvelles (§I-6.1.7.6) dans le contexte d’intérêt du réseau thématique, de nouveaux échanges peuvent émerger. Dans le cas contraire, personne ne demandera de recommandations de contacts (car rapidement ils s’apercevront qu’il y a toujours la même information dans le réseau) et donc les échanges s’arrêteront. Justification. Bien entendu, dans un réseau thématique, les membres maintiennent des informations personnelles pertinentes dans leurs taxonomies. Nous n’analysons pas la pertinence dans nos simulations. Notre intérêt est centré sur le fait d’introduire des informations nouvelles, car cela accroît la possibilité d’établir de nouvelles connexions (car la base de données d’information s’élargit). 4.2.3 Scénario Un scénario doit permettre la simulation d’un réseau hypothétique ayant certaines caractéristiques au départ. Les caractéristiques de départ sont définies à travers des paramètres (§4.2.3.1). Cependant, ce réseau devra évoluer : nous avons alors besoin d’intégrer des paramètres d’évolution du réseau hypothétique. Ces paramètres prennent en compte la dynamique d’évolution du réseau social (§4.2.3.2), entre autres, les stratégies d’obtention d’information des membres, qui sont désormais, dans le cas des simulations, sous le contrôle de l’administrateur du réseau social. Dans le cas des simulations, sur les différents tests de scénarios hypothétiques, c’est l’administrateur du réseau social qui décide la stratégie des utilisateurs. Il s’agit de tester sur un même réseau, la stratégie la plus adaptée pour optimiser les différents critères d’efficacité du réseau. Ainsi, nous faisons évoluer un scénario à travers des paramètres (voir Figure 4-3 et Figure 4-4). 146 Par « réseau idéal » il faut comprendre celui où la structure de la topologie de relations, permet le flux d’information vers tous les membres du réseau. 147 Les relations, dans le contexte de notre système, s’établissent quand interviennent des échanges d’information. 160 Paramètres b b b b ---Définition du réseau initial ---Définition de la dynamique d’évolution du réseau Scénario hypothétique d h b c Réseau final après l’application des paramètres pour certain nombre d’itérations Figure 4-2. Schéma de relation entre les différentes parties importantes d’une simulation. Un scénario de simulation représente un réseau social hypothétique à simuler où les membres échangeront des références grâce aux recommandations de mises en relation proposées par le recommandeur de contacts du système. Les paramètres de simulation sont les moyens de définir un scénario, c'est-à-dire, les valeurs des paramètres à appliquer dans la simulation d’un scénario imaginé. Nous les détaillons dans les deux sections suivantes. 4.2.3.1 Paramètres pour la définition de l’état initial du réseau Il s’agit de définir les caractéristiques initiales du réseau social à simuler, tel que (voir Figure 4-3) : Nombre de personnes. Paramètre utilisé pour décider du nombre de membres du réseau à simuler. Ce nombre reste constant pour chaque scénario. Nombre de topiques par personne. Ce paramètre permet d’assigner le nombre de topiques que chaque membre virtuel du réseau gèrera dans sa taxonomie personnelle. Ce nombre reste constant pour chaque membre. Pour simplifier nos calculs nous n’avons considéré qu'un topique par utilisateur dans le réseau simulé qui correspond à un extrait thématique d'un réseau de topiques plus vaste. Ainsi, par la suite, un utilisateur est représenté par un topique. Nombre de références par topique. Quantité de références que chaque topique contiendra. Pourcentage de connectivité par topique. Détermine le pourcentage de connectivité du graphe selon la connectivité des topiques, c’est à dire, le nombre de topiques auxquels le topique peut être connecté. Ce paramètre est très important (I-6.1.7.2), parce que nous commençons les simulations d’un scénario avec une configuration initiale pour laquelle centaines personnes échangent déjà des références (à travers leurs topiques). Ainsi, après la création de membres virtuels, de leurs topiques et des références pour chacun de ces topiques, il est possible de connaître les topiques qui peuvent se connecter entre eux (par exemple en y appliquant la première étape de l'algorithme de recommandations de contacts basé sur du filtrage collaboratif). Ensuite on connecte chaque topique à un certain pourcentage des topiques « connectables ». Par exemple, pour un topique ayant 10 topiques connectables (aussi appelés topiques intéressants) avec lesquels 161 il pourrait partager des références, le simulateur les connectera avec 5 de ces topiques, si le « pourcentage de connectivité par topique » est défini à 50%. Probabilité de références prises dans un topique. Ce paramètre permet d'initialiser les échanges de références entre topiques connectés. Lorsqu'un un topique est connecté à un autre topique on décide de mettre ou non chaque référence de ce topique dans le topique relié. Cette décision est prise à partir d'un tirage aléatoire entre 0 et 1 et si celui-ci est plus grand que la valeur donnée à ce paramètre. Les paramètres utilisés pour créer le réseau à simuler se résument dans la Figure 4-3 ci-dessous. Ils ont été décrits dans (§4.2.3.1). Figure 4-3. Interface pour saisir les valeurs de paramètres utilisés pour la génération d'un réseau à simuler. (Remarque : le % de topique publique n'a pas été utilisé) 4.2.3.2 Paramètres pour la dynamique du réseau social Nous nous intéressons aux paramètres à appliquer aux scénarios pour permettre la simulation de la dynamique d’échanges d’information dans le réseau (voir Figure 4-4) : Nombre d’itérations. Nombre de fois que le réseau devra évoluer. Stratégie de recommandations de contacts. Définition de la stratégie de recommandation qui correspond aussi à une stratégie d’obtention d’information pour chaque membre du réseau (§3.9.2.3) .Nous simulons les (4+1) cas suivants : La stratégie « Réputés » ou « Recherche de Réputés » : Tous les membres du réseau cherchent à obtenir l’information venant de contacts ayant de l’information qualifiée d’Experte/Réputée par rapport à leurs propres informations. La stratégie « Originaux » ou « Aller aux Sources »: Tous les membres du réseau cherchent à obtenir l’information venant de contacts ayant de l’information qualifiée d’Originale par rapport à leurs propres informations.. La stratégie « Agrégateurs » ou « Recueillir Tout » : Tous les membres du réseau cherchent à obtenir l’information venant de contacts ayant le maximum de topiques comme source d'information. La stratégie « Hétérogène » : Une stratégie où chaque utilisateur peut choisir une stratégie différente (CNS-III) et que celle-ci n'est pas imposée de manière globale par l'administrateur du réseau. Dans ce cas le simulateur choisi de manière aléatoire lors de la création du réseau, la stratégie que chaque utilisateur va suivre pour toutes les itérations de la simulation. Ce tirage aléatoire doit cependant respecter des 162 pourcentages de Réputés, d’Originaux et d’Agrégateurs définis dans la section %R, %O, %A des paramètres pour l’évolution du réseau de la simulation (voir Figure 4-4). Une autre stratégie est simulée pour avoir un repère de comparaison pour évaluer l'influence du filtrage de topiques recommandés selon des indicateurs sociaux : Cette stratégie sélectionne les topiques issus des recommandations du type filtrage collaboratif : similarité entre les informations des utilisateurs, (§3.9.1.1). Ayant fait l'hypothèse que le réseau simulé était un réseau de topiques thématiques (CNS-I), tous connectables, cette stratégie revient à sélectionner aléatoirement les topiques. Nous l’appelons « stratégie Aléatoire ». Avec cette stratégie, l’utilisateur cherche à obtenir de l’information venant de possibles contacts, indépendamment du fait qu’ils peuvent lui apporter de l’information « intéressante »148. Les 3 premières stratégies correspondent à des simulations où c'est l'administrateur du système qui impose la stratégie de recommandations. La quatrième correspond au cas ou les utilisateurs peuvent choisir leur stratégie d'obtention de l'information. La quatrième stratégie correspond à un non usage de l'algorithme SocialRank. Probabilité d’accepter une recommandation de recevoir. Probabilité qu'un topique accepte d'indexer une nouvelle référence d'un topique émetteur. Il s’agit de décider des références d'un topique reçu qu’un membre acceptera d'indexer. Pourcentage de liste de topiques recommandés pour diffuser. C'est le pourcentage des premiers contacts recommandés pour être diffusés qui seront conservés. Probabilité d’accepter une liste de recommandations. Probabilité qu'un utilisateur accepte de suivre la recommandation de diffuser son topique à un utilisateur parmi les topiques recommandés conservés. Il s’agit de calculer les diffusions qu’un membre fait aux contacts qui lui sont recommandés (selon un pourcentage des premiers listés dans la liste de recommandations, définit ci-dessous). Deux autres paramètres ont été introduits pour des futures simulations : Pourcentage d'acceptation de la liste recommandée (s'inscrire). Ce paramètre a été introduit pour de futures simulations. C’est le pourcentage des premiers contacts ayant des topiques publics, listés dans une liste de recommandation. Il s’agit de s’inscrire dans leurs listes de diffusion publiques. Nos scénarios de simulation développés ici n’intègrent pas des membres qui déclarent leurs topiques publics, donc la valeur de ce paramètre sera toujours égale à zéro. Stratégie du système. Elle n’est pas utilisée dans nos simulations mais a été intégrée pour définir le critère à optimiser après avoir détecté que l’état de la topologie du réseau est susceptible de nécessiter un changement de stratégie de recommandation de contacts. Ceci serait utile si le monitorage de la typologie du réseau était automatisée. 148 C'est-à-dire, information ayant d’expertise ou de l’originalité ou de la valeur d’agrégation (mais qui participent dans la dynamique échanges). 163 Les paramètres utilisés pour créer la dynamique d’évolution du réseau à simuler se résument dans la Figure 4-4 ci-dessous. Figure 4-4. Interface pour saisir les valeurs de paramètres utilisés pour l’évolution d'un réseau à simuler. Les stratégies d’obtention d’information peuvent être « obtenir informations Réputées », « obtenir des informations Originales », « obtenir les Agrégateurs » ou « stratégie hétérogène ». Dans ce dernier cas, il est possible de définir les pourcentages pour les trois stratégies à simuler de manière hétérogène. 4.2.3.3 Scénarios retenus Après avoir fait plusieurs tests sur des nombreux scénarios, nous présentons dans ce document, l’analyse de simulations de trois scénarios que nous considérons représentatifs : Scénario A. Représente un réseau de 30 utilisateurs. D’après nos expériences, 30 est le nombre maximal recommandé de membres dans un réseau social réel pour mieux permettre la diffusion d’information originale, ces utilisateurs partageant un intérêt commun et pouvant tous échanger. Scénario B. Représente un réseau de 40 utilisateurs. Nous avons voulu tester les mêmes paramètres utilisés sur le scénario A mais avec un nombre supérieur de membres. Comme ce réseau a plus de membres, nous avons décidé de créer pour chaque membre une quantité d’information personnelle supérieure à la création du réseau. En effet, à la création du réseau du scénario A, chaque topique a 2 références. Dans notre scénario B, chaque topique a 6 références. Scénario C. Représente un réseau de 40 utilisateurs. Nous avons voulu tester les mêmes paramètres utilisés sur le scénario A mais avec un nombre supérieur de membres et les mêmes valeurs de paramètres de création et d’évolution du réseau. Le détail de construction de nos scénarios se trouve dans la l’Annexe III-8. 4.2.4 Les simulations Une simulation est l'application de notre algorithme SocialRank avec une ou plusieurs stratégies de recommandation (qui correspondent pour l'utilisateur à des stratégies d’obtention de l’information) selon un scénario représentatif d'hypothèses sur le réseau social à tester. 164 Nous rappelons que l'algorithme SocialRank consiste à choisir les topiques à recommander de connecter à un autre parmi tous ceux qui sont intéressants pour ce topique, et qui ne sont pas déjà connectés. Pour simplifier et surtout accélérer le processus de simulation nous considérons que le réseau simulé est un extrait d'un réseau d'échanges réels qui ne contient que les topiques connectables entre eux. Ainsi, tous les topiques peuvent avoir intérêt à des partages de références. Ce réseau simulé correspond donc à un réseau thématique. Cet extrait doit être normalement calculé à partir de la première étape de notre algorithme de recommandation de contact basé sur le filtrage collaboratif. Notre travail de simulation a nécessité : La définition d’une base de données pour les topiques des différents utilisateurs simulés. Il s’agit d’obtenir l’information pour chaque membre du réseau, qui pourra éventuellement être échangée. Nous utilisons celle de l’annuaire ODP149. Nous prenons un domaine dans les catégories d’ODP, pour garantir que l’information échangée fait référence au même sujet. Puis les topiques des utilisateurs seront pris parmi les souscatégories du domaine. La définition de trois scénarios. Grâce à notre état de l’art, nous pouvons construire des scénarios qui serviront à tester nos théories par simulations. Nous avons alors assigné des valeurs aux paramètres pour la construction et l’évolution des réseaux à simuler (§4.2.2.2.1 et §4.2.2.2.2). L’analyse des résultats des différentes évaluations. Après chaque simulation d’un scénario, il faut interpréter les résultats obtenus à partir des évolutions du réseau correspondant. Les évolutions du scénario sont comparées selon les différentes stratégies simulées De cette manière, en fonction de la stratégie de l’administrateur du réseau social et des résultats selon ces évolutions, nous pourrons analyser la meilleure stratégie d’obtention d’information pour influencer le calcul des recommandations de contacts. Les étapes de la simulation sont : la constitution du réseau initial, détaillée dans les sections 4.2.3.1.1 et 4.2.4.1. Cette construction nécessite : la définition d'une taxonomie de topiques ; une connectivité initiale de ces topiques (§4.2.4.2) ; un nombre d'itérations qui permettent de simuler la dynamique du réseau, elles seront détaillées dans la section suivante. Ces itérations sont expliquées dans la section 4.2.4.3). Rappelons q'un même réseau initial est utilisé pour autant de simulation qu'il y a de stratégie. 4.2.4.1 Base de données pour les taxonomies de topiques du réseau initial Pour la génération du réseau initial d’un scénario à tester il faut construire la taxonomie personnelle (les topiques) de chaque membre du réseau. Après, il faut définir des références (pointant vers des URIs) pour chaque élément des taxonomies personnelles. Pour 149 http://www.dmoz.fr/ 165 ce faire, nous utilisons l’annuaire ODP. Notre idée est d’utiliser des liens réels. Il s’agit d’exploiter éventuellement la structure de catégories et sous-catégories qu’il présente. Nous utilisons cet annuaire pour deux raisons : (CO-I) La première, la moins complexe, est mise en œuvre pour obtenir de vrais noms de topiques et pour obtenir des vrais liens sur le Web. Ici il s’agit que de bootstraper150 les données utilisées dans les échanges d’information. L’idée est simple, nous générons des scénarios avec des références pointant vers des liens pertinents car ils appartiennent à une catégorie de l’annuaire. Nous exploitons cette situation dans nos simulations, car il s’agit toujours de tester des scénarios de communautés thématiques. (CO-II) La deuxième, plus complexe151 (développé mais non réalisé dans le cadre de cette thèse), afin de valider la pertinence des recommandations en analysant les liens échangés dans le réseau. Cela nécessite que le système cherche dans les catégories d’ODP à partir du nombre de personnes à simuler et des topiques pour chacune d’entre elles. L’idée est d’obtenir la quantité nécessaire d’information pour le scénario choisi et garantir que l’information échangée sera pertinente sur un sujet donné (pour plus de détails sur ce cas, voir l’Annexe V-10). Ainsi, dans les deux cas décrits au début (CO-I et CO-II), la source d’information se trouve initialement dans les catégories d’ODP correspondantes. Donc, pour définir les topiques du réseau initial le simulateur effectue les tâches suivantes : Il construit en premier, le fichier contenant l’ensemble de catégories ODP et leurs URIs correspondant avec lesquelles le scénario va se construire ; Il crée les membres ; Il crée les topiques de chacun des membres ; Des références différentes sont créées pour chacun des topiques ; A ce point, le simulateur a déjà calculé toutes les connexions possibles, et il ne lui reste qu’à établir l’échange de références entre les topiques qui seront connectés152 : connexion initiale de topiques selon le « pourcentage de connectivité » saisi. 4.2.4.2 Connectivité du réseau initial Comme nous l’avions déjà constaté, des réseaux sociaux doivent nécessairement préexister aux réseaux techniques (§2.2.1 et §4.1.3.3), en conséquence, dans nos simulations, il doit y avoir des membres ayant déjà échangé des références à travers leurs topiques. Mais quels topiques échangeront des références ? Ce choix n’est pas aléatoire, il y a des règles qui permettent de décider les topiques qui peuvent s’échanger des références. 150 Anglicisme utilisé comme synonyme d’amorçage de données. Du point de vue technique, il s’agit d’une suite d'instructions qui entraîne le chargement d'autres instructions, jusqu'à ce qu'un programme complet soit chargé en mémoire. 151 Nous n’avons pas simulé des scénarios appartenant à cette situation plus complexe mais nous avons testé quelques réseaux, cependant, il a été codé en prévoyant des futures simulations. 152 Les topiques qui seront connectés sont les topiques qui échangeront des références. 166 De ce fait, dans le cas où il ne faut que choisir des topiques qui peuvent s’échanger des références à la création du réseau initial pour un scénario donné, les seules règles à suivre sont celles du concept de connectivité entre topiques. Pour définir la connexion entre topique le simulateur effectue les tâches suivantes : Pour chaque topique envoyeur, le simulateur gère une liste de topiques récepteurs. L’originalité de l’information qu’il contient vis-à-vis d’autres membres du réseau est également calculée. La connexion initiale sera alors établie entre un topique envoyeur et un topique récepteur choisi de manière aléatoire dans la liste de topiques récepteurs possibles correspondante, sans dépasser le « pourcentage de connectivité » et selon la valeur d’originalité de l’information du topique envoyeur. Ces calculs cherchent à privilégier les membres qui ont des informations avec une faible valeur d’originalité. Par la suite, un topique récepteur indexera les références (au moins une) d’un topique envoyeur selon la « probabilité de références prises dans un topique » qui est considérée comme la probabilité d’acceptation d’indexer une référence reçue. Cependant, pour les simulations de scénarios présentées ici, cette « probabilité d’acceptation d’indexer une référence reçue » est fixe selon une évaluation de la valeur de réputation d’un topique. Cette évaluation consiste à reconnaître la part de réputation de l’information du topique récepteur vis-à-vis d’autres membres du réseau. Cette évaluation cherche à imiter le comportement des utilisateurs cherchant à recueillir le plus d’informations [h03]. Les décisions de mises en relation de topiques deviennent plus complexes pendant le processus itératif d’une simulation, où se calculent des recommandations. A chaque itération, de nouveaux échanges sont susceptibles de se mettre en place. Dans ce cas, les taxonomies des utilisateurs sont peuplées selon : Le concept de connectivité entre topiques. Il s’agit de valider si deux topiques sont « connectables » parce que les informations qu’ils contiennent sont similaires. Dans ce cas, le recommandeur propose des contacts à qui diffuser. L’indexation de références entre topiques peut alors avoir lieu. Nous formalisons ce concept dans l’Annexe I-6, section §I-6.1.7.2. Les topiques connectables sont sélectionnés grâce à la Définition I-10 de l’Annexe I-6, section I-6.1.7.2 qui explique qu’un topique e est « connectable » au topique f si et seulement si les deux, e et f sont assignés à la même catégorie de l’annuaire de référence (ODP pour les simulations) ou si e est assigné à une souscatégorie de la catégorie assignée à f. Cependant, puisque notre réseau est thématique, tous sont connectables. Ce concept de connectable sera utilisé dans de futures simulations pour évaluer la pertinence de l'échange de références. Dans les simulations effectuées dans le cadre de cette thèse nous n'avons pas utilisé ce concept car nous considérons que le réseau simulé est un réseau thématique extrait d'un réseau plus vaste et qui est donc composées que de topiques connectables entre eux. Le concept de nouveauté de l’information. Une information est dite « nouvelle » si elle n'est pas obtenue à partir d'un topique d'un autre utilisateur. Dans ce cas, les topiques injectent des nouvelles informations dans le réseau, en indexant des références vers des URIs qui ne sont pas pointés par d’autres références dans le réseau. Pour les simulations, ces nouvelles URIs sont prises d’ODP, tout en vérifiant que d’autres topiques dans le réseau ne pointent pas vers elles. Nous formalisons ce concept dans l’Annexe I-6, section §I-6.1.6.1. 167 Une information est dite « nouvelle » si elle est la seule à pointer sur l’URI correspondante (§ I-6.1.6.1). Un topique qui a des informations nouvelles est dit original (§ I-6.1.7.1). 4.2.4.3 Vision globale d'une itération Une itération est une répétition d'une séquence de recommandations de contacts et d’échanges, un nombre de fois fixé à l'avance. Les itérations permettent aboutir à un état final du réseau social simulé. Un même réseau initial peut être utilisé pour plusieurs simulations afin de lui appliquer différentes stratégies de recommandation et de comparer les différentes évolutions du réseau social selon la stratégie appliquée. A chaque itération, plusieurs étapes sont effectuées : Injection de nouvelles références. A chaque itération, il faut injecter de nouvelles références dans chaque topique [po04;p03]. Elles peuvent provenir de la base de données correspondante (les URIS dans la catégorie ODP associée au topique) ou d’un topique reçu. Suivi de recommandations. Chacun des membres devra suivre ou pas des recommandations. Les décisions de suivi d’une recommandation dépendent des paramètres saisis pour la dynamique d’échanges (Figure 4-4). A cette étape a lieu une dynamique d’échanges pour l’itération en cours. Construire des recommandations. A la fin de la dynamique d’échanges d’une itération, il faut recalculer nos indicateurs sociaux pour construire de nouvelles recommandations pour la prochaine itération. C’est l’étape du calcul de topiques intéressants. Il s’agit de construire les recommandations de contacts pour chacun des membres en tenant compte de la stratégie d’obtention d’information définie. Nous détaillons ce calcul dans la section 3.9.2.5. Il y a deux cas importants à considérer pour ce calcul de recommandation de contacts selon que l’on soit à la première ou à la dernière itération à simuler. Le premier cas arrive à la première itération. En effet, à cette itération il n’a pas encore eu de dynamique d’échanges, il y pre-existe seulement un réseau social avec une configuration initiale avec éventuellement des contacts qui s'échangent déjà des références. Alors, juste après l’injection de nouvelles références, le simulateur calcule les topiques intéressants et ainsi il peut compter sur la possibilité d’établir la dynamique d’échanges correspondante à cette première itération. Puis, la séquence d’étapes dit qu’avant une prochaine itération il faut recalculer les topiques intéressants pour l’itération suivante. Le deuxième cas arrive à la dernière itération, il n'y a pas besoin de calculer de nouvelles recommandations. Enregistrement des indicateurs pour affichages ultérieurs. Il s’agit de garder trace des calculs des topiques intéressants, des valeurs de nos indicateurs sociaux, et des critères de qualité qui seront utiles pour faire les analyses des simulations. Après que les itérations se terminent (achèvement de l’évolution du réseau social ou dynamique d’échanges d’informations), nous avons analysé l'évolution des critères de qualité du réseau au cours de la simulation. Nous vérifions l'influence de la stratégie de 168 recommandation simulée sur ces critères de qualité. Pour tester différentes hypothèses sur ces influences nous avons défini les modes d'évaluations des simulations153 présentés dans la sections 4.2.3 et 4.2.4. Afin de bien comprendre les simulations effectuées nous détaillons dans les sections 3.9.2.5 et 3.9.2.6, les étapes de la simulation correspondant aux calculs implémentés des recommandations 4.2.5 Méthode d’évaluation Nos critères (§3.11) permettent à l’administrateur du réseau social de suivre trois stratégies que nous avons décidé de simuler. Nous les appelons stratégies de l’administrateur du réseau social : Augmenter la vitesse de diffusion d’information. Il s’agit de vérifier que l’information qui rentre dans le réseau arrive rapidement aux membres. Nous constatons que ceci n’est pas facile car une nouvelle information doit être lue et indexée par un utilisateur qui la reçoit pour quelle soit diffusée à d'autres utilisateurs. Cette vitesse dépend donc du nombre de topiques avec lesquels cette information doit être indexée pour pouvoir être indexée par un autre (c'est-à-dire du nombre de personnes qui doivent l'indexer puisqu'il y a un topique par utilisateur dans nos réseaux simulés). Dans le contexte de nos scénarios, notre indicateur de vitesse est évaluée à partir d'une mesure de réactivité d'un topique à une information nouvelle NR(te). Elle dépend de la distance de ce topique à d'autres, pondérée par l'originalité de ces autres topiques. Elle est calculée selon la Définition I-18 de l’Annexe I-6 : NR (te ) = 1 * O(t f ) t f ∈DFE ( t e ) D (t f , te ) ∑ ∑ O( f ) t f ∈DFE ( t e ) DFE(te)∈T, est l’ensemble de topiques tel qu’il existe un chemin de tf vers te : ∀te∈T, ∃ tf | D(tf, te)>0. Elle est obtenue grâce à notre mesure de l’originalité (§I-6.1.7.1), introduite dans la section 3.9.2.2, équation (8), à travers le vecteur Original (Définition I-9, Annexe I-6) : 1 1 Original (ti ) = * ∑ ∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri ) t j ∈T IR(ti) ⊆ R est l'ensemble références indexées avec ti (§I-1.k) ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri et pointé par ri | ri ∈ RU(lri) ⊆ R ( §I-1.j.a ; §I-1.i) ri.li selon (§I-1.h) : une référence ri a un lien lri assigné, etc. ∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri) 153 Le détaille de construction de nos scénarios se trouve dans la l’Annexe III. 169 Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans le réseau sur un lien indépendamment de ses propriétaires. D'une manière plus globale nous évaluerons la qualité d'un réseau suivant ce critère en étudiant la moyenne de la mesure NR(ti) sur l'ensemble des topiques. Minimiser les gourous. Il s’agit de vérifier que les utilisateurs réputés ne deviennent pas « incontournables » pour contrôler le flux d’information. Alors nous faisons un monitorage du degré de réputation de chaque topique de chaque membre du réseau social (§I-6.1.7.3) avec une mesure simplifiée de RD(ti) utilisée uniquement dans le cas des simulations : g RD(ti ) = g ∑m j =1 ji ∑m j =1 ji T −1 correspond au degré de sortie ti vers des topiques tj tels que : ∀ti∈T, ∃tj |W(tj,ti)>0 RD(ti) correspond donc au pourcentage de ce degré de sortie par rapport à un graphe totalement connecté. Un gourou étant alors identifié comme le propriétaire d'un topique ti tel que RD(ti) est grand par rapport aux autres. Pour évaluer cela nous étudierons donc l'écart type de cette mesure sur tous les topiques. Optimiser l’efficacité du réseau. Il s’agit de vérifier l’état de la topologie du réseau, c'est-à-dire, si elle permet le flux d’information vers tous ses membres. Nous calculons l’efficacité locale Efficacity(ti) (§I-6.1.7.8, Définition I-21) pour le calcul de la diffusion d'un topique aux membres du réseau telle qu’il existe au moins un lien vers eux et en tenant compte du coût d’établir un tel lien : locEff (ti ) Efficacity (ti ) = Cost (ti ) Une fois définies ces stratégies de l’administrateur du réseau social, nous les testons sur des scénarios. De cette façon, la méthode d’évaluation est en fonction des critères à optimiser (§3.9.2 et §3.11, Tableau 3.12) que l’administrateur du réseau social choisi (sa stratégie). Il s’agit de valider quand une stratégie est meilleure que les autres pour un critère de qualité. Il faut noter que dans toutes nos analyses, le scénario A est le réseau le plus proche des réseaux réels car il compte le nombre maximal (ou adéquat154) de membres dans un réseau social par rapport à notre contexte de simulation (les réseaux thématiques). 4.2.6 Limites des simulations Avec l’évaluation des scénarios mis en place : Nous voulons prouver que : 154 Voir le blog de Dave Douglas : http://radio.weblogs.com/0111105/2004/01/26.html 170 Le fait de recommander certains contacts plutôt que d’autres augmente l’efficacité de diffusion de l’information. Il est possible d’influencer la topologie du réseau pour que la vitesse de diffusion d’information augmente. Nous ne mesurons pas : La qualité de l’information. Nous avons choisi de tester des scénarios représentant des réseaux sociaux du type thématique (§4.2.2, considération CNS-I) où tous les topiques ont de l'information pertinente pour chacun de manière égale. Nos simulations visent l’analyse des réseaux où l’information échangée porte sur un même domaine ou même sujet ou même intérêt : un réseau thématique. Le silence. Nous considérons le silence comme le fait de ne pas suivre les recommandations du recommandeur. 4.2.7 Analyse des simulations Dans ces sections nous présentons l’analyse de nos simulations selon nos évaluations des critères : de vitesse de diffusion d’informations nouvelles, de l’impact de contacts gourous, du coût des mises en relation et de l’efficacité globale du réseau. 4.2.7.1 Étude de la vitesse de diffusion d’informations nouvelles Considérant qu’il faut « privilégier l’information originale » (CNS-III), nous avons décidé de mesurer la vitesse de difussion des nouvelles informations dans un réseau. Il s’agit de valider si les nouveautés sont indexées le plus rapidement possible. Pour le faire, nous utilisons la mesure de « réactivité à l’information nouvelle » (§I-6.1.7.6). Nous calculons la moyenne pour les différentes stratégies d’obtention d’information (4+1) dans les scénarios A, B et C (Annexe III-8) et nous obtenons les résultats montrés dans les graphes ci-après. 171 Originels Agrégateurs Originels Agrégateurs Originels Agrégateurs Figure 4-5. Graphes des trois scénarios de simulation représentant les moyennes des valeurs de réactivité à l’information nouvelle, si la stratégie de l’administrateur du réseau social cherche à augmenter l’efficacité de diffusion d’information. Les abscisses indiquent le nombre d’itérations et les ordonnées la valeur de réactivité à l’information nouvelle. Dans la Figure 4-5 nous pouvons constater que si le critère à optimiser est l’efficacité de diffusion de l’information nouvelle, il faut que la recommandation de contacts ayant de l’information qualifiée d’originale soit favorisée. Le scénario A le montre parfaitement car la courbe de la stratégie des originaux est supérieure à toutes les autres. Même dans le scénario B et dans le scénario C, nous voyons que le fait de suivre cette stratégie favorise la réactivité à l’information nouvelle. Ces résultats sont également validés avec les données montrées sur la Figure 4-6 qui montre la comparaison de gains des valeurs de la stratégie d’obtention d’information nouvelle par rapport à la stratégie de « Tirage Aléatoire ». En effet, nous pouvons vérifier sur la Figure 4-5 que la stratégie de « Tirage Aléatoire » a une bonne courbe de réactivité à l’information nouvelle. Mais cela ne doit pas être interprété comme une stratégie importante, d’autres analyses doivent êtres conçues pour le confirmer. D’ailleurs, nous verrons plus loin que l’efficacité de cette stratégie est certainement très faible (§4.2.7.3), ce qui confirme la nécessité d’appliquer des analyses sociales dans les systèmes de recommandation dans le contexte de notre approche. 172 Dans la Figure 4-6, le gain des originaux dans le scénario A représente 15% sur la stratégie de « Tirage Aléatoire ». Notez que ce le scénario A représente le cas plus adapté aux réseaux sociaux réels. Ce résultat confirme alors l’importance d’injecter de nouvelles informations pour que le réseau évolue. Le gain des originaux dans le scénario B n’est perceptible que dans les premières évolutions. Ceci peut s’interpréter comme un problème de trop d’information originale. Le recommandeur de contacts a trop de contacts ayant de l’information originale. Cette situation montre que trop d’injection d’informations nouvelles est un facteur qui détériore la topologie du réseau ! Gains des valeurs originaux sur les valeurs de la stratégie Tirage Aléatoire (Scénario A) Gains des valeurs originaux sur les valeurs de la stratégie Tirage Aléatoire (Scénario B) Originaux Originaux Gains des valeurs originaux sur les valeurs de la stratégie Tirage Aléatoire (Scénario C) Originaux Figure 4-6. Comparaison de gains des valeurs de la stratégie d’obtention d’informations originales par rapport à la stratégie de Tirage Aléatoire et Hétérogènes. Les abscisses indiquent le nombre d’itérations et les ordonnées la valeur de la stratégie d’obtention d’informations originales. Pour le scénario C il n’y a pas de gains. Nous proposons l’explication suivante : dans ce scénario, les utilisateurs étant nombreux, ils n’ont pas eu assez d’information originale à la création du réseau. Alors il n’y a pas suffisamment de recommandations possibles. Les graphes d’écart type des valeurs d’originalité confirment notre analyse par rapport à l’importance de recommander des contacts ayant de l’information originale (§4.2.6.1) parce qu’elle augmente la vitesse de diffusion d’information. 173 Figure 4-7. Comparaison des écarts types sur les valeurs d'originalité pour les stratégies des utilisateurs pour nos trois scénarios testés. Les abscisses indiquent le nombre d’itérations et les ordonnées le valeur des écartype des originalités. Cependant, le fait de favoriser la recommandation de contacts « originaux » a un impact sur l’efficacité du réseau. Son coût est plus élevé que celui des autres stratégies (sauf les stratégies des « Réputés » et de « Tirage Aléatoire » qui sont les plus coûteuses). Cet impact sur le coût est logique. Imaginons des personnes ajoutant toujours de l’information nouvelle. Même si cette information est considérée intéressante pour les autres membres du réseau, le fait de vouloir être reconnu comme un contact source d’informations nouvelles peut se traduire comme un moyen de contrôler le flux d’information car les autres dépendront de ces « sources » d’informations nouvelles ou « gourous en information nouvelle » pour l’obtenir. Nos indicateurs sont capables de détecter ceci et cela est donc reflété sur le coût. Nous détaillons cet impact possible dans la section d’analyse de l’efficacité du réseau (§4.2.7.3). 4.2.7.2 Étude de l’impact de contacts « gourous » Pour analyser l’impact de l’existence de contacts « gourous » (§3.9.2 ; §3.11) sur un réseau social, nous utilisons la mesure de « réputation » (§I-6.1.7.3.1). Ainsi, nous obtenons les écart type de cette mesure de réputation par rapport aux différentes stratégies 174 d’obtention d’information (4+1) dans nos trois scénarios (Annexe III-8). Les résultats sont montrés dans les graphes de la Figure 4-8. Il est à noter que la réputation utilisée dans nos simulations est celle du degré RD(ti) (§I-6.1.7.3.1), parce qu’elle s’adapte parfaitement à notre contexte. Cette décision est fortement influencée par le temps de réponse rapide du calcul de RD(ti). La réputation dans le système réel est calculé avec notre algorithme RankReputation (§I-6.1.7.4). Figure 4-8. Graphes des trois scénarios de simulation représentant les écart type des valeurs de réputation, pour l’analyse de l’impact des contacts « gourous ». Les abscisses indiquent le nombre d’itérations et les ordonnées la valeur des écartypes des valeurs de réputation. Nous nous intéressons à vérifier que l’écart type de la réputation est minimal. De cette façon, nous pouvons constater que si l’administrateur du réseau social cherche à minimiser l’impact des membres « gourous » : il faudra favoriser la recommandation de contacts « Agrégateurs » ou il faudra exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des recommandations selon la « stratégie Tirage Aléatoire ». 175 Cependant, nous constatons qu’il est préférable de favoriser les recommandations de contacts Agrégateurs sur celles des contacts avec la stratégie de « Tirage Aléatoire », si l’on veut que la diffusion d’information nouvelle soit rapide et efficace (voir Figure 4-7 et Figure 4-9). Ce constat valide l’importance de l’intégration des analyses sociales (nos algorithmes SocialRank) par rapport aux recommandations typiques des systèmes de filtrage collaboratif. Si l’on veut que la diffusion d’information nouvelle soit rapide et efficace, il est préférable de favoriser la recommandation de contacts Agrégateurs sur celle des contacts utilisant la stratégie de « Tirage Aléatoire ». Un résultat intéressant est le fait de constater l’augmentation de contacts gourous si l’on recommande des contacts réputés : les réputés deviennent plus réputés encore ! Voir la Figure 4-8 d’écart type de la réputation. Attention, nous pouvons également vérifier que le même phénomène arrive si l’on ne recommande que des contacts ayant de l’information originale ! Les originaux deviennent plus originaux, voir la Figure 4-7 d’écart type de l’originalité. 4.2.7.3 Étude de l’efficacité du réseau Un résultat très intéressant est l’analyse de l’efficacité du réseau. Nous mesurons l’efficacité pour valider si l’information se diffuse facilement dans un réseau, c’est à dire, pour vérifier que la topologie que forment les relations permet le flux d’information vers tous les membres et que cela n’est pas coûteux. L’idée est de tenir compte également du fait d’établir de nouvelles relations pour vérifier si cela est plus coûteux que d’utiliser les relations existantes. Nous pouvons comparer les résultats antérieurement décrits avec ceux montrées sur la Figure 4-9 qui met en évidence : La bonne efficacité de la stratégie « Agrégateurs ». De la Figure 4-9 nous pouvons voir que son efficacité est nettement supérieure à celle issue des recommandations par « Tirage Aléatoire », ceci signifie qu’avec notre approche nous avons bien proposé une stratégie de recommandation de contacts qui améliore l’efficacité du réseau par rapport aux algorithmes traditionnels de filtrage collaboratif d’informations. La grande efficacité des stratégies « Hétérogènes ». En effet, plus les utilisateurs développent des stratégies de recherche d’information hétérogènes, plus les distances maximales entre eux155 diminuent. Ce constat est très important parce qu’il nous permet de résoudre par exemple le problème du passager clandestin (Jin et al., 2001), parce que les nœuds (utilisateurs) sont mieux interconnectés. Ceci montre bien que l’efficacité du réseau augmente quand le nombre d’utilisateurs augment car on risque moins d’avoir la même stratégie pour tous. L’efficacité du réseau augmente avec le nombre d’utilisateurs car on risque moins d’avoir la même stratégie pour tous. 155 Nœuds du réseau = utilisateurs. 176 La faible efficacité de la stratégie « Tirage Aléatoire ». Même si dans les graphiques montrés antérieurement (voir Figure 4-5, Figure 4-6 et Figure 4-8) nous avons pu constater que cette stratégie peut produire des résultats intéressants, la courbe d’efficacité du réseau social souffre d’une chute pour cette stratégie. Ceci s’explique par le fait que les recommandations construites avec elle prennent en compte des contacts choisis de manière aléatoire, c’est à dire que le recommandeur trouve toujours un contact à recommander (à chaque fois, on peut compter avec un contact à recommander). Nos stratégies sociales doivent cibler les contacts adaptés à une stratégie désirée. Donc, effectivement, il y aura moins de choix de contacts possibles à recommander. En effet, avec nos stratégies sociales nous avons peu de contacts à recommander mais des contacts plus adaptés aux besoins des utilisateurs, même si cela peut être plus coûteux dans certains cas. Figure 4-9. Graphes des trois scénarios de simulation représentant l’efficacité du réseau, si la stratégie de l’administrateur du réseau social cherche à augmenter l’efficacité 177 de diffusion d’informations nouvelles. Les abscisses indiquent le nombre d’itérations et les ordonnées la valeur d’efficacité du réseau. Nos résultats confirment donc qu’il est nécessaire qu’une dynamique sociale existe, intégrant de la régulation et de la recommandation de contacts selon des stratégies bien définies. Analysons le scénario A. A partir de la Figure 4-9, nous pouvons comparer les valeurs correspondantes aux stratégies simulées d’obtention d’information. Toutes les stratégies ont une efficacité supérieure à celle de la stratégie de « Tirage Aléatoire ». La stratégie d’« Agrégation » est la meilleure en efficacité, juste après celle des stratégies « Hétérogènes ». La simulation où le recommandeur de contacts favorise les propriétaires de topiques gérant de l’information nouvelle voit augmenter l’efficacité de la topologie de leur réseau de contacts par rapport à celle qui favorise les contacts réputés. Même si le coût d’un tel réseau est relativement cher, nous montrons qu’il est globalement inférieur à celui d’un réseau qui préfère les recommandations de contacts ayant de l’information réputée (voir Figure 4-10). 2.347739915 2.5 2.007773953 1.876578268 2 1.814451313 1.755565964 1.5 1 0.611022088 0.601714146 0.619355224 0.584228251 0.364827586 0.373716475 0.5 0.554945112 0.391340996 0.313793103 0.263065134 REPUTATION ORIGINALITE AGREGATION T-ALEATOIRE COUT EFFICACITE LOC EFF COUT EFFICACITE LOC EFF COUT EFFICACITE LOC EFF COUT EFFICACITE LOC EFF COUT EFFICACITE LOC EFF 0 T-HETEROGENE Figure 4-10. Scénario A avec les valeurs des stratégies simulées d’obtention d’information (comparatif des valeurs des indicateurs d’efficacité locale (LOC EFF), d’efficacité (EFFICACITE) et de coût (COUT)). Les ordonnées indiquent les valeurs des stratégies simulées. La simulation où le recommandeur de contacts favorise les propriétaires de topiques Agrégateurs montre que le fait d’échanger avec ceux qui agrègent de l’information favorise la vitesse de diffusion d’information (le coût est plus faible). La simulation où le recommandeur de contacts favorise les propriétaires de topiques gérant de l’information réputée est très coûteuse et la performance de ses efficacités n’est pas assez importante si on la compare avec celle ayant favorisé des recommandations de contacts originaux. 178 Également, ce scénario nous permet de mettre en évidence l’importance d’injecter des informations nouvelles. Nous avons donc analysé les pourcentages nécessaires de topiques originaux dans le réseau social. Nous nous sommes rendus compte qu’avec 30 utilisateurs, le nombre maximal de membres pour mieux permettre la diffusion d’information originale (§4.2.5), serait environ de 43.3% de topiques avec une valeur importante d’originalité, afin d’atteindre des efficacités avantageuses à coûts acceptables. Il faut autour de 43.3% de topiques avec une valeur importante d’originalité dans un réseau social avec le nombre maximal de membres pour mieux fonctionner si l’on veut une l’efficacité du réseau adéquat. Analysons maintenant le scénario B (Figure 4-11). La simulation où le recommandeur de contacts favorise les propriétaires de topiques gérant de l’information originale baisse légèrement sa valeur d’efficacité par rapport au scénario A. Cette baisse est justifiée parce que le pourcentage de topiques originaux est trop élevé (autour de 50%). Ceci signifie que le recommandeur n’a que des topiques originaux à recommander et donc les recommandations ne sont pas précises : il recommande toujours des propriétaires de topiques originaux ! Avoir une surcharge de topiques (>50%) avec une valeur importante d’originalité, abaisse l’efficacité du réseau. Cependant, la stratégie favorisant l’injection des informations nouvelles reste plus efficace que celle ne favorisant que les contacts réputés. La simulation où le recommandeur de contacts favorise les propriétaires de topiques Agrégateurs est nettement supérieure aux recommandations des contacts ayant de l’information originale ou réputée. Ceci met en évidence l’importance de cette stratégie et valide notre idée que ce ne sont pas les contacts réputés qu’il faut recommander. De cette façon, nous constatons que la simulation où le recommandeur de contacts favorise les propriétaires de topiques gérant de l’information réputée est très coûteuse et peu efficace si l’on compare avec les autres stratégies. 179 2.38078087 2.5 2.00689395 2 1.812276249 1.809283733 1.698570247 1.5 1 0.606407453 0.607663378 0.369102564 0.5 0.621540804 0.586500962 0.357307692 0.309059829 0.555314782 0.388376068 0.251324786 REPUTATION ORIGINALITE AGREGATION T-ALEATOIRE COUT EFFICACITE EFF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC 0 T-HETEROGENE Figure 4-11. Scénario B avec les valeurs des stratégies d’obtention d’informations simulées (comparatif des valeurs des indicateurs d’efficacité locale, d’efficacité et de coût). Les ordonnées indiquent les valeurs des stratégies simulées. Analysons maintenant le scénario C (Figure 4-12). Les valeurs d’efficacité sont relativement inférieures par rapport aux autres simulations. Le pourcentage de topiques originaux est trop inférieur (autour de 35%) et donc ses valeurs d’efficacité chutent. Ce qui arrive est que le recommandeur a peu de topiques originaux à recommander et donc les recommandations ne sont pas précises : il ne peut pas recommander des propriétaires de topiques originaux. Avoir une sous-charge de topiques (<35%) avec une valeur importante d’originalité, abaisse l’efficacité du réseau. 180 3 2.604217607 2.5 2.064444468 1.993171328 2 1.950630368 1.672114361 1.5 1 0.606766781 0.591885771 0.369808429 0.5 0.626250025 0.585891965 0.334176245 0.322375479 0.525931401 0.407586207 0.24137931 REPUTATION ORIGINALITE AGREGATION T-ALEATOIRE COUT EFFICACITE EFF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC COUT EFFICACITE EF-LOC 0 T-HETEROGENE Figure 4-12. Scénario C avec les valeurs des stratégies d’obtention d’information simulées (comparatif des valeurs des indicateurs d’efficacité locale, d’efficacité et coût). Les ordonnées indiquent les valeurs des stratégies simulées. La simulation où le recommandeur de contacts favorise les propriétaires de topiques gérant de l’information réputée a une efficacité importante, mais cette stratégie coûte très cher par rapport aux autres (sauf pour le cas des stratégies « Hétérogènes »). Ceci confirme notre constat sur l’efficacité du réseau qui augmente quand le nombre d’utilisateurs augment car on risque moins d’avoir la même stratégie pour tous. De cette manière, nous pouvons conclure qu’un réseau n’ayant suivi que des recommandations de contacts réputés est très coûteux et pas suffisamment efficace si l’on compare avec un réseau n’ayant suivi que des recommandations de contacts originaux (leurs valeurs d’efficacité sont proches). Les valeurs des stratégies de « Tirage Aléatoire » et des stratégies « Hétérogènes » ne font que valider nos idées : Les recommandations issues de notre algorithme de filtrage collaboratif ont besoin de l’intégration de critères qui prennent en compte le caractère social du réseau. C’est le cas de la stratégie de « Tirage Aléatoire ». Cette affirmation est validée par le coût qu’une telle stratégie représente, même si l’efficacité du réseau pourrait s’avérer optimiste. Proposer un système qui n’impose pas une dynamique d’échanges d’information fait qu’il ne survivra pas. Il est nécessaire de valider que les échanges entre les membres du réseau favorise la structure de la topologie du réseau. C’est la tâche de l’administrateur du réseau social. 181 L’intervention d’un administrateur social ne doit se faire que dans le cas où la structure du réseau n’est pas optimale. Il faut toujours donner priorité aux stratégies hétérogènes des utilisateurs. De cette façon, si la topologie du réseau social ne permet pas un bon flux d’informations, nous pouvons décider de la stratégie de recommandation de contacts à partir des critères que l’administrateur du réseau social cherche à améliorer. Si cet administrateur veut améliorer : Le critère de vitesse pour augmenter la vitesse de diffusion d’informations nouvelles : il devra constituer des réseaux thématiques d’au maximum 30 membres ; il devra vérifier que le pourcentage de topiques dans le réseau social ayant une valeur importante d’originalité d’information soit supérieur à 35% et inférieur à 50%. Il devra privilégier la stratégie d’obtention d’informations nouvelles ou si ceci n’est pas toujours possible, celle de recommandation de contacts ayant des topiques agrégateurs. Le critère de gourous pour diminuer leur influence sur le flux d’information dans le réseau. Nous avons vu que les gourous peuvent être de deux types : ceux qui ont de l’information très réputée mais aussi nous avons découvert que ceux qui injectent beaucoup d’informations nouvelles peuvent le devenir. Alors, pour éviter la prolifération de gourous, l’administrateur doit : favoriser la recommandation de contacts « Agrégateurs » ou si ceci n’est pas toujours possible, exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des recommandations selon la stratégie « Tirage Aléatoire ». L’efficacité de diffusion d’information : il devra alors privilégier la stratégie de « Tirage Aléatoire » et/ou la stratégie de « Réputés ». 4.2.8 Conclusion des simulations Les interprétations effectuées sur la base de ces analyses des simulations révèlent l’importance d’intégrer des analyses sociales dans les recommandations. En effet, intégrer un recommandeur de contacts fait intervenir un ensemble de dynamiques sociales influencées par les échanges d’informations. Nos simulations ne font alors que valider le contexte de notre approche mais dans des traits clairs : Le nombre de membres dans un réseau des personnes susceptibles de s’apporter de l’information efficacement serait limité à 30. L’apport d’informations nouvelles serait nécessaire dans un réseau social si l’on veut augmenter la vitesse du flux d’information. Cependant il ne serait pas nécessaire que tous les membres du réseau intègrent des informations nouvelles en même temps. Il faudrait par contre qu’il existe au moins un pourcentage des membres qui injectent de l’information nouvelle. Ce pourcentage se trouverait aux alentours de 43.3%. En effet, en observant la Figure 4-10, descendre à moins de 35% ou le dépasser à plus de 50% diminuerait l’efficacité du réseau social. 182 Nous avons principalement résumé les moyens d’optimiser les critères de l’administrateur du réseau social. Il est dépendant de la stratégie d’obtention d’informations que le recommandeur de contacts devra prendre en compte. Un résultat très encourageant est que nous avons pu montrer l’importance d’intégrer des aspects sociaux dans un système de recommandation de contacts. Nous pouvons citer par exemple, deux cas intéressants selon nos simulations : La stratégie de « recueillir tout », c'est-à-dire, celle qui tient compte des propriétaires des topiques agrégateurs d’information, a montré une efficacité nettement supérieure à celle issue des recommandations par « Tirage Aléatoire ». Ceci signifie que l’on a bien proposé une stratégie de recommandation de contacts qui améliore l’efficacité globale du réseau par rapport à l’usage des algorithmes traditionnels de filtrage collaboratif d’informations. Les stratégies « Hétérogènes », c'est-à-dire, elles sont intéressantes quand les utilisateurs ne choisissent pas la même stratégie (qui est maintenue tout au long des itérations). En effet, plus les stratégies sont hétérogènes moins les distances entre les nœuds du réseau (les utilisateurs) sont grandes et alors plus l’efficacité est importante. 183 184 5 Conclusion et Perspectives ous avons développé notre travail de recherche autour de deux contextes : des aspects socio-psychologiques dans des réseaux de relations de personnes et les systèmes informatiques de recommandation, typiquement ceux appliquant des techniques de filtrage collaboratif (§2.1.1.1 ; §3.9.1.1). Nous avons construit un système pour intégrer ces concepts. Nous l’avons baptisé SoMeONe (§3.12). N 5.1 Conclusions Notre approche est fondée sur la volonté des utilisateurs à coopérer. Comme Hazel Hall (Hall, 2001), nous sommes d'accord sur ce que les économistes argumentent déjà : les individus évaluent des coûts alternatifs d'action pour recevoir la meilleure valeur au coût le plus bas. Mais dans la vie sociale, les gens (les acteurs) peuvent seulement obtenir ce dont ils ont besoin (les ressources) par les relations dépendantes avec d'autres (les structures) (Molm, 2001). Les personnes ont besoin d'autres personnes pour trouver rapidement des informations pertinentes et nouvelles pour ne pas devenir un « étranger » dans la société grandissante. Avec ces idées, nous avons développé SoMeONe, étant un nouveau média coopératif d’échanges personnalisés d’information. Il est encadré dans contextes socio-informatiques. 5.1.1 Cadre théorique Nos hypothèses tiennent compte des objectifs utilisateurs (obtenir de l’information) et pour cela nous avons intégré des critères de qualité à optimiser pour tenir compte également des objectifs du système (optimiser la structure d’un réseau social). Le moyen pour les atteindre a été l’application des indicateurs sociaux. Ces éléments sont synthétisés dans le tableau ci-dessous. 185 Éléments que nous voulons offrir à l’utilisateur Critères de qualité globale du système Critères de qualité qui vont permettre de déterminer l’efficacité du système pour optimiser le réseau. Mécanismes de Régulation Indicateurs sociaux Moyens pour permettre des relations pour satisfaire les objectifs des utilisateurs et la qualité du système. Ensemble de caractéristiques sociales qui vont permettre de valider nos hypothèses. - Originalité. Mesurée avec I.1.7.1. - Réputation. Mesurée avec Vitesse de réactivité à l’information nouvelle Pertinence Motivationּ Éviter la prolifération des Gourous Engagement Coût du Réseau Efficacité du Réseau Mécanisme de recommandations Mécanisme de gestion et diffusion de l’information. Conscience sociale I.1.7.3 - Agrégation. Mesurée avec I.1.7.10. - Redondance. Mesurée avec I.1.7.5. D’autres formules qui aident à valider ces indicateurs sociaux : - Efficacité du réseau (selon une calcule d’efficacité locale et le coût) - Coût du réseau - Réactivité à l’information nouvelle Tableau 5-1. Éléments de notre approche pour la dynamique des réseaux sociaux. 5.1.1.1 Contexte socio-psychologique Par rapport au contexte socio-psychologique, nous nous sommes intéressés à analyser les facteurs qui influencent la participation des personnes à des réseaux sociaux et aux enjeux psycho-sociaux inhérents comme la motivation ou la confiance. Il s’est agit d’analyser les moyens d’inciter à échanger de l’information personnelle entre membres du réseau social. Ainsi, nous avons influencé notre approche avec des théories de l’analyse des réseaux sociaux afin de mieux comprendre ces réseaux, les modéliser et les représenter du point de vue informatique. 5.1.1.2 Contexte informatique L’intérêt de notre étude est né également du fait que nous avons reconnu que sur le Web, les internautes ont des besoins changeants d’information. Grâce aux théories des analyses sociales et des expériences des autres systèmes de recommandation existants, nous savons que la plus part du temps, ces besoins informationnels sont généralement satisfaits par le fait de « demander à un copain », c’est à dire, à une personne généralement une connaissance ou une référence sur le sujet d’intérêt. Nonobstant, cette information désirée évolue avec chaque individu et il faut donc que celle-ci soit adaptée et pertinente. Ceci est loin d’être évident quand il s’agit de la trouver sur le Web car il est fait de paradoxes : on y trouve tout, on n'y trouve rien. Par exemple, dans les groupes d’intérêt qui se forment, nous constatons qu’il faut toujours produire de l’information, obligation qui est loin de satisfaire des besoins individuels d’information. Donc, le constat est que le Web est déséquilibré, il y a en effet, dans ce type de systèmes d’échanges d’information, une minorité très active de producteurs d'information, et une 186 majorité de consommateurs silencieux. Pouvons-nous vraiment modifier cette forte tendance ? Et bien, la réponse à cette question a été le cœur de notre recherche. 5.1.1.3 Mécanismes de régulation Pour arriver à répondre de manière positive à la question précédente, nous avons imaginé la possibilité d’influencer la motivation aux échanges informationnels en intégrant des mécanismes de régulation dédiés. Par exemple, nous avons proposé des mécanismes intégrant une dynamique d’échanges d’information, de gestion d’information personnelle et de conscience sociale, tout en appliquant des règles de régulation, capables d’influencer cette motivation à participer aux échanges d’information. Nous avons commencé alors, par permettre la gestion d’information personnelle en intégrant des « dispositifs efficaces156 » de classification pendant la navigation. Pour cela nous avons développé pour l’utilisateur, deux gestionnaires : le gestionnaire d’information personnelle et le gestionnaire de contacts. Ce dernier est influencé par le recommandeur de contacts, voir Figure 5-1 ci-dessous. Figure 5-1. Les outils contrôlés par les utilisateurs du réseau social médiatisé. Les membres du réseau participent à une dynamique d’échanges d’information. Avec notre mécanisme de gestion de l’information personnelle nous développons la nature individualiste des utilisateurs [po03] en lui rendant le contrôle sur ses informations [p02]. Cependant, un utilisateur décidé à participer au réseau social proposé par notre système accepte la dynamique du réseau et donc, participe aux échanges. Son but est d’obtenir de l’information adaptée. Pour cela, il compte avec la recommandation de contacts (selon notre mécanisme de recommandation de contacts) et avec une conscience d’autres membres du réseau social [po06]. Nous y intégrons aussi, la conscience de son egonetwork. 156 Par « dispositifs efficaces » nous entendons les outils offerts à l’utilisateur, qu’il doit trouver utiles et faciles d’adopter dans son usage quotidien. 187 Les échanges effectués déclenchent des recommandations obtenues à partir de l’analyse des indicateurs sociaux [h02;po01;po02] (nos algorithmes SocialRank) et éventuellement, d’un type de filtrage collaboratif (utilisant des annuaires) (§3.9). 5.1.1.4 Efficacité du flux d’information En conséquence, l’apport, le plus important de notre approche, est né de notre idée de recommander des contacts plutôt que de l’information. Pour cela nous nous sommes fortement intéressés à valider l’efficacité de flux d’information dans le réseau social proposé [po02]. Nous ne cherchons pas à proposer des contacts par le contenu informationnels qu’ils peuvent gérer mais plutôt par leur position dans le réseau social médiatisé. Nous avons donc établi dans notre cadre théorique une série de postulats, de principes et d’hypothèses à valider. 5.1.2 Évaluation de notre approche De cette façon, pour tester nos théories nous avons développé deux évaluations. La première a été proposée aux utilisateurs réels et a encouragé de nombreuses modifications de notre système SoMeONe. Cependant, la grande quantité de facteurs sociaux susceptibles d’être analysés avec des utilisateurs réels nous a incité à développer notre deuxième évaluation sous forme de simulations. Les résultats de ces deux évaluations sont encourageants. La première évaluation nous a permis de révéler deux types d'usages à dissocier : D'une part, les usages relatifs à la partie du système qui permet la construction de réseaux sociaux. D'autre part, les usages relatifs à la partie du système qui permet de gérer l’information personnelle. Les usages relatifs au premier usage du système, nous ont permis de valider que les réseaux sociaux ne peuvent pas être crées artificiellement par la seule mise en place d'un réseau technique de communication (§2.2.1). Cependant, nous avons pu constater que les utilisateurs considèrent que le partage de références est un des points forts du service. Ceci leur a permis de constituer une sorte de « Webiographie » commune à un groupe d’individus. Ce constat implique que les utilisateurs ont trouvé certainement un moyen pour obtenir de l’information pertinente. Nous pouvons aussi mettre en avant ici le fait de profiter du tri effectué par les autres et la possibilité de pouvoir récupérer leurs informations indépendamment d’un poste de travail, ce qui nous a permis de constater des initiatives d’engagement et de participation aux échanges d’information dans la dynamique proposée par notre approche (§4.1.4). Les usages relatifs à la deuxième fonctionnalité du système (nomenclature personnelle) ont été peu représentés (§4.1.7). Les résultats décourageants de cette première évaluation sont justifiés par le contexte dans lequel elle a été développée. Le facteur principal mis en évidence a été la pauvreté des métaphores dans l’interface, capables de plus encourager son usage. 188 Nous pouvons également citer le fait qu’une intégration des fonctionnalités de SoMeONe dans un autre système doit rester cohérente avec les fonctionnalités déjà offertes par le système où l’on intègre (§4.1.6 B), c’est à dire, les compléter ; dans le cas contraire, les utilisateurs auront tendance à utiliser ce qu’ils connaissent déjà. Nous avons souffert de ce problème par rapport au cartable électronique®. La deuxième évaluation a été faite à travers un ensemble de scénarios de simulations qui prennent en compte des aspects sociaux, inabordables en temps et quantité, avec des utilisateurs réels. Les résultats obtenus nous ont permis de valider nos hypothèses sur nos critères de qualité : la vitesse de réactivité à l’information nouvelle, le contrôle sur la prolifération de gourous, la prise en compte du coût et de l’efficacité du réseau. Dans cette évaluation nous avons envisagé la possibilité de compter avec une entité capable de contrôler l’état de la topologie du réseau. Cette entité est l’administrateur du réseau social dans nos simulations. L’administrateur du réseau doit pouvoir réagir dans le cas où les critères de qualité du réseau social que nous avons définis se dégradent. De cette façon, si la topologie du réseau social ne permet pas un bon flux d’information, nous pouvons décider de la stratégie de recommandation de contacts à partir des critères que l’administrateur du réseau social cherche à améliorer. Si cet administrateur veut améliorer : Le critère de vitesse157 pour augmenter la vitesse de diffusion d’informations nouvelles : il devra constituer des réseaux thématiques d’au maximum 30 membres ; il devra vérifier que le pourcentage de topiques dans le réseau social ayant une valeur importante d’originalité d’information soit supérieure à 35% et inférieur à 50%. Il devra privilégier la stratégie d’obtention d’information nouvelle ou si ceci n’est pas toujours possible, celle de recommandation de contacts ayant des topiques agrégateurs. Le critère de gourous, pour diminuer leur influence sur le flux d’information dans le réseau. Nous avons vu que les gourous peuvent être de deux types : ceux qui ont de l’information très réputée mais auss, nous avons découvert que ceux qui injectent beaucoup d’information nouvelle peuvent le devenir. Alors, pour éviter la prolifération de gourous, l’administrateur doit : favoriser la recommandation de contacts « Agrégateurs » ou si ceci n’est pas toujours possible, exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des recommandations selon la stratégie « Tirage Aléatoire ». L’efficacité de diffusion d’information alors il devra privilégier la stratégie de Tirage Aléatoire et/ou la stratégie de Réputés. Il est évident que l’administrateur du réseau social peut modifier le critère à optimiser en fonction de l’état de la topologie du réseau. Mais nous avons bien montré que : 157 La vitesse doit être vue en termes de validation de la distribution des nouveautés (informations qualifiées d’originales) et de leur appréciation. 189 Avec nos stratégies « Hétérogènes » l’efficacité du réseau augmente quand le nombre d’utilisateurs augment car on risque moins d’avoir la même stratégie pour tous ! Avec une stratégie issue des analyses sociales telle que notre stratégie « Agrégateurs », nous avons proposé une stratégie de recommandation de contacts qui améliore l’efficacité du réseau mieux qu’avec des algorithmes traditionnels de filtrage collaboratif d’informations. Avec une stratégie issue des purs algorithmes de filtrage collaboratif qui ne prennent pas en compte des aspects sociaux, l’efficacité du flux d’information se détériore énormément. C’est la raison pour laquelle les utilisateurs cessent rapidement d’utiliser ces systèmes sur le Web ! 5.1.3 Cadre d’usage Notre recherche nous a permis de conclure que de « nouveaux moyens » sur le Web qui se serviraient des réseaux sociaux seraient intéressants pour obtenir de l’information adaptée. En effet, de plus en plus, les échanges d’information se font à travers des interactions sociales qui naissent dans différents contextes, par exemple l’entreprise. 5.1.3.1 L’usage entreprise. Ce type d’usage a pour objectif la personnalisation de l’accès à l’information, la diffusion d’informations au sein de structures flexibles intra ou extra entreprise, le Knowledge Management, la valorisation d’un capital social (Bourdieu, 1986), la veille en réseau, etc. Par exemple, un Intranet devient de plus en plus volumineux à mesure que la compagnie grandit. De plus, plus la compagnie est grande, plus nous trouvons une grande diversité de postes, d’employés, et de cultures. Toute cette diversité cache des besoins informationnels différents et des contextes différents. Faire face à cette diversité est difficile. Pour être efficace, les collaborateurs doivent accéder aux informations pertinentes i.e. adaptés à leurs besoins personnels et à leurs sensibilités. Par exemple, n'importe quel chercheur industriel sait qu'il/elle ne présentera pas son travail avec les mêmes perspectives à une communauté scientifique ou aux « marketers » d'une unité d'affaires. Nous croyons que ce niveau d'adaptation ne peut être obtenu qu’en s’appuyant sur des réseaux de personnes. Ces réseaux doivent être ouverts, flexibles et dynamiques. Il ne faut pas seulement compter sur l'organisation de l’entreprise. Les collaborateurs travaillent de plus en plus dans des équipes appartenant à plusieurs entités, à l'intérieur ou à l'extérieur de la compagnie. Les fournisseurs, les techniciens, les ingénieurs, les marketers, même les clients ont des relations plus proches dans les réseaux d’échange d'informations. Pour de telles compagnies, la communication est un élément clé. Leur production est souvent fondée sur la production d’informations et de connaissances. Leur besoin est alors de construire le capital social selon la connaissance de leurs employés et de leurs relations mutuellement enrichissants (Bourdieu, 1986). Ici de nouveau, SoMeONe est particulièrement adapté pour soutenir et développer ces relations. SoMeONe est une solution permettant de développer le processus de découverte des informations importantes et les transmettre rapidement pour se les approprier avec une validation et des remarques personnelles. 190 5.1.3.2 L’usage grand public. Ce type d’usage doit permettre le développement de services de communautés, service d’échanges, par exemple : Échanger des histoires drôles. En effet, ce besoin est évident quand les gens se transmettent ces histoires via le mail. Le système pourrait donc proposer des histoires drôles en tenant compte des très divers points de vue (en filtrant ce qui est drôle pour l’un et ne l’est pas pour l’autre). Échanger des photos, des vidéos. Il s’avère aussi intéressant de compter sur un archivage dans le réseau pour ne pas encombrer les messageries. Cela pourrait permettre au système d’échanger des photos en tenant compte des divers points de vue. Échanger des « bonnes » adresses. C’est l’usage typique que nous proposons : échanger des favoris selon les différents besoins informationnels. Par exemple : des destinations de vacances, de week-end, des spots de plongée, de surf, de planche, des films, des livres, des disques, des restaurants … Ils peuvent se développer par exemple sur Clubs Voilà, Wanadoo Groupes, etc. Nous avons également influencé, dans cet usage, un service dont nous parlons dans les perspectives (§5.2.1). 5.1.4 Dynamique d’usage Le service doit intégrer des protocoles et des mécanismes de régulation qui stimulent la coopération et qui optimise la qualité collective de ce média social. Ainsi, nous proposons des outils qui, à travers l’indexation personnelle de contenus hypermédias, développeront l’échange personnalisé d’informations. De cette façon, SoMeONe proposera une alternative à la navigation sur le WWW. Il aidera les utilisateurs à optimiser leur réseau de relations et à l’utiliser comme source d’informations. Chaque utilisateur pourra diffuser de l’information à travers ses liens avec d’autres juste en indexant de manière personnelle l’information. Ainsi, au lieu que les personnes naviguent de page en page, les pages naviguent de personne en personne. SoMeONe peut être vu comme l’espace dual du WWW. Chacun peut décrire les documents selon son point de vue et ses propres critères objectifs ou subjectifs. SoMeONe est ainsi un média pour le Web sémantique. Cette indexation manuelle complète l’indexation automatique à partir du contenu. Sa pertinence ne reste valide qu’au sein d’espaces de confiance gérés par les utilisateurs. Ainsi si Google exploite les liens entre les pages pour son indexation, SoMeONe utilise les liens entre les personnes. 5.2 Perspectives Nous perspectives se développent autour la mise en place de notre proposition de service selon deux grandes étapes : l’intégration de notre proposition d’outil de partage de favoris et l’intégration de notre recommandeur de contacts. 5.2.1 Vers une intégration de l’outil de partage de favoris Ces « nouveaux moyens » commencent à voir le jour sous plusieurs formes, par exemple par des Weblogs. L’exploitation des réseaux de relations entre contacts est donc une solution intéressante. Pour débuter dans cette « exploitation » nous avons proposé SoMeONe, 191 un service de recherche d’un nouveau type permettant à l’utilisateur de faire des recherches et de conserver les résultats obtenus - et surtout ceux qu’il préfère, ses « favoris » - au sein d’un espace personnalisé ou de les partager avec d’autres, et susceptibles d’être échangés entre contacts appartenant au réseau de relations de l’utilisateur. Cette première proposition voit aujourd’hui le jour sur le Web sous forme d’un service communautaire à l’adresse http://someone.voila.com/. Il permet à l’utilisateur d’accéder aux dossiers publics de ses contacts et de partager ses favoris publics. Celui-ci est un service d’usage grand public (§5.1.7.2). Ainsi, notre première perspective est donc la validation de ce service, car il n’est pour le moment qu’en test. Une partie complémentaire reste encore à faire. Il s’agit de l’intégration de nos algorithmes SocialRank pour la recommandation de contacts. En effet, la pluvalue de notre travail est le recommandeur de contacts selon les algorithmes de recommandation que nous venons de proposer. 5.2.2 Vers une intégration du recommandeur de contacts Dans d’autres perspectives, nous envisageons de suivre plusieurs évolutions. Celles-ci peuvent être divisées selon trois points de vue : L’intégration du recommandeur suivant nos algorithmes SocialRank. En effet, la version en ligne du système n’intègre que la version suivant nous algorithmes de filtrage collaboratif. La version qui intègre nos algorithmes SocialRank a été utilisée que pour ma mise en œuvre des simulations. Ainsi, dans cette nouvelle version intégrant le recommandeur, nous devrons valider deux aspects techniques du développement : Une intégration de notre version incrémentale. En effet, la version utilisée dans les simulations obtient les futures recommandations à la fin des échanges, c’est à dire à chaque itération. La version actuellement utilisée à France R&D fait les calculs des recommandations au fil de l’eau c’est à dire, dès que les utilisateurs en demandent, mais elle n’intègre pas les algorithmes SocialRank . Nous avons donc développé la version incrémentale intégrant les algorithmes SocialRank mais elle doit encore être validée du point de vue de ses performances. Une intégration en tenant compte de plusieurs annuaires sur le Web. En effet, l’algorithme de filtrage collaboratif pourrait prendre en compte différents annuaires, et en particulier, des annuaires thématiques. 5.2.3 Évolutions techniques Les évolutions techniques évidentes ont été évoquées dans les points faibles de la première évaluation. Il s’agit typiquement de celles qui permettraient d’adapter au mieux l’ergonomie du système. Cependant, du point de vue communautaire, il nous semble pertinent d’intégrer des fonctionnalités du type : Faciliter la construction d’une taxonomie de groupe. Améliorer l’identification des différents espaces (personnels, publics). Faire des recommandations au fur et à mesure des actions car l’avantage est de voir alors directement pourquoi le système recommande un contact (§3.10.4). Permettre de différencier la provenance des topiques dans les « topiques reçus » (par une liste de diffusion ou par un topique public ou par une dynamique de recommandation du système). 192 ANNEXES I–6. Formalisation des Concepts II–7. Premières versions de SoMeONe III–8. Scénarios de Simulation IV–9. Logiciels pour l’analyse de réseaux sociaux V–10. Autre utilisation Annuaire ODP - Cas II VI–11. Détails conceptuels de SoMeONe VII–12. Moteurs de recherche 193 194 Annexe I–6. Formalisation des concepts Nous considérons le système comme un environnement où interagissent des utilisateurs pour classer158, diffuser ou s'échanger de l'information obtenue du Web. Dans cette dynamique, il ressort deux types de réseaux : de topiques (du point de vue du système) ; de contacts (du point du vue des utilisateurs). Tout de suite, nous nous rendons compte que dans ce système, il y a des intérêts liés au système même et aux utilisateurs. Ces intérêts se poursuivent avec des objectifs bien définis. Les objectifs du système visent à établir les dynamiques nécessaires et pertinentes pour que les utilisateurs restent fidèles à son usage personnel, parce que les recommandations qu’il offre sont adéquates. Les objectifs des utilisateurs visent à obtenir de l’information correspondant à leurs besoins particuliers et changeants. 6 Définitions Nous avons introduit les concepts de base de notre approche dans la partie 1, notre intention ici est de les formaliser : Information sur le système : o Un document peut être un texte, une image, un son ou autre, accessible dans le Web via son URI (identificateur unique d'une information sur le Web). o Un topique peut être vu comme un dossier qui sert à réunir un même type d'informations (de documents). o Actions de manipulation sur les informations : Classer ou étiqueter, est le fait de placer une information dans un topique. Nous voyons ce fait comme un processus d'indexation et pour cela, nous substituons « indexer » à « classer ». Envoyer est le fait de transmettre de l’information. Diffuser est le fait d'envoyer ou de répandre ou de distribuer des informations. Partager est le fait de donner à quelqu'un une partie de ses informations ou la diviser de manière à former plusieurs parties distinctes, effectivement séparées ou non. Echanger est le fait de faire des envois réciproques. Une information est donc vue comme un bien qui va appartenir aux utilisateurs mais qui peut se diffuser, s'échanger, se partager, … De ce point de vue, un document est une information et un topique un ensemble d'informations. L'utilisateur est la personne qui utilise le système et à qui il faut donner des recommandations. 158 La classification sera vue comme un processus d'indexation. 195 Un contact est la personne à recommander à l'utilisateur. Plus précisément nous avons : 1. Les topiques. o Un topique a des caractéristiques bien définies : Un topique a un seul propriétaire. Un topique peut être défini privé, public ou diffusé159. A un topique est associée la liste d'utilisateurs pouvant visualiser son contenu. • Les contenus d'un topique sont des unités que nous appelons des références160 aux documents. Un topique a des propriétés bien définies, dont nous parlerons plus tard. o L'information réunie161 dans les topiques a des propriétés bien définies, dont nous parlerons plus tard. 2. Les utilisateurs du système, qui sont propriétaires des topiques. o Un utilisateur occupe une position dans le réseau. o Un utilisateur a des besoins informationnels. Définition I-1. Nous proposons de définir formellement les topiques, les utilisateurs, les liens et les relations qui existent entre eux : (I-1.a) Un ensemble T de topiques : T = {t1, t2, ... , tn} (I-1.b) Un ensemble U d'utilisateurs membres du réseau : U = {u1, u2, u3, ... , um} (I-1.c) La relation OWNER qui représente le fait qu'un topique tj appartienne à un utilisateur ui : OWNER (tj , ui) ∀tj ∈T, ∃ui |OWNER(tj , ui) (I-1.d) Un ensemble UT(ui) ⊆ T de topiques appartenant à l'utilisateur ui : UT(ui) = { t1, …, tn } ∀ui∈U, ∃tj∈UT(ui) | OWNER(tj , ui) (I-1.e) Un ensemble Uri de liens : Uri = { l1, l2, …, lq} (I-1.f) A un topique ti est associée une liste de diffusion DL (ti) contenant des identificateurs d'utilisateurs ayant le droit de visualisation du contenu de ti. Il existe une liste de diffusion pour chacun des topiques : ∀ti∈T, ∃DL(ti) | ∀ui ∈ DL(ti) ui peut visualiser le contenu de ti 159 Partiellement visible et non déclaré public. Reviews en anglais. 161 Références, documents, … 160 196 Si l'utilisateur uk propriétaire du topique ti ajoute dans DL (ti) l'identificateur de l'utilisateur ul, l'utilisateur ul verra le topique ti et son contenu dans sa liste de topiques recus. (I-1.g) Un topique peut être : - déclaré public par son propriétaire : { ti | Public(ti)} - déclaré privé par son propriétaire : { ti | ¬Public(ti)} - partiellement public si |DL(ti)| ≥ 1 (I-1.h) Un ensemble R d'informations que nous dénommons références : R = {r1, r2, ... , rp} Une référence ri a un identificateur idri, un lien lri, un commentaire commri et une liste de topiques associés ATR(ri) dont elle est indexée, que nous pouvons interpréter comme : ∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri) (I-1.h.a) Où ATR(ri) ⊆ T est l'ensemble de topiques où ri a été indexée. De ATR(ri) nous savons que chaque référence peut être indexée dans un ou plusieurs topiques. Par exemple, nous pouvons définir des relations de la forme : {∃r1 ∈ R | ∃t2. INDEXE(r1, t2) ∧ ∃t3. INDEXE(r1, t3)} (I-1.h.b) Où INDEXE(ri, tj) est l'interprétation de la relation « tj indexe ri» ou bien « ri est indexée dans tj » Un lien lk peut être pointé par différentes références, c'est à dire qu'une ou plusieurs références peuvent se créer dans le réseau sur un lien indépendamment de ses propriétaires. Une référence est une unité spécifique d'information sur un lien, donc, il peut exister plusieurs références sur un seul lien, chacune contenant une information particulière sur son contenu. Si um est propriétaire de rj ⇒ um est propriétaire de tous les topiques dans ATR(ri). Donc, de l'exemple antérieur, ATR(r1) = {t2, t3} ⊆ T (I-1.i) Soit RU(li) ⊆ R l'ensemble de références pointant sur li, (sans doubles). Un lien ne peut pas exister tout seul. Quand un lien est « découvert » une première référence est créée automatiquement avec. Par « découvert » nous entendons, un lien mis dans le système pour la première fois : ∀li ∈ Uri, ∃ rj ⏐ li est un lien venant d'être créé et rj sa première référence créée ∧ rj ∈ RU(li) ⊆ R 197 (I-1.j) Si un lien li a un ensemble RU(li) = {r1 , …, rn} associé de références et chacune une de ces références a, à son tour, un ensemble ATR(ri) associé de topiques, alors li a également un ensemble associé (sans doubles) de topiques : ∀li ∈ Uri, ∃ATL(li) (I-1.j.a) Où ATL(li) ⊆ T est l'ensemble de topiques (sans doubles) où chacune des références dans RU(li) a été indexée. (I-1.k) De manière similaire, nous nous intéressons à l'ensemble de références indexées dans un topique donné. Soit IR(ti) ⊆ R l'ensemble de toutes les références indexées dans ti . ∀ti ∈ T, ∃ IR(ti) (I-1.l) Soit Directory un ensemble d’URIs classés dans un annuaire de liens. Un lx ∈ Uri peut, mais pas nécessairement, appartenir à l'ensemble Directory. Afin d'offrir aux utilisateurs des recommandations adaptées, le recommandeur doit calculer des indicateurs pour connaître l'état du réseau : qui diffuse quoi et à qui. Nous allons appliquer ces indicateurs sur les topiques et sur les utilisateurs : T. Par terminologie, quand un indicateur peut être utilisé pour connaître l'état d'un topique et d'un utilisateur, nous utilisons le mot « acteur » dans sa définition pour parler de tout les deux. Les principaux indicateurs que nous utilisons sont l'originalité, la réputation, la redondance et l’aggrégation. Nous formalisons ensuite le réseau de topiques et le réseau des utilisateurs. 6.1 Réseau de topiques Un réseau de topiques est formé par l’ensemble des topiques de tous les utilisateurs. L'échange de références entre topiques établit les relations entre eux. Cet échange ne peut être fait que par les propriétaires de ces topiques. Nous commençons par analyser en premier le réseau que forment les échanges de références quand elles sont indexées dans les topiques. Le graphe qui le représente est de la forme (T, A) où (ti, tj) est la collection de paires ordonnés de T topiques qui montre les échanges possibles. Par abus de notation on notera [ti, tj] la relation entre ti et tj, c'est-à-dire, le fait d'indexer références de tj dans ti. Définition I-2. Soit T un ensemble non vide et A ∈ T × T. Alors, la paire (T, A) est un graphe dirigé (en T) ou digraphe162, où T est l'ensemble de sommets (topiques) et A est l'ensemble d'arcs (relations). On note ainsi ce réseau G = (T, A) avec : l'ensemble T = {t1, t2, ... , tn} de topiques, et l'ensemble de relations entre les topiques A = {a11, …, a1n.,…, a21, ... a2n, …, an n}, où aij = [ti, tj]. Si aij = [ti, tj] est un arc du graphe G, ti est l’extrémité initiale de a et tj l’extrémité finale de a. Donc, cet arc [ti, tj]∈ A est une relation entre topiques symbolisant que tj a indexée une (ou plusieurs) référence(s) venant y 162 Dans la littérature nous trouvons les deux terminologies. 198 de ti ou bien tj reçoit et indexé une (ou plusieurs) référence(s) venant de ti ou bien ti envoi une(ou plusieurs) référence(s) qui a son tour est indexée par tj . Le fait d'indexer une référence reçue provoque la génération d'une nouvelle référence. Par exemple, l'utilisateur u1 crée une référence r1 sur le lien l1 dans son topique t1. Sans aller dans le détail, disons que u2 reçoit r1 dans sa liste de topiques reçus et donc, u2 décide d'indexer r1 dans sont topique t2. Cette action implique qu'une nouvelle référence r2 sera créée sur le lien l1. Supposons que u1 a été le premier en créer une référence sur l1 donc il n'y a pas d'autres références pointant sur l1 : RU(l1) = { r1 , r2}. Un topique ti et un autre tj sont en relation si et seulement si {ti, tj}∈A. Nous voyons la relation entre topiques comme des échanges de leur contenu, dans ce point de vue, ti et tj communiquent leurs contenus (échangent leurs références). Si ti ne peut pas communiquer directement avec tj, il peut y exister la possibilité de communiquer de façon indirecte à travers d'un (ou plusieurs) topiques intermédiaire(s). 6.1.1 Communication entre topiques Pour représenter les relations, c'est à dire, les échanges et/ou les diffusions entre topiques, nous utilisons une matrice d'adjacence. Définition I-3. Soit G = (T, A) un graphe orienté avec T = {t1, t2, ... , tn}. La matrice d’adjacence du graphe G est la matrice M(G) dont les coefficients mij sont définis par ⎧⎪1 si (ti , t j ) ∈ A mij = ⎨ ⎪⎩0 si (ti , t j ) ∉ A Les échanges et/ou les diffusions entre topiques se font grâce aux références. Un topique ti envoie son contenu (ses références) à autre topique tj et tj peut ou pas les accepter. Quand tj indexe une ou plusieurs références venant de ti (parce qu'elles lui semblent intéressantes), nous disons que la communication est établie : il y a relation entre les deux. Si ti envoie des références à tj et tj indexe une ou plusieurs références de ces références, alors mij =1. L'envoi de références est possible grâce à la gestion de la liste de diffusion DL(ti) de chaque topique ti . De cette façon, pour que le propriétaire de ti puisse envoyer les références qu'il contient au propriétaire de tj, il faut qu'il ajoute dans DL(ti) à tj 163. Si le propriétaire de tj indexe à son tour une ou plusieurs des références reçues de ti, nous l'interprétons comme « tj apprécie le contenu de ti » . En faisant ainsi, ti devient le voisin direct de tj. Définition I-4. Soit N(te) ⊆ T l'ensemble de topiques « voisins » du topique te , N(te) = {t1, t2, ... , tq}. N(te) contient l’ensemble de tous les topiques envoyant une (ou plusieurs) référence(s) au topique te, et indexées dans te. Soit tf un topique voisin : N(te) = { tf ∈T | [te , tf]∈A}. Nous appelons à cette relation NEIGHBORH (te, tf) : (I-3.a) ∀ te ∈ T, ∃ tf ∈ N(te) | NEIGHBORH (te , tf) 163 Son identificateur. 199 Nous avons donc la relation NEIGHBORH (te , tf) qui se lit « tf est voisin de te». 6.1.2 Distance entre topiques : D Les communications peuvent se faire à travers plusieurs intermédiaires. Avant d'élargir cette idée, il semble nécessaire d'expliciter le calcul d'une matrice de distances entre topiques. Nous allons commencer avec la matrice de distances de plus courts chemins entre deux topiques pour supporter une intuition : « faire arriver l'information d'un topique à un autre, le plus rapidement possible ». Nous voulons donc calculer la matrice de distances géodésiques D. Nous allons plus particulièrement nous intéresser à calculer la longueur de tous les plus courts chemins, c'est à dire pour tout topique ti, sa distance D (ti, tj) au sommet tj. Pour ce calcul nous utilisons l'algorithme BFS (recherche en largeur) : Propriété I-1 : La longueur d(ti) du plus court chemin de tj à ti vérifie d(ti) = 0 si ti = tj d(ti) = 1 + min { d(tk) | tk voisin de ti } sinon Avec la recherche en largeur, nous avons toutes les cartes en main pour écrire un algorithme calculant la longueur de tous les plus courts chemins depuis un sommet tj. Il suffit au cours de la visite de mettre à jour un label LA pour chaque sommet. Le label LA(ti) du sommet ti est calculé comme le label LA(tk) de son voisin tk depuis lequel il est visité, plus 1. A la fin de l'algorithme, les labels sont égaux aux distances d(ti). ALGORITHME BFS ENTREES Graphe G=(V,E), Sommet tf F : FILE (liste FIFO) Initialiser tous les sommets à non marqué ; Marquer tf LA(tk) := 0 F tf Tant Que F n'est pas vide F // Retirer le premier sommet de la file tk Pour chaque voisin y non marqué de tk Marquer y LA(te) := LA(tk) + 1 te // Ajouter y à la fin de la file F Fin Pour Fin TantQue Théorème I-1 L'algorithme BFS calcule en temps O(|E|) la longueur des plus courts chemins du sommet tf à tous les autres sommets du graphe Pour tout tk, LA(tk)=d(tk) Complexité. Chaque étape de la visite consiste à retirer un sommet tk de la file et à explorer ses voisins. Un sommet tk entre exactement une fois dans la file : au moment de son marquage. Le nombre d'opérations de BFS est donc proportionnel à la somme du 200 nombre de voisins de chaque sommet, c'est à dire la somme des degrés. La propriété sur les degrés montre que le nombre d'opérations de BFS est en O(|E|). Si D (ti, tj) > 0 nous savons qu’il y a un court chemin entre ti et tj, tel que ti peut diffuser à tj donc tj peut recevoir de ti . Donc, si D (ti, tj) = 1, alors est ti un possible voisin direct pour tj . 6.1.3 Chemins entre topiques : PN Nous avons introduit la distance géodésique comme étant le plus court chemin entre deux acteurs. Nous obtenons la valeur de distance géodésique grâce à la matrice D. Nous l'interprétons comme le nombre de liens à passer d'un acteur à autre selon la Propriété I-1. Cependant, entre deux acteurs, il se peut qu'il y ait un ou plusieurs chemins, de la même longueur ou non. La matrice D ne rend pas compte de cette possibilité. Pour cela nous introduisons la matrice PN étant la matrice contenant les nombres de chemins entre deux acteurs. Donc, PN(ti, tj) contient le nombre de chemins entre ti et tj. ⎧0 si ti = t j ⎪ PN (ti , t j ) = ⎨0 si D (ti , t j ) = 0 ⎪ ⎩> 0 si ∃ chemin de ti à t j ∧ D (ti , t j ) > 0 6.1.4 Importance des relations entre topiques : W Pour prendre en compte l'importance de chaque relation, chaque topique (sommet) est « pesé » avec une mesure W(te, tf) représentant le nombre de références reçues du topique tf et indexées dans un topique te. De cette façon, nous calculons une matrice W (de poids) avec chaque élément W(te, tf), dont le topique te se trouve dans les lignes est le topique tf sur les colonnes de la matrice, pour le topique de tf. Définition I-5.Soit W(te, tf) la mesure d'importance de relation entre les topiques te et tf : W (te , t f ) = card * (te , t f ) card (te ) ⎧⎪si card (te ) = 0, W (te , t f ) = 0 ,⎨ ⎪⎩si t e = t f , W (te , t f ) = 0 La card*(te, tf) inclut toutes les références ayant été indexées avec le topique te et avec le topique tf ; de façon à ce que la référence source soit celle du topique tf, et puis indexée par le topique te La card(te) ≡ |IR(te)| est le nombre total de références indexées dans le topique te. Intuition I-1. Supposons que tf soit un topique contenant des références avant tous les autres topiques dans le réseau. Puis tf décide de diffuser son contenu à te. Le fait que le topique te indexe des références venant de tf implique que ce sont des références ayant de la pertinence pour te. Si ce n'est pas le cas, card*(te, tf)=0, sa valeur minimale, et la relation n'a pas d'importance, sinon, card*(te, tf)>0 pour représenter le fait d'appréciation du contenu de tf. Si card(te) = card*(te, tf) alors W(te, tf)=1 sa valeur maximale, donc te dépend complètement du contenu du tf et pourtant lui donne de la pertinence totale. 201 De cette façon, la relation d’importance W(te, tf) > 0 peut être interprétée comme « tf envoi à te de l’information et te l’indexe ». Donc, si W(te, tf) > 0 alors mfe=1. Notez : Du Définition I-4 et du Définition I-5 nous pouvons dire que si W(te, tf) > 0 alors tf ∈ N(te), mfe=1, D(tf , te)=1 et PN(tf , te)>0. 6.1.5 Degré de relation entre topiques : P Afin de connaître le degré de relation entre topiques qui s'échangent des références, nous définissons la matrice P(te, tf). Cette matrice représente la proportion de la relation entre le topique te et le topique tf, parmi toutes les relations avec le topique te. Définition I-6. Soit P(te, tf) la proportion de la relation entre les topiques te et tf : W (te , t f ) Si tf ∈ N(te), alors P(te , t f ) = ∑ W (te , t x ) t x ∈N ( t e ) sinon, P(te, tf) = 0 Intuition I-2. De tous les topiques tf ∈N(te) en relation directe avec te, te adjuge une importance différente à chacune de ses relations. Par conséquence, si tf ∉ N(te), l'importance adjugée est nulle. Dans le cas contraire, il faut comparer l'importance donnée à tf par rapport à la proportion d'importance avec tous ses voisins dans N(te). 6.1.6 Propriétés de l'information dans les topiques Comme nous l’avons déjà introduit, les informations dans les topiques sont les références. Elles font l'objet d'échange et/ou de diffusion entre topiques. Diverses propriétés sur les références nous intéressent. Avant de les introduire, il est nécessaire de placer ces propriétés dans deux contextes : le contexte local et le contexte global. Nous parlons de contexte local de l'information dans les topiques, lorsque nous nous référons à l'information qui circule dans un voisinage de topiques. Nous parlons de contexte global de l'information dans les topiques, lorsque nous nous referons à l'information qui circule dans tout le réseau. Dans nos définitions, lorsque nous parlons du contexte local, nous ajouterons le mot "local" sinon, nous parlons du contexte global. 6.1.6.1 Nouveauté de l'information Une information est dite « nouvelle » si elle n'est pas parvenue à partir d'un topique d'un autre utilisateur. Définition I-7. Une référence ri va être qualifiée « nouvelle » si elle est unique à pointer sur son correspondant lien li : New_Info(ri) ⇔ | RU(li) | = 1 |RU(li)| est le nombre total de références pointant vers li. Définition I-8. Une référence ri pointant le lien li et indexée dans tk va être considérée étant originale-locale pour tk, ORIGINAL_LOCAL(ri, tk) : Si New_Info (ri) ou 202 Si | RU(li) | > 1 ∧ (¬∃tx ∈ T | tx ∈ ATL(li) ∧ tx ∈N(tk)) (I-8.a) Donc nous pouvons obtenir les références-originales-locales d'un topique tk avec OLR(tk) ∈ R, qui donnera l'ensemble de références indexées dans le topique tk et qui satisfassent la Définition I-8. 6.1.6.2 Pertinence de l'information Cette pertinence est validée dans le cas des simulations. Nous pouvons diviser selon deux points de vue possibles : en tenant compte d’un annuaire ou en tenant compte du type des réseaux des utilisateurs. Pour le premier point de vue, nous pouvons dire qu’une information est dite « pertinente » si elle appartient à la classification d’ODP. Intuition I-3a. Une référence ri va être qualifiée « pertinente » si son correspondant lri est classé dans ODP : Pertinence (ri) ⇔ ri ∈ R ∧ ri ∈ RU(lri) ∧ lri ∈ Directory Intuition I-3b. Une référence ri va être qualifiée « pertinente » si son correspondant lri est échange entre membres d’une communauté thématique. 6.1.7 Propriétés d’un topique Les propriétés d’un topique dépendent des propriétés de son contenu et de son état dans le réseau. Par « état » il faut comprendre, le fait que le topique diffuse de l’information et les autres membres du réseau l’acceptent : c’est à dire, l’appréciation d’un topique vis à vis des membres du réseau. Pour nous aider à connaître l'état ou l’appréciation des topiques dans le réseau, du point de vue de l’utilisateur, nous présentons dans l’interface de « conscience sociale » la liste de topiques que l’utilisateur peut visualiser, avec des logotypes indiquant l’appréciation du topique (graphes pondérés); du point de vue du système, nous calculons des mesures issues des analyses de la topologie formée par les échanges de références entre topiques (graphes dirigés) ; que nous décrivons ci-dessous. 6.1.7.1 Originalité L'originalité d'un topique reflète la nouveauté de ses références. Une référence dans un topique, va être qualifiée d'originale lorsqu'elle est nouvelle, c'est-à-dire que personne d’autre dans le réseau ne connaît le lien sur lequel elle pointe. Intuition I-4. Un topique est dit « original » s’il contient des références peu référencées. Définition I-9. Soit Original(ti) la valeur d'originalité du topique ti : Original (t i ) = 1 1 * ∑ ∑ Original (t j ) ri∈IR (ti )∧ri .lri ATL(l ri ) t j ∈T IR(ti) ⊆ R est l'ensemble références indexées dans ti 203 ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri et pointé par ri | ri ∈ RU(lri) ⊆ R ri. li selon I-1.h : une référence ri un lien lri, etc. ∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri) Nous calculons l’originalité d’un topique ti avec la mesure de la Définition I-9 ci-dessus. 6.1.7.2 Connectivité La connectivité entre topiques est vue en termes de pertinence entre les références qu’ils contiennent. Cette connectivité est validée dans le cas des simulations. Il s’agit de valider si deux topiques sont « connectables » parce que les informations qu’ils contiennent sont similaires. Cette « similarité » est obtenue à partir de notre algorithme de filtrage collaboratif et de l’annuaire ODP. De cette façon, on peut constater une connectivité globale ou particulière selon le type de réseau à analyser. Si le réseau à analyser est formé par tous les topiques du système, nous parlons de connectivité globale. Si le réseau à analyser est un sous-réseau tel qu’il est formé par une communauté thématique, c’est à dire, un réseau où l’information échangée porte sur un même domaine ou un même sujet, nous parlons de connectivité particulière où connectabilité de communauté thématique. Définition I-10. Un topique ti est connectable au topique tj si et seulement si : (I-10.a) les deux, ti et tj sont assignés à la même catégorie ODP ou (I-10.b) ti est assigné à une sous-catégorie de la catégorie assignée à tj De cette façon, nous avons des topiques connectables et des topiques connectés. Les topiques connectables sont calculés selon le type du réseau. Si le réseau à analyser est le global, nous avons les CTG(te), qui contiennent les topiques connectables à te. Si le réseau à analyser est une communauté thématique, les CTTC(te) sont tous les topiques du sous-réseau thématique sauf te. Nous avons donc la relation CONNECTABLE (tj, ti) qui se lit « ti est connectable à tj » selon le réseau à analyser. Les topiques connectés échangent des références et les indexent. Par exemple, ti et tj sont connectés si W(ti, tj) > 0 ou si W(tj, ti) > 0. Définition I-11. Soit CTG(te) ⊆ T l’ensemble de topiques connectables à te selon la Définition I-10 : ∀ te ∈ T, ∃ tf ∈ CTG(te) | CONNECTABLE (te , tf) Définition I-12. Soit CTTC(te) ⊆ TE l’ensemble de topiques connectables à te , TE ⊆ T : (I-12.a) TE est une communauté thématique, un ensemble de topiques contenant des références sur le même domaine E et te ∈ TE ; ∀ te ∈ T, ∃ tf ∈ CTTC(te) | CONNECTABLE (te , tf) ∧ tf ∈ TE ∧ te ≠ tf 204 6.1.7.3 Réputation locale Nous considérons important le concept de réputation d’un topique, typiquement dans le cas des réseaux thématiques. Ce concept est ambigu dans la littérature des analyses de réseaux sociaux parce qu’il est souvent utilisé comme synonyme de « centralité » ou de « prestige ». Dans cette littérature, la centralité d'un acteur indique la façon dont il est central dans le réseau. Un acteur est très central lorsqu'il est engagé directement ou indirectement dans beaucoup d’échanges. Différentes mesures (centralité de degré, centralité de proximité et centralité d'intermédiarité) ont été utilisées comme indicateur de centralité. Certaines mesures de centralité pondèrent les échanges d'un acteur aux autres par la centralité de ces autres acteurs. Selon Wassermann, on parle de centralité lorsque les graphes sont non dirigés et on parle de prestige lorsque les graphes sont dirigés. Dans la perspective de graphes dirigés, nous utilisons le concept de réputation pour obtenir les utilisateurs du réseau, qui sont reconnus d'après leurs participations (diffuser) dans le réseau, injectant des informations de qualité et acceptées/indexées par un grand nombre de membres. Intuition I-5. Plus les membres du réseau indexent les références venant d’un topique, plus il devient réputé. 6.1.7.3.1 Réputation de degré La réputation de degré d'un acteur précise le nombre de relations directes de l'acteur avec les autres acteurs du réseau (Freeman, 1978/79). Autrement dit, un acteur est central/réputé lorsqu'il est fortement connecté aux autres et est périphérique dans le cas contraire. Une autre interprétation, selon Lazega, est que l'acteur le plus central est l'acteur le plus « actif » du système (Lazeaga, 1998). Ce degré représente également l'indice du potentiel de communication d'un acteur. Le degré d'un acteur correspond au nombre d'autres acteurs qui lui sont adjacents. Définition I-13. Soit le topique ti, g le nombre de topiques dans le réseau, de façon générale nous pouvons obtenir l’indice de réputation de degré RD(ti) (normalisée) avec : g RD(ti ) = g ∑m j =1 ji ∑m j =1 ji T −1 implique le degré de sortie ti que satisfasse : ∀ti∈T, ∃tj |W(tj,ti)>0. Cet indice est très sensible à la taille du réseau. La réputation maximale de degré d'un acteur correspond à celle du degré d'une étoile, c'est à dire, où un acteur est adjacent à (|T|-1) autres acteurs. Cet indice est très significatif dans le cas d’un réseau thématique où tous les (|T|-1) topiques sont considérés comme des « récepteurs potentiels» d’information de ti. Par « récepteurs potentiels » nous entendons ceux intéressés par le contenu de ti et donc pour lesquels l’information dans ti est pertinente. 6.1.7.3.2 Réputation d'Intermédiarité 205 La réputation d'intermédiarité mesure la façon dont un acteur apparaît indispensable dans les échanges entre les autres individus. La distinction par rapport à la réputation de degré vient du fait qu'un individu faiblement connecté aux autres individus peut se révéler être un intermédiaire indispensable dans le réseau. De ce point de vue, un acteur est bien réputé lorsqu'il est un passage obligé dans le réseau. Lorsque deux acteurs ne sont pas adjacents, ils sont dépendants des membres du réseau situés sur le chemin PN qui relie ces deux acteurs. Les intermédiaires ont alors la possibilité de contrôler la circulation de l'information (rétention, distorsion, etc.) et par conséquent, d'influencer le groupe. De cette façon, plus un individu est un passage obligé, plus il se trouve au milieu et donc plus il est central dans le réseau (Lazeaga, 1998). Donc, nous pouvons utiliser cette mesure pour connaître le potentiel de contrôle dans les interactions entre les membres du réseau. Déterminer l'indice de réputation d'intermédiarité est simple lorsqu'il n'existe qu'une seule géodésique entre chaque paire d'acteurs. La situation devient plus complexe lorsque plusieurs géodésiques coexistent. Un acteur est qualifié d'intermédiaire s'il se trouve sur l'unique ou sur tous les chemins plus courts (géodésiques) entre deux autres acteurs. Définition I-14. Selon Freeman (1978/79) et modifié selon Wassermann (5.11/5.12 et détaillé sur p201, 1994) (pour un graphe dirigé) : soit 1/PN(aj,ak) la probabilité d'utiliser une des géodésiques entre aj et ak. Nous considérons la probabilité qu'un autre acteur ai soit « impliqué » dans ces géodésiques. Donc soit PNjk(ai) le nombre de géodésiques entre deux acteurs aj et ak qui contiennent l'acteur ai, l'intermédiarité de ces deux probabilités pour obtenir combien « intermédiaire » est un acteur des autres, est donnée par (sans inclure l'acteur ai) : PN jk (ai ) ∑ j<k RI (ai ) = avec i≠j≠k PN (a j , ak ) En standardisant pour un graphe dirigé, il faut inclure le maximum de paires d'acteurs sans ai, nous obtenons : RI (ai ) RI ' (ai ) = avec g nombre d’acteurs dans le réseau. ( g − 1)( g − 2) 6.1.7.3.3 Réputation de proximité La proximité d'un acteur indique la façon dont il est proche ou peut facilement atteindre les autres acteurs du réseau. Elle est également mesurée par la longueur du chemin (liens directs et indirects) vers tous les autres acteurs. Définition I-15. Le domaine d'influence d'un acteur ai est l'ensemble d'acteurs qui sont directement ou indirectement liés à lui. Il sont les acteurs que ai peut atteindre. Soit Ii, le nombre d'acteurs dans le domaine d'influence de ai Lin(1976). Comme Wassermann (5-25; page 203-204, 1994), nous considérons la proximité de tous les acteurs à ai : 206 RP(ai ) = I i ( g − 1) où g est le nombre d'acteurs dans le réseau. ∑ D (a j , ai ) Ii Ii est le nombre d'acteurs qui peuvent « diffuser » à ai , qui n’est pas le même que N(ai). C'est à dire, le nombre d'acteurs qui peuvent envoyer de l'information à ai autrement dit, l'ensemble d'acteurs susceptibles d’augmenter sa réputation si ai indexe d’eux. Ils peuvent être repérés à partir des éléments différents de zéro sur la ligne de la position de ai dans la matrice D. Ii est donc, ce que les sociologues appellent « reachability/joignabilité » (les entrées différentes de zéro de la matrice de distances géodésiques) Notez que cette formule offre les acteurs étant les plus « proches » dans une communauté thématique. Donc, elle ne révèle pas l'acteur le plus réputé dans le réseau global. 6.1.7.3.4 Avantages et inconvénients des réputations Après avoir définit les mesures classiques de réputation, nous montrons ci-dessus les aspects positifs et négatifs de chacune : Réputation de degré But de sa définition Interprétation Aspects positifs pour l'acteur concerné Aspects négatifs pour l'acteur concerné Aspects positifs pour les autres acteurs Aspects négatifs pour les autres acteurs Nombre de voisins Potentiel de communication Peut toucher et être touché par un très grand nombre d'individus (diversité des informations) Risque de saturation technique ou de son attention (nombre d'informations, hétérogénéité des informations) risque de redondances Simplicité : nombre d'interlocuteurs Information centralisée : pas de redondances Peu d'interlocuteurs, informations homogènes Réputation d'Intermédiarité Passage obligé Potentiel de controle Réputation de proximité Proche des autres Indépendance de l’activité et efficacité Peut filtrer les informations, bénéfice en priorité des opportunités (ex. petit annonce), décide de la coordination entre besoins et ressources, pouvoir de négociation (trou structural) Peut transmettre et recevoir les informations de façon autonome (information originale: non déformée) en un minimum de temps. Risque de saturation technique ou de son attention (volume d'information) Pas d'épuration de l'information (forte diversité d'intérêt des informations reçues) Simplicité : nombre d'interlocuteurs Efficacité des transmissions (faible distance) Dépendance et information standardisée Rente d'une information très courte dans le temps (tout le monde est rapidement informé de tout) Tableau 2. Aspects positifs et négatifs des trois centralités de base. Dans le cadre des simulations (qui simule notre contexte de communauté thématique), nous nous sommes concentrés sur la réputation de degré, afin de valider nos théories du point de vue de la réputation d’un acteur. Celle-ci s’adapte parfaitement à notre contexte. Cette 207 décision a été également influencée par le temps de réponse rapide du calcule de RD(ti). Cependant, dans un cadre plus général, nous avons construit un algorithme récursif qui calcule l’indice de réputation d’un acteur, dans le contexte du réseau global. Nous l’expliquons dans la section ci-dessous. 6.1.7.4 Réputation à la PageRank : RankRéputation Afin de vérifier la réputation des acteurs du réseau global, nous avons utilisé la mesure de PageRank, utilisée pour les pages du Web (Brin et Page, 1998). Nous avons modifié cette mesure pour ce que nous nommons RankRéputation ou tout simplement RR (selon Wasserman 5.28, 1994) pour qu'elle tienne compte du type de relations dans notre réseau. Rappelez-vous des intuitions I-1, I-2 et I-5, où nous considérons que si te indexe les références de tf , alors te trouve le contenu de tf intéressant. Les relations dans notre système sont alors du type « te donne de la réputation à tf » : tf ← te . Ceci est vrai si et seulement si t f ⎯envoie ⎯⎯→ te et te indexe au moins une référence de tf. Nous considérons que cette relation est l'inverse de la relation modélisée dans notre matrice W, qui reflète le flux d'information à travers les topiques (tf → te). En effet, si un utilisateur indexe des références reçues d’un topique tf avec son topique te, alors le topique te donne de la réputation au topique tf. C’est pourquoi nous utilisons W(tf, te) au lieu de W(te, tf) pour le calcul de RR(te). De cette manière, chaque élément RR(te) du vecteur est défini selon la formule récursive : Définition I-16. Le RankRéputation d'un topique te dépend de la réputation des topiques recevant de l'information de te. RR(te ) = ∑ W (t f , te ) RR(t f ) W étant stochastique et ayant des propriétés de convergence. En effet, si la réputation de topiques tf indexant de l’information venant de te est élevée, ils augmentent la réputation de te . Ceci a le même effet de dire que si le président de la république indexe l’information que vous lui diffusez, alors sa réputation vous concède une réputation (comparée aux autres). L'algorithme de PageRank nécessite que les poids de la matrice adjacente W(te, tf) soient modifiés dans W*(te, tf) afin d'avoir les propriétés de convergence nécessaires (Brin et Page, 1998). Ceci est partiellement atteint, parce que, une fois que les nouveaux poids W*( te, tf) sont normalisés, ils représentent la probabilité pour un document indexé par une référence dans tf, d'être indexé dans un topique te. Ainsi, notre matrice W correspond à une matrice stochastique. D’ailleurs, en suivant l'algorithme PageRank, nous complétons également le graphe avec des nouvelles connexions afin d'avoir tous les nœuds connectés. 6.1.7.5 Redondance entre topiques Un topique te est redondant avec tf lorsqu'il réunit des informations provenant des mêmes fournisseurs d’informations de tf . Cette mesure est très utile pour trouver un topique qui contient le plus d'information représentative d'un sujet donné. 208 Définition I-17. Explicitement, la redondance entre le topique te et le topique tf dépend de : Le topique tf est diffuse information au topique te et te indexe ces informations de tf. Les topiques qui diffusent au topique te diffusent aussi au topique tf. RED(t e , t f ) = P(t e , t f ) + ∑ P(t e , t f )P(t f , t x ) et P(te, tf) selon Définition I-6 t x ∈N ( t e ) Un topique te « est redondant » avec un topique tf si les deux recueillent le même type d'information des mêmes sources. Cet indicateur identifie les topiques qui sont redondants, non seulement selon leur contenu actuel, mais aussi selon leur capacité pour agréger les contenus futurs venant des autres topiques. 6.1.7.6 Réactivité à l’information nouvelle Nous nous intéressons à la vitesse de diffusion de l’information nouvelle. Il s’agit de valider si les nouveautés sont appréciées. Définition I-18. Un topique te réagisse à l’information nouvelle selon NR(te) où NR(te) est taux de réactivité aux informations nouvelles de te : NR (te ) = 1 * O(t f ) t f ∈DFE ( t e ) D (t f , te ) ∑ ∑ O( f ) t f ∈DFE ( t e ) (I-18.a) DFE(te)∈T, est l’ensemble de topiques tel qu’il existe un chemin court de tf vers te : ∀te∈T, ∃ tf | D(tf, te)>0. Cette réactivité à l’information nouvelle est validée dans le cas des simulations, pour un réseau du type communauté thématique. 6.1.7.7 Coût Nous cherchons maintenant à évaluer le coût d’établir des relations. Plus un réseau est connecté, plus il est « cher ». Définition I-19. Le coût pour te d’établir des relations dépende du nombre de voisins de te et du nombre de tous leurs possibles topiques qui peuvent lui envoyer de l’information (selon la Définition I-10 de connectivité entre topiques). Ainsi, le coût pour te est calculé selon la formule : N (t e ) Cost (e) = CONN (t e ) où |CONN(te)| indique le nombre de possibles topiques fournisseurs pour te, CONN(te) représente soit CTG(te) ⊆ T ou CTTC(te) ⊆ TE, TE ⊆ T, selon le type du réseau social. 209 6.1.7.8 Efficacité Selon nos définitions, plus un topique diffuse plus il a des chances de devenir réputé, mais que dans le cas où ses informations seraient pertinentes parce que d’autres topiques indexaient ses références. Si les autres indexent ses références, alors la connectivité du topique augmente. Ainsi, plus la topologie du réseau a des connexions, plus facile de faire arriver l’information à tous ses membres. La topologie dans notre système n’est pas ni régulière ni aléatoire mais quelque chose au milieu de ces deux cas extrêmes : elle est du type « Small Worlds » ou « Petits Mondes » (Wattz, 1999). A ce sujet, Lattora et Marchiori ont développé des mesures pour calculer l’efficacité d’un réseau de ce type, c’est à dire, la capacité à ce que le flux d’information circule. Une mesure d’efficacité va nous permettre de savoir que l’information se diffuse correctement dans un réseau. Nous nous intéressons donc à calculer l’efficacité pour un topique à diffuser aux autres membres du réseau. Nous appelons cette efficacité, efficacité locale. Intuition I-6. Nous supposons que chaque topique te envoie de l’information, à travers le réseau, aux autres topiques du réseau. Définition I-20. L’efficacité locale d’un topique te dépende de la moyenne des distances géodésiques entre te et un topique tf ∈DFE(te), laquelle est inversement proportionnelle 1/D(te,tf) ∀te,tf . LocEff (te ) = DFE (te ) , et DFE(te) selon (I-18.a). ∑ D(te , t f ) t f ∈DFE ( t e ) Notez que nous assumons qu’efficacité locale et distance sont inversement proportionnelles. Bien si le fait de diffuser le plus possible d’information est important, le coût l’est aussi. Nous devons vérifier que le coût d’établir relations ne soit pas très cher. Pour cette raison, nous intégrons le coût pour construire une formule d’efficacité du réseau : Définition I-21. L’efficacité d’un topique te est calculée selon son efficacité locale par rapport à ses distances géodésiques et le coût d’établir ces possibles relations : Efficacity ( t e ) = locEff ( t e ) Cost ( t e ) Cette efficacité est validée dans le cas des simulations, pour un réseau du type communauté thématique. 210 6.1.7.9 Agrégation entre topiques Un topique te est agrégé par un topique tf lorsque quelques fournisseurs d’informations de tf et te sont les mêmes (et à l’inverse). Il s’agit de tenir compte du nombre de sources nouvelles d’information de tf intéressantes pour te quand les fournisseurs de nouvelles informations augmente pour tf : Définition I-22. La valeur d’agrégation entre le topique te et le topique tf dépend du nombre de nouveaux fournisseurs d’information du tf par rapport à te : AGREG (te , t f ) = ∑ inN n f ∈N ( t f ) E où inNE = 1 ssi nf ∈ N(tf) ∧ nf ⊄ N(te) sinon inNE = 0 6.2 Réseau d'utilisateurs Le réseau des utilisateurs sera évalué en fonction de relations entre leurs topiques. Ces relations sont obtenues grâce à leurs listes de diffusion correspondantes et les échanges effectués entre eux, validés par le fait d’indexer les références échangées. En conséquence et par analogie, les « propriétés » des utilisateurs dans le réseau sont obtenues selon les propriétés de leurs topiques correspondants. Ainsi, un utilisateur propriétaire de topiques réputés sera reconnu réputé, un autre utilisateur ayant des topiques originaux sera reconnu « source d’information » parce qu’il injecte de la nouvelle information dans le réseau. Nous utilisons donc les indicateurs d’originalité et de réputation afin de reconnaître les utilisateurs « sources » d'information (parce que leurs informations sont originales) et les utilisateurs gérant de l'information mieux reconnue dans leur réseau de contacts, que nous appellerons des contacts réputés. L’indicateur de redondance sera pris en compte par le recommandeur afin de décider les recommandations à faire. 6.2.1.1 Contacts sources d’information Si un utilisateur injecte de l'information « nouvelle » dans le réseau, le recommandeur peut le localiser selon : Définition I-19. Soit CS(ui) la valeur source du contact ui calculée comme la moyenne des originalités des topiques dans UT(ui) : ∑ Original (t j ) CS (ui ) = t j ∈UT ( ui ) UT (ui ) 6.2.1.2 Contacts réputés Si un utilisateur est propriétaire de l'information « appréciée » par les autres membres du réseau, le recommandeur peut le localiser selon : 211 Définition I-20. Soit CR(ui) la valeur de réputation pour le contact ui calculé comme la moyenne des réputations de topiques dans UT(ui) : n PP C (ui ) = ∑ i =0 PP (ti ) où ti ⊆ UT(ui) 212 Annexe II–7. Versions initiales de SoMeONe 7 Divers aperçus de SoMeONe Nous présentons ici un aperçu des interfaces des versions de SoMeONe. Nous intégrons également le service offert au cartable électronique®. 7.1 Aperçu de SoMeONe (version initiale) Nous présentons ici les interfaces du prototype SoMeONe. Ce prototype est passé par différentes versions. Nous présentons ici les toutes premières. Pour la dernière partie qui décrit la gestion de contacts, nous présentons les interfaces d’une version améliorée. 7.1.1 Inscription Cette page est la page d'authentification. Elle permet aussi de s'inscrire. Figure 7-1. Page d'authentification A première connexion, l’utilisateur est obligé de s’inscrire au service. Figure 7-2. Formulaire d'inscription. 213 Une fois que l’utilisateur est inscrit, il lui est conseillé de saisir son profil en cliquant sur le lien « Profil » (§IV.4 : « Se faire connaître »). 7.1.2 Page personnelle de l’utilisateur Voici la page d'accueil de SoMeONe une fois que l’utilisateur a été authentifié : Figure 7-3. Page d'accueil. Au centre de la page (« Autres topiques »), l'utilisateur visualise les topiques des autres membres auxquels il a accès (ceux qui l'ont ajouté aux listes de diffusion de leurs topiques). Par exemple, l'utilisateur a reçu des nouvelles références dans le topique « Java » de lucien ainsi que dans le topique « Voyages » de thomas. Il est également possible de supprimer les topiques que l'on ne désire plus avec le bouton « Supprimer ce topique ». On trouve à gauche (« Mes Topiques ») les topiques créés par l'utilisateur. C'est dans cette nomenclature qu'il classe les références de son intérêt. L'utilisateur peut associer une liste de diffusion (bouton « Listes de Diffusion ») à chacun de ses topiques,. En cliquant sur le nom du topique, SoMeONe liste toutes les références classées. A gauche de la page, l'utilisateur consulte les références du topique « Java » reçu de lucien. Il y a une seule nouvelle référence. L'utilisateur peut ajouter cette référence à ses propres topiques (bouton « Ajouter à mes topiques ») ou la supprimer (bouton « Supprimer »), c'est à dire qu'il ne désire plus y avoir accès. Une fois ajoutée à ses propres topiques ou supprimé, cette référence n'apparaîtra plus dans cette page. 7.1.3 Gestion des topiques SoMeONe permet de gérer une liste hiérarchique de topiques. Ces topiques sont comme des favoris, une nomenclature personnelle où il est possible de classer les contenus que l’utilisateur juge les plus intéressants. Pour accéder à ce gestionnaire, il faut cliquer sur « Gérer mes Topiques » dans le menu. 214 Figure 7-4. Gestion de topiques. Un topique est constitué d'un nom et éventuellement une description. La description est utilisée pour aider les autres utilisateurs à mieux cerner les topiques d'un utilisateur dans son profil public par exemple. Pour afficher une description, il suffit de passer la souris sur le symbole « ? » qui suit le nom du topique. Figure 7-5. Description d'un topique. 7.1.3.1 Liste de diffusion A chacun des topiques de l’utilisateur est associée une « liste de diffusion ». Chaque personne de cette liste de diffusion a accès aux informations classées sous ce topique. Pour modifier la liste de diffusion d'un des topiques, il faut sélectionner un topique dans « Mes Topiques » dans la page d'accueil et cliquer ensuite sur « Listes de diffusion ». Il suffit ensuite, de cocher les utilisateurs à qui l’utilisateur souhaite diffuser ce topique. Il faut noter que chaque spécialisation d'un topique hérite automatiquement des propriétés de celui-ci. Par exemple, avec la nomenclature ci-avant, si on ajoute un utilisateur dans la liste de diffusion de « Langages », cet utilisateur aura aussi accès à « Java » et « C++ ». Il est tout de même possible de modifier les listes de diffusion de tous les topiques. 215 7.1.3.2 Ajouter une information Pour ajouter de l'information, l’utilisateur dispose du « 1 click-Review ». C'est un lien qu'il suffit de copier/coller dans la barre de liens du navigateur. Pour l'installer, in ne faut que cliquer sur le lien « Avez-vous installé le 1 Click-Review ? ». Figure 7-6. 1 Click-Review installé sur Internet Explorer. Lors des prochaines recherches sur Internet, si l’utilisateur trouve une référence intéressante, il lui suffit de cliquer sur le lien « SOMEONE ». Une nouvelle fenêtre s'ouvre sur le formulaire d'ajout d'information. Le titre, l'URL et le texte sélectionné dans la page sont envoyés automatiquement à ce formulaire. L’utilisateur n’a alors plus qu'à sélectionner un ou plusieurs de vos topiques. C'est aussi simple que d'ajouter un lien dans vos favoris. Figure 7-7. Formulaire d'ajout d'information (éventuellement après clique sur le "1 click review"). Si jamais l’utilisateur ne dispose pas de topique adéquat pour classer cette nouvelle référence, il doit sélectionner le topique « A Ranger » qui est automatiquement créé lors de l'inscription. Ce topique sert de tampon. Lors d'une prochaine visite sur SoMeONe, l’utilisateur pourra classer toutes ces informations dans un topique mieux adapté. Les informations classées sont structurées comme suit : L'adresse du document. Le titre du document. 216 Un commentaire. Chaque information peut être classée dans un ou plusieurs topiques. Il existe 3 méthodes pour ajouter une information : Cliquer sur « Ajouter une info » dans le menu. Grâce aux listes de diffusion des topiques des autres utilisateurs, l’utilisateur reçoit des références à des documents Web, qu’il peut classer dans ses topiques. Utiliser la bookmarklet164 « 1 click-review ». SoMeONe permet aussi de filtrer ce que l’utilisateur reçoit en sélectionnant les topiques ou les références qu’il ne désire pas. 7.1.4 Se faire connaître Pour recevoir de l'information des autres utilisateurs, il est important de se faire connaître. Chaque utilisateur possède un profil qu'il peut rendre visible (partiellement ou totalement) aux autres utilisateurs. On peut y faire apparaître des informations personnelles (adresse mail, nom, informations diverses…) ainsi que ses topiques. Pour y accéder, il faut cliquer sur « Profil » dans le menu. Cette première page est le profil de l’utilisateur et contient donc différentes informations qu’il peut renseigner ou non. Figure 7-8. Profil utilisateur. Une bookmarklet appelée « 1 click-review » est un lien qu'il suffit de copier/coller dans la barre de liens du navigateur, qui sert dans notre contexte, comme raccourci pour ajouter références quasiautomatiquement dans la nomenclature personnelle pendant la navigation sur le Web. Cela ne fonctionne qu’avec Internet Explorer. 164 217 Le lien « Visibilité de votre profil pour les autres utilisateurs », va permettre à l’utilisateur de préciser ce qu’il veut rendre visible aux autres membres. En rendant ses topiques publics, l’utilisateur permet aux autres utilisateurs intéressés par les mêmes domaines que lui, de recevoir des références intéressantes. En échange, ils l'ajouteront probablement aux listes de diffusion de leurs topiques. Figure 7-9. Visibilité d'un profil utilisateur aux autres membres. Les utilisateurs peuvent ainsi se former une opinion sur les centres d'intérêts d'autres membres en visualisant leur profil public. De ce fait, se faire connaître permet à l’utilisateur d'être ajouté dans les listes de diffusion d'autres membres et ainsi de recevoir de l'information. Cependant il peut également, trouver de nouveaux contacts pour améliorer ou augmenter l’information dans ses topiques ou connaître sur des nouveaux domaines. 7.1.5 Trouver des contacts SoMeONe donne à l’utilisateur la possibilité de trouver de nouveaux contacts. Pour cela, il faut cliquer sur le lien « Trouver des contacts », puis sur le lien « Liste des topiques publics ». Le système liste alors l'ensemble des topiques publics auxquels l’utilisateur n'a pas encore accès. Les topiques sont listés avec leur description ainsi que l’identificateur (login) de leurs propriétaires. L’utilisateur peut être ajouté aux listes de diffusion des topiques sélectionnés pour recevoir de nouvelles références. 218 Figure 7-10. Trouver de nouveaux contacts. Dans cette même page, le lien « Mes contacts » dresse le bilan des contacts de l’utilisateur, à savoir ses contacts « receveurs » tout comme ses contacts « émetteurs ». Figure 7-11. Liste de mes contacts. De ce fait, se faire connaître ou trouver des nouveaux contacts, engage la construction du réseau de connaissance de l’utilisateur : son réseau social, c’est à dire, les relations établies par l’échange de références entre les utilisateurs, qui sont influencées par la dynamique d’usage du SoMeONe. Nous détaillons la gestion de ce réseau dans la section ci-dessous. 219 7.1.6 Gestion du réseau de contacts Afin de motiver une dynamique d’échanges d’information dans SoMeONe, il faut que l'utilisateur puise trouver les outils pour la gestion de son information et de ses contacts. Ainsi, SoMeONe lui permet de : Obtenir des recommandations de contacts. Le système doit lui montrer les meilleures options de contacts selon le type d'information cherché. La petite image Connaître la situation actuelle de ses est utilisée pour afficher échanges d'information avec les autres. des informations liées à l'action qui se trouve écrite de éd i Pour cela, il faut accéder à l'interface de gestion de ses contacts (version améliorée par rapport aux Figures 7.10 et 7.11) dans ma figure ci-dessous. Cette interface est accessible depuis le lien « Gérer mes contacts » du menu principal. Ce lien, va vers l'interface « Mon réseau ». Figure 7-12. Page d’accueil pour la gestion de contacts. Cette interface a deux liens importants : Trouver contacts. Lien vers une interface où l'utilisateur peut trouver des recommandations de contacts. Dans la version antérieure, ceci consistait à visualiser les topiques publics d’autres utilisateurs (voir le lien « Liste des topiques publiques » Figure 7-10). Mes contacts. Ce lien permet à l'utilisateur de connaître la situation actuelle de ses échanges d'information. Par échanges d'information, nous voulons dire, les références échangées entre contacts et classées éventuellement dans leurs propres topiques personnels (adoption de références). Ainsi, l'information qu'un utilisateur adopte d'un autre est comptabilisée selon le nombre de références adoptées des topiques. 220 Figure 7-13. Fenêtre affichant le profil public d'un contact, listant ses topiques publics et puis, les topiques reçus et les topiques envoyés entre ce contact et l'utilisateur connecté dans le système. Dans cet exemple, le contact est "jc". Bien noter que l'utilisateur est la personne connectée et ses contacts sont les autres personnes avec lesquelles il échange des informations. Une fois que l'utilisateur accède à l'interface de « Mes contacts » il trouve l'information suivante : (1) Topiques reçus. L'information affichée dans l'image explique que dans cette colonne, l'utilisateur trouve listés, les contacts dont il reçoit de l'information et qu'il n'a pas refusé de recevoir (donc ses contacts « émetteurs »). Certains (ou tous) de ces contacts peuvent éventuellement être ses préférés, si l'utilisateur adopte des références de leurs topiques. (2) Topiques envoyés. L'information affichée dans l'image explique que dans cette colonne, l'utilisateur trouve listés les contacts « receveurs » (auxquels il envoie ses topiques) et qui n'ont pas refusé de les recevoir. Ces contacts peuvent éventuellement être ses fans parce qu'ils adoptent ses références de topiques. Les contacts sont listés selon les critères suivants: Pour les topiques reçus nous listons : - Le nom du contact 165. Le nom du contact est un lien vers le profil public du contact. Ce profil public est aperçu dans une petite fenêtre (pop-up) (§Figure 7-13). L'image àcoté du nom du contact sert à montrer le rating (pourcentage) que l'utilisateur donne à ce contact par rapport au nombre de références qu'il adopte de lui. Si l'utilisateur adopte l'information de ce contact, ce contact est pour lui un contact préféré. Les images de rating sont montrées à 5 niveaux ( , , , , ) pour qualifier le niveau de contact préféré, c'est à dire, pour montrer en ordre descendant, les contacts dont l'utilisateur adopte le plus d'information. Il existe un sixième niveau ( ), qui veut dire que l'utilisateur ne prend pas d'information de ce contact. Par contre, les contacts listés avec cette image à côté seront listés par nombre de topiques que l'utilisateur reçoit de lui, c'est à dire, qu'il se peut que l'utilisateur ne prenne pas information de ces contacts par contre, lui reçoit un ou 165 L'identifiant du contact dans le système (son login). 221 - plusieurs topiques de ce contact. Alors, la façon de leur lister est aussi de façon descendante par nombre de topiques reçus. Si l'utilisateur passe son souri sur l'image de rating, elle montrera une affiche disant le nombre total de topiques que l'utilisateur reçoit de ce contact (ses préférés et les autres). Les topiques préférés (« Mes préférés ») Sont listés les topiques reçus du contact dont l'utilisateur adopte les références. L'ordre est défini selon une moyenne. La moyenne se calcule selon le nombre de références adoptées de ce topique166. Alors, ces topiques sont également listés, en ordre descendant de la valeur moyenne. Chaque nom du topique est un lien vers l'interface qui montre le contenu du topique. Par exemple, dans le topique préféré projets de pascal, il a deux documents. Il y a également une petite image à son coté. Cette image affiche: Entre parenthèses, la moyenne. Entre crochets la description du topique. Le nombre de références que l'utilisateur adopte de ce topique. Alors, dans l'exemple, l'image à coté de projets afficherait: « (0.5) [projets de pascal base2] dont j’adopte 1 référence(s) ». Juste après l'image, il est affiché aussi entre parenthèses, un petit numéro qui veut dire le nombre de références que l'utilisateur a adopté de ce topique. Ce numéro est un lien vers une petite fenêtre (pop-up) qui affiche à détail les références adoptées du topique correspondant. Dans l'exemple, la petite fenêtre afficherait que l'utilisateur préfère de son contact pascal, le topique projets. Le nom du topique est un lien qui contrôle la fenêtre père pour y afficher le contenu détaillé du topique. Il afficherait également le nombre de références adoptées et à continuation elles seront toutes listées. Le nom d’une référence est un lien qui ouvre un navigateur avec le document Web correspondant. A-côté du nom de chaque référence, est affichée son information correspondante. - Les autres topiques (« Autres »). Ils sont aussi listés les topiques que l'utilisateur reçoit mais il n’adopte pas des références dans ses topiques. Pour les topiques envoyés : Il s’agit ici de lister les personnes qui reçoivent de l'information de l'utilisateur. Nous listons ici : - Le nom du contact 9. Le nom du contact est un lien vers le profil public du contact. Ce profil public est aperçu dans une petite fenêtre (pop-up) (§Figure 7-13). L'image àcoté du nom du contact sert à montrer le pourcentage que le contact donne à l'utilisateur par rapport au nombre de références qu'il adopte de lui. Si le contact adopte information de l'utilisateur, alors pour le contact, l'utilisateur est un fan. Les images de rating sont également montrées à 5 niveaux ( , , , , ) pour qualifier le niveau de fan qu'un contact est de l'utilisateur, c'est à dire, 166 Nombre de références prises du topique / nombre de références dans le topique. De l'exemple, topique projets de pascal, l'utilisateur a adopté 1 référence et le topique contient deux références, alors sa moyenne est ½=0,5. 222 - pour montrer en ordre descendant, les personnes adoptant le plus de références de l'utilisateur. Il existe un sixième niveau ( ), pour monter le contact qui ne prend pas information de l'utilisateur. Par contre, les personnes listées avec cette image à côté seront listées par nombre de topiques qu'ils reçoivent de l'utilisateur, c'est à dire, qu'il se peut que ces personnes n’adoptent pas des références de l'utilisateur par contre, eux reçoivent un ou plusieurs topiques de lui. Alors, la façon de les lister est aussi de façon descendante par nombre de topiques que l'utilisateur leur envoie. Si l'utilisateur passe son souri sur l'image de rating, elle montrera une affiche montrant le nombre total de topiques envoyés vers cette personne (ses fans et les autres). Les topiques préférés (« Ses préférés ») Ils sont listés les topiques envoyés vers ce contact et lui adopte des références de l'utilisateur. L'ordre pour leur lister est défini selon une moyenne. La moyenne se calcule selon le nombre de références adoptées de ce topique167. Alors, ces topiques sont également listés, en ordre descendant de sa moyenne. Chaque nom du topique est un lien vers l'interface qui montre le contenu du topique. Par exemple, dans le topique préféré loisirs de michel (l'utilisateur), il a six documents. Il y a également une petite image à son coté. Cette image affiche: Entre parenthèses, moyenne. la Entre crochets la description du topique. Le nombre de références que le contact prend du topique de l'utilisateur. Alors, dans l'exemple, l'image à coté de loisirs afficherait: « (0,166666666) [loisirs de michel base2] dont jc prends 1 topique(s) ». Juste après l'image, il est affiché aussi entre parenthèses un petit numéro qui veut dire le nombre de références que le contact a adopté de ce topique. Ce numéro est un lien vers une petite fenêtre (pop-up) qui affiche à détail les références adoptées du correspondant topique. De l'exemple, la petite fenêtre afficherait que l'utilisateur envoie à son contact jc, le topique loisirs. Le nom du topique est un lien qui contrôle la fenêtre père pour y afficher le contenu détaillé du topique. Il afficherait également le nombre de références adoptées et leur liste. Le nom des références est un lien qui ouvre un navigateur avec le document Web correspondant. A-côté du nom de chaque référence, est affichée l' information correspondante. 167 Nombre de références prises du topique / nombre de références dans le topique. De l'exemple, topique loisirs de michel, l’utilisateur a adopté 1 référence et le topique contient six références, alors sa moyenne est 1/6=0,1666666666. 223 - Les autres topiques (« Autres »), dont l'utilisateur ne prend aucune information contenue dans les topiques. Dans cette section sont listés les topiques du contact dont il reçoit de l'information,mais ne prend pas de références. 7.2 Webothèque du cartable électronique® de l’Université de Savoie La Webothèque est le service basé sur SoMeONe (Social Media using Opinions trhough a trust Network) pour l'Université de Savoie. Figure 7-14. Interface d'accueil de la Webothèque une fois que l’utilisateur est connecté. De la figure antérieure, nous pouvons visualiser la hiérarchie des topiques personnels à gauche de la page. A droite de la page nous visualisons les topiques reçus d'autres membres utilisant ce service. Par exemple, dans ce cas, l'utilisateur a reçu des nouveaux documents dans le topique Réseaux Sociaux de Layda Agosto-Franco. Le nombre indiqué entre parenthèse à côté du nom du topique indique le nombre de références étiquetées par ce topique par Layda Agosto-Franco. Le fait de cliquer sur un topique permet de visualiser les références étiquetées par ce topique. 224 7.2.1 Créer ou ajouter un topique Figure 7-15. Création ou ajout d'un topique. Pour créer ou ajouter un topique il faut aller dans le menu ajouter et sélectionner topique. Indiquer alors le nom et le topique parent de ce nouveau topique (par exemple, le topique parent de aviron est loisirs). 7.2.2 Afficher le contenu d'un topique Figure 7-16. Affichage du contenu d'un topique. Afficher un topique revient à consulter la liste des références étiquetées par ce topique. Pour afficher le contenu d'un topique, il suffit de cliquer sur le nom du topique. 225 7.2.3 Éditer un topique Un topique est défini par un nom et éventuellement une description associée. L'édition d'un topique permet de modifier ce topique (le renommer, modifier sa description) et de lui associer une liste de diffusion. Les membres de cette liste de diffusion auront, dès lors que vous les sélectionnez, accès aux références étiquetées par ce topique ainsi que la possibilité d'intégrer ce topique dans leurs topiques reçus. L’utilisateur devra sélectionner le topique à éditer, puis dans le menu ajouter, il devra sélectionner « éditer – diffuser un topique ». Il faudra utiliser la touche Ctrl pour sélectionner ou désélectionner les personnes de la liste de diffusion associée à ce topique. Notez que dans l'exemple ci-dessus, le topique modélisation possède une liste de diffusion constituée de Ghislaine Chabert et Christine Ferraris. Si une personne est ajoutée à la liste de diffusion d'un topique père d'un topique, la liste de diffusion de ce dernier héritera de l'ensemble des utilisateurs de ses topiques parents. Par exemple, si nous ajoutons un utilisateur dans la liste de diffusion du topique UML, le topique modélisation possèdera cet utilisateur dans sa liste de diffusion. Il est toutefois toujours possible de le supprimer de la liste de diffusion du topique fils, en sélectionnant ce topique et en cliquant sur la personne à supprimer de la liste tout en appuyant sur la touche Ctrl. 7.2.4 Créer/ajouter un lien Un lien est une référence, constituée d'un titre et d'une URL et éventuellement d'un commentaire. Les liens sont obligatoirement étiquetés par un ou plusieurs topiques. 226 Figure 7-17. Interface de création d'un lien. Pour créer ou pour éditer un lien il faut aller dans le menu AJOUTER, sélectionner l'option Topique. Il faudra alors le nom et le topique parent de ce nouveau topique (par exemple, le topique parent de aviron est loisirs). Figure 7-18. Interface de création ou d'édition d'un lien. L'édition d'un lien permet de modifier le titre, l'URL et./ou le commentaire. Il permet aussi d'ajouter des étiquettes supplémentaires au lien, et/ou de supprimer les étiquettes actuelles. Pour le faire, il faut sélection un lien en cochant la boite à cocher. Choisir l'option « Editer un lien » du menu EDITION. 227 7.2.5 Gestion des topiques reçus Les topiques reçus sont des topiques que des utilisateurs du service ont supposé intéressants pour l’utilisateur connecté. Les topiques publics sont des topiques que des utilisateurs du service décident de mettre à disposition de tous les utilisateurs du service. L’utilisateur connecté peut importer des topiques publics dans ses topiques reçus, ils seront alors affichés dans sa page d'accueil de la Webothèque. Pour gérer le topiques reçus l’utilisateur doit sélectionner l'option « Gestion des topiques reçus » du menu GERER. Pour transférer un topique publique dans la liste de ses topiques reçus, il suffit de cocher la case du topique à transférer et de cliquer sur la flèche grise. 7.2.6 Réseau de Connaissances Le réseau de connaissances est le réseau de contacts de l’utilisateur ou son réseau social. La visualisation de ce réseau de connaissance va permettre à l’utilisateur connecté de connaître la liste des relations qu’il a avec les autres utilisateurs et de déterminer ses favoris (ceux dont il apprécie les recommandations) et ses fans (ceux qui apprécient ses recommandations). 228 Figure 7-19 Visualisation du réseau de connaissances de l’utilisateur. Pour visualiser le réseau de connaissances il suffit de sélectionner de l'option « réseau de connaissances » du menu GERER. 7.2.7 Informations utilisateur Il s'agit de connaître les liens que l’utilisateur tisse avec une personne particulière. Figure 7-20. Visualisation de liens que l’utilisateur tisse avec une personne particulière. 229 Il suffit de cliquer sur le nom de la personne, à partir de la liste des topiques reçus depuis l’écran d’accueil ou depuis le réseau de connaissances. 7.2.8 Trouver des contacts La Webothèque donne à l’utilisateur la possibilité de trouver de nouveaux contacts susceptibles d'être intéressés par ses liens. Pour le faire, il suffit d’aller dans le menu GERER et sélectionner l'option « Trouver des contacts ». 7.2.9 Gérer la corbeille La corbeille contient tous les liens qui ont été supprimés. L’utilisateur peut restaurer des liens supprimés ou vider la corbeille. Figure 7-21. Visualisation de la corbeille. Pour restaurer des liens supprimés, il suffit de sélectionner les liens à restaurer en cochant la boite à cocher et de sélectionner le topique dans lequel ils seront restaurés. Pour supprimer l'ensemble des liens de la corbeille, il suffit de vider la corbeille en cliquant sur le lien vider. 7.2.10 Déposer le lien dans mon cartable Il s’agit maintenant de déposer une référence dans le cartable de l’utilisateur (contexte du cartable électronique®). Pour le faire il faut sélectionner d'abord les liens à déposer dans le 230 cartable en cliquant sur la coche à gauche du lien puis cliquer sur le bouton « Déposer dans le cartable ». A gauche de la page, l'utilisateur consulte les documents du topique « Java » reçu de lucien. Il y a un seul nouveau document. L'utilisateur peut ajouter ce document à ses propres topiques (bouton « Ajouter à mes topiques ») ou le supprimer (bouton « Supprimer »), c'est à dire qu'il ne désire plus y avoir accès. Une fois ajouté à ses propres topiques ou supprimé, ce document n'apparaîtra plus dans cette page 231 232 Annexe III–8. Scénarios de Simulation 8 Considérations Pour construire un scénario à simuler, il faut spécifier ce que nous cherchons à analyser et puis le paramétrer. Pour chacun des scénarios nous cherchons à analyser comment améliorer l’efficacité du réseau. Nous testons des scénarios définissant des réseaux thématiques. Pour chaque type de réseau, un sujet différent. Ainsi, chaque scénario a sa propre sous-base de données, un fichier contenant les données d’un seul sujet, qui sera utilisé pour la génération du réseau initial, puis, pendant l’évolution du réseau. Pour rendre l’interprétation des résultats plus simple, nous avons proposé que : Chaque taxonomie ne se décomposera pas en sous-topiques. Pour chaque membre il n’y aura qu’un topique. Ceci nous permet de mieux interpréter les échanges entre membres/topiques, surtout parce que le simulateur connaît toutes les connexions possibles. Note importante à la création d’un réseau thématique : si le réseau est défini avec 1 membre = 1 topique, alors le calcul de connectivités pour chaque membre/topique est : Connectivité du topique e = (nombre total de topiques) – 1. Ainsi, le nombre total de connexions possibles dans le réseau s’obtient avec : Total de connexions possibles = (nombre total de topiques) * [(nombre total de topiques) – 1]. Par exemple, dans un réseau thématique de 5 utilisateurs, le nombre total de connexions possibles sera calculé selon : (5) * [(5) – 1]=20 connexions possibles dans ce réseau. Les utilisateurs ajoutent de l’information dans leurs topiques. Les utilisateurs potentiels de notre système y classent leurs informations pendant leurs navigations sur le Web, parce que la dynamique du système l’exige ; ils veulent que le flux d’informations de leurs intérêts arrive vers eux [h02;p02;h01;p01]. Ainsi, nous devons simuler le comportement d’ajout de nouvelles informations dans les taxonomies de chaque membre. Ces « nouvelles » informations peuvent être de deux types : o Obtenues d’« ailleurs ». Nous parlons des liens qui ne se trouvent pas dans des taxonomies d’autres membres crées mais dans le fichier de données pour le scénario). o Obtenus des topiques reçus. Les liens venant des topiques que l’utilisateur reçoit. Avec ces considérations, nous présentons ci-dessous et de manière détaillée, les scénarios que nous avons testés et analysés. 8.1 Scénario A De la littérature concernant les réseaux sociaux, a été mesurée la taille tolérable d’un réseau de contacts. Nous avons donc choisi de créer notre réseau social thématique avec 30 contacts qui interagissent. Ainsi, nous avons 30 contacts = 30 topiques dans ce premier scénario. Nous considérons que chaque topique a, à sa création, 2 liens ou références classées. Il y a au moins 233 20% de connectivité par topique, c’est à dire, (30-1)*0,2 connexions possibles par topique à la création du réseau. A chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de références prises (définit à 10%) où, dans le cas échéant, une référence est prise au minimum. Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques, alors nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous. Réseau Initial (scénario A) Nombre de contacts Nombre de topiques par contact Nombre de liens par topique P de connectivité du graphe au début (par topique) P. de réciprocité de relations au début % de références prises dans un topique % topiques publics 30 1 2 0,2 0 10% 0% Tableau 8-1. Données pour la création du réseau initial du scénario A. Une fois que le réseau est créé, nous devons le faire évoluer à travers un certain nombre d’itérations. Nous pensons que, d’après nos tests, 15 itérations sont suffisantes pour obtenir une interprétation représentative de l’évolution du réseau. De cette façon, les paramètres d’évolution du réseau social doivent prendre en compte la probabilité qu’une recommandation soit acceptée. Dans ce scénario, étant donné le type du réseau à tester (thématique), nous considérons que tous les contacts acceptent de recevoir de l’information, alors la probabilité de recevoir est de 1. Un autre paramètre ici fait référence à la réciprocité de relations que nous définissons à 0 parce que notre intention est d’analyser surtout l’impact de recommandations de contacts et non la réciprocité des échanges. De ce fait, nous définissons à 0,5 la probabilité d’accepter une liste de recommandation. L’idée est de simuler un « oui, j’accepte la recommandation » ou un « non, je n’accepte pas la recommandation ». Itérations (scénario A) Nombre d'itérations P. qu'une recommandation de RECEVOIR soit acceptée P. de réciprocité P, d'accepter une liste de recommandation % d'acceptation de la liste recommandée (diffuser son topique au propriétaire du topique recommandé) 15 1 0 0,5 0,1 Tableau 8-2. Données pour l'évolution du réseau initial du scénario A. Cependant, le fait d’accepter une recommandation ne dit pas que l’utilisateur recommandé s’intéresse à l’information que le contact recommandé peut lui apporter. Une manière de rendre évident le degré d’intérêt porté sur le contenu d’un topique, est le pourcentage de références adoptées. Pour cela, nous définissons à 10% le pourcentage de références à adopter une fois qu’une recommandation d’accepter est positive. Ces données sont résumées dans le Tableau 8-2. 234 8.2 Scénario B Pour ce scénario, nous avons choisi de créer notre réseau social thématique ayant 40 contacts qui interagissent : 40 contacts = 40 topiques. L’idée est d’analyser l’impact d’avoir un nombre plus élevé de membres dans un réseau thématique. Nous considérons que chaque topique a, à sa création, 6 liens ou références classées. Nous voulons vérifier si le fait d’avoir plus de liens est important aussi. Il y a au moins 20 % de connectivité par topique, c’est à dire, (40-1)*0,2 connexions par topique à la création du réseau. Pour chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de références prises (défini à 10%). Le cas échéant, une référence est prise au minimum. Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques, donc nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous. Réseau Initial (scénario B) Nombre de contacts Nombre de topiques par contact Nombre de liens par topique P de connectivité du graphe au début (par topique) P. de réciprocité de relations au début % de références prises dans un topique % topiques publics 40 1 6 0,2 0 10% 0% Tableau 8-3. Données pour la création du réseau initial du scénario A. Similairement au premier scénario, une fois le réseau créé, nous le faisons évoluer avec 15 itérations. De cette façon, les paramètres d’évolution du réseau sont : la probabilité qu’une recommandation soit acceptée est définie à 1, la réciprocité de relations est définie à 0 (pour analyser l’impact des recommandations de contacts du simulateur), nous définissons à 0,5 la probabilité d’accepter une liste de recommandation, pour simuler un « oui, j’accepte la recommandation » ou un « non, je n’accepte pas la recommandation ». Pour rendre évident le degré d’intérêt porté sur le contenu d’un topique, nous définissons à 10% le pourcentage de références adoptées. Ces données sont résumées dans le Tableau 8-4. Itérations (scénario B) Nombre d'itérations P. qu'une recommandation de RECEVOIR soit acceptée P. de réciprocité P, d'accepter une liste de recommandation % d'acceptation de la liste recommandée (diffuser son topique au propriétaire du topique recommandé) 15 1 0 0,5 0,1 Tableau 8-4. Données pour l'évolution du réseau initial du scénario B. 235 8.3 Scénario C Pour ce dernier scénario, nous avons donc choisi de créer notre réseau social thématique ayant 40 contacts = 40 topiques pour comparer notre scénario C avec le scénario B mais ayant les mêmes valeurs des paramètres que le scénario A, mais pas le même nombre de membres du réseau. Nous considérons alors que chaque topique a, à sa création, 2 liens ou références classées. Il y a au moins 20% de connectivité par topique, c’est à dire, (40-1)*0,2 connexions par topique à la création du réseau. A chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de références prises (définit à 10%). Le cas échéant, une référence est prise au minimum. Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques, donc nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous. Réseau Initial (scénario C) Nombre de contacts 40 Nombre de topiques par contact 1 Nombre de liens par topique 2 P de connectivité du graphe au début (par 0,2 topique) P. de réciprocité de relations au début 0 % de références prises dans un topique 10% % topiques publics 0% Tableau 8-5. Données pour la création du réseau initial du scénario C. Une fois que le réseau est créé, nous devons le faire évoluer à travers un certain nombre d’itérations. Ainsi, la probabilité qu’une recommandation soit acceptée est de 1. Un autre paramètre ici fait référence à la réciprocité de relations que nous définissons à 0. Nous définissons à 0,5 la probabilité d’accepter une liste de recommandation. Le degré d’intérêt porté sur le contenu d’un topique est défini avec le pourcentage de références adoptées, que nous définissons à 10%. Ces données sont résumées dans le tableau ci-dessous. Itérations (scénario C) Nombre d'itérations P. qu'une recommandation de RECEVOIR soit acceptée P. de réciprocité P, d'accepter une liste de recommandation % d'acceptation de la liste recommandée (diffuser son topique au propriétaire du topique recommandé) 15 1 0 0,5 0,1 Tableau 8-6. Données pour l'évolution du réseau initial du scénario C. 236 Annexe IV–9. Logiciels pour l’analyse de Réseaux Sociaux 9 Liste de logiciels Pris de http://www.sfu.ca/~insna/INSNA/soft_inf.html dont la dernière mise à jour a été fait le 22 avril 2004. AGD (http://www.ads.tuwien.ac.at/AGD/). Une large gamme d’algorithmes pour des graphiques bidimensionnels et des outils pour implémenter de nouveaux algorithmes. C'est un produit issu d'une coopération des groupes à Halle, à Köln, à Sarrebruck, et à Wien, dont son origine vient du projet DFG : «conception, analyse, implémentation et évaluation des algorithmes de dessin de graphiques » en 1995-2000. Actuellement, AGD est encore développé par les groupes à Köln et à Wien. Agna (http://www.geocities.com/imbenta/agna/index.htm). De Marius I. Benta. Applied Graph & Network Analysis est une application freeware indépendante, conçue par des scientifiques et chercheurs qui emploient le traitement mathématique spécifique de l'analyse de données, telles que l'analyse de réseaux sociaux, la sociométrie, etc. Carter's Archive of S Routines (http://legba.casos.ri.cmu.edu/R.stuff/). Ceci (paquet de SNA pour R) c'est une bibliothèque de routines d'analyse de réseau et de visualisation; il utilise l'analyse statistique des données de réseau. Un certain nombre d'outils classiques d'analyse de réseau sont aussi bien inclus. daVinci (http://www.informatik.uni-bremen.de/~davinci). Il est un programme de dessin de digraphes dont sa particularité consiste à dessiner des relations ordonnées. Doug White's software for kinship network analysis (http://eclectic.ss.uci.edu/~drwhite/doug.html), utilise des exports du pajek et d'UCInet. Egonet (http://survey.bebr.ufl.edu/EgoNet/), est un programme pour la collection et l'analyse des données égocentriques de réseau. Il est conçu pour permettre au chercheur d'écrire les questions qu'il souhaite poser, entre autres. Une unité de l'analyse est le répondant. Il est également conçu pour produire une matrice d'adjacence pour chaque répondant. De Chris McCarty. EigTool (http://web.comlab.ox.ac.uk/projects/pseudospectra/eigtool/). C'est un outil graphique très intéressant pour les problèmes Eigen non symétriques. FATCAT (http://www.sfu.ca/%7Erichards/Pages/fatcat.htm). Programmes d'analyse des réseaux pour l'analyse catégorique who-to-whom (de réseaux égocentriques ou ordinaires) par Bill Richards. gem3Ddraw (http://i44www.info.uni-karlsruhe.de/~frick/gd/index.html). Un programme de dessin de graphes tridimensionnels. 237 GLAD. Un programme raffiné pour l'analyse de deux modes de Galois lattices. Son auteur est Vincent Duquenne ([email protected]) GRADAP (http://www.assess.com/Software/GRADAP.htm). Un programme d'analyse de réseau. GraphEd (http://www.uni-passau.de/~himsolt/GraphEd/graphed). Un programme de dessin de graphes et de digraphes, qui inclut beaucoup d'algorithmes pour aider à la présentation. Graphlet (http://infosun.fmi.uni-passau.de/Graphlet/). Un outil pour les éditeurs de graphes et des algorithmes de graphes. Disponible pour des systèmes Unix et Windows 95/98/NT. GraphPlot (http://coral.wcupa.edu/Psy513WebPage/Sociometryweb/). Un outil de dessin pour les données sociométriques et plus afin manipuler des nombres illimités individus et d'objets. De Thomas Treadwell de l' Univ. de Chester en Pennsylvanie. GraphViz (http://www.research.att.com/sw/tools/graphviz/). Une famille des programmes des laboratoires Bell -- dot, dotty et neato qui fournissent une manière simple de développer des graphes des réseaux. IKNOW (http://iknow.spcomm.uiuc.edu/). "Inquiring Knowledge Networks on the Web". InFlow (http://www.orgnet.com/). Programme de Valdis Kreb Co. pour l'analyse de réseaux sociaux. JUNG (http://jung.sourceforge.net/). Le Framework universel de Java Network/Graph -est une bibliothèque qui fournit une langue commune et extensible pour modéliser, analyser, et visualiser des données qui peuvent être représentées comme graphes ou réseaux. Développé par Scott White, Joshua O'Madadhain, Fisher de Danyel, Yan-Biao Boey à UCI. KliqueFinder (http://www.msu.edu/%7Ekenfrank/social%20network/kfuserguid.pdf). Par Ken Frank, il est basé sur un algorithme général pour identifier des cliques (des "clusters" ou des sous-groupes) des acteurs dans des données d'un réseau. KrackPlot (http://www.heinz.cmu.edu/~krack). Un programme pour graphes de réseaux. MatView (http://www.epm.ornl.gov/%7Ekohl/MatView/). Un outil maniable pour visualiser et explorer des grandes matrices creuses. MetaSight (http://www.metasight.co.uk/MetaSight.htm), est un ensemble d'outils d'analyse de réseaux sociaux, qui détermine automatiquement les réseaux sociaux à partir des échanges du courrier électronique dans de grands organismes. Les solutions de MetaSight Knowledge Management, incluent les Communautés d'intérêt et les Communautés de Relations. Ces outils peuvent être contrôlés soit par le propre fournisseur de services IT, soit pour l'équipe MetaSight. Moviemol (http://www.kvac.uu.se/~lars/moviemol.html). C'est un programme de chimie qui a été conçu pour montrer la structure moléculaire dynamique. Il peut être adapté pour permettre l'affichage de la dynamique des structures changeantes de réseau. 238 MultiNet (http://www.sfu.ca/~richards). C'est un programme graphique interactif, conçu pour l'analyse exploratoire de réseaux assez grands, complexes et multi-variables (pour des données égocentriques ou ordinaires). Il inclut, entre autres, quatre genres d'analyse spectrale et le p*. Par Bill Richards et Andrew Seary. NEGOPY (http://www.sfu.ca/%7Erichards/Pages/negopy4.html). l'analyse de réseaux, de Bill Richards. Programme pour NetForm -Network Analysis Software (http://www.netformstephenson.com/html/download.html). Programme de Karen Stephenson pour l'analyse de réseaux sociaux. NetMiner (http://www.netminer.com/). C'est un outil innovant pour l'analyse de données de réseaux exploratoires, et sa visualisation. Il est développé par Cyram Cie., Ltd. NetVis (http://www.netvis.org/). Le module NetVis de Jonathon N. Cummings est un outil libre, conçu pour simuler, analyser, et visualiser les réseaux sociaux en utilisant des données types csv, des aperçus en ligne, et des équipes de travail géographiquement dispersées. Noldus (http://www.noldus.com/), l'éditeur d'un logiciel, MatMan, qui a été spécifiquement conçu pour faciliter l'examen des hiérarchies dans des données de réseau. Elles facilitent également l'observation systématique. PSPAR (http://www.sfu.ca/%7Erichards/Pages/pspar.html%20). Version de matricecreuse PSTAR, d'Andrew Seary. p* Logit Models (http://kentucky.psych.uiuc.edu/pstar/index.html). Pour des réseaux sociaux. Pajek (http://vlado.fmf.uni-lj.si/pub/networks/pajek/default.htm), l'analyse de réseaux sociaux. programmes pour PermNet ( http://www.meijigakuin.ac.jp/%7Ertsuji/en/software.html), de Ryuhei Tsuji. Ensemble d'outils de tests de permutation, pour l'analyse de réseaux sociaux. ReferralWeb (http://www.research.att.com/~kautz/referralweb), d'Henry Kautz et de Bart Selman. C'est un interface (en Java) à un système pour créer et chercher des réseaux sociaux, y compris un réseau de 10.000 chercheurs en informatique avec leurs domaines de spécialisation. SIENA (http://stat.gamma.rug.nl/snijders/siena.html), de Tom Snijder. C'est un logiciel pour analyser l'évolution des réseaux. SNAPS. C'est un programme d'analyse des réseaux créé par Noah Friedkin ([email protected]). SocioMetrica LinkAlyzer (http://www.md-logic.com/id142.htm). Logiciel qui a été conçu pour soutenir la construction des données sociométriques à partir de données égocentriques, par l'assortiment des personnes nommées par des attributs, ajoutant de ce fait des nœuds liés au graphe du réseau social. 239 Social Network Analysis Functional Utility SNAFU (http://innovationinsight.com/networks.html). C'est un logiciel qui permet l' analyse de réseau de MacOS et le développement d'algorithmes. Sparse Matrix Package (http://www-users.cs.umn.edu/%7Eagupta/wsmp.html). C'est un bon solveur, de haute performance et de mémoire distribuée, pour les équations linéaires et parallèles. Il est robuste et facile d'emploi. StOCNET (http://stat.gamma.rug.nl/stocnet/). C'est un logiciel ouvert pour l'analyse statistique avancée des réseaux sociaux. STRUCTURE (http://gsbwww.uchicago.edu/fac/ronald.burt/teaching/STRUC.EXE), de Ron Burt. Le manuel est également disponible sur http://gsbwww.uchicago.edu/fac/ronald.burt/teaching/STRUCmanual.pdf. UCINET (http://www.analytictech.com/ucinet.htm). C'est un bien connu logiciel, très général, qui a été conçu pour faciliter l'analyse des données de réseaux sociaux. visone (http://www.visone.de/). Analyse visuelle des réseaux sociaux. Du "Groupe Algorithms & Data Structures" dans le département Computer & Information Science, et du groupe " Domestic Politics & Public Administration" dans le Department of Politics & Management, à l'université de Konstanz ; et d'un réseau des collaborateures, et des membres de plusieurs universités. yFiles (http://www.yworks.de/en/products_yfiles_about.htm). C'est une bibliothèque (Java) qui fournit des algorithmes et des composants pour l'analyse, la vision de graphes, des diagrammes et des réseaux. ZO (http://stat.gamma.rug.nl/snijders/#progZO). C'est une collection de programmes de Tom A.B. Snijder analyser matrices du type 0/1. 240 Annexe V–10. Sur l’utilisation d’un annuaire 10 Utilisation de l’annuaire ODP pour la construction de taxonomies des membres du réseau à simuler Dans le cas CO-II mentionné dans le chapitre 4, section 4.2.4.1 nous avons introduit notre idée d’utiliser un annuaire (ODP) pour que le simulateur puisse obtenir de l’information liée à des domaines particulières. Ainsi, il obtient des liens à partir des catégories d’ODP pour avoir un stocke de liens susceptible d’être utilisé pour remplir le contenu des topiques dans notre système. Celle si est une manière de garantir qu’ils peuvent échanger de l’information pertinente168. Dans ce cas CO-II il est très important de noter une découverte issue de certains tests effectués. Le choix d’utiliser ODP est valide pour le bootstrap des taxonomies personnelles des membres à simuler. Par contre, il faut trouver ou compléter ces liens sur le Web avec notre algorithme de filtrage collaboratif (§3.9.1.1) afin d’élargir le nombre de liens dans les correspondantes catégories ODP. Ceci parce que la structure de liens selon la hiérarchie de catégories ODP n’est pas adaptée aux algorithmes du type SocialRank (§3.6.1). En effet, les sous-catégories feuilles de l’arbre de catégories ODP ont des liens qui seraient considérés par le simulateur comme originaux, car aucune autre catégorie ne contiendra ces liens. Cette situation se traduit par un pourcentage des informations originales pas adapté dans les topiques. En effet, trop peu de topiques seront qualifiés d’originaux parmi l'ensemble des topiques intéressants à recommander, c'est-à-dire, que le nombre de topiques susceptibles d’être considérés originaux est équivalent au nombre de catégories feuilles qui est trop petit dans ODP (l’arbre de catégories d’ODP montre en effet peu de catégories feuilles par rapport au nombre de catégories pères). De cette manière, le cas (CO-II) pourra être utilisé pour des simulations ultérieures visant l’échange d’informations hors le contexte d’une communauté thématique mais nécessitant impérativement de la pertinence dans l’information échangée. De ce fait, pour assigner aux utilisateurs virtuels des informations contenues dans les catégories d’ODP selon (CO-II), il faudra construire leurs taxonomies personnelles selon : Le choix des catégories ODP pour le scénario à simuler. Une fois définies ces catégories, nous les sauvegardons dans un fichier pour les utiliser dans la génération du réseau initial mais aussi pendant les itérations correspondantes à l’évolution du réseau. L’unique catégorie ODP associée à chaque topique virtuel. Pour chaque topique à créer, il faut associer une catégorie ODP. Cependant, si le scénario le spécifie, deux (ou plusieurs) topiques peuvent être associés à une même catégorie. La construction des références dans les topiques se fait grâce à la prise aléatoire d’URIs des catégories correspondantes dans ODP. Si nous devons construire la taxonomie des utilisateurs, alors il faut leur créer des topiques et dans ces topiques, il faudra mettre des références. Pour construire ces références, nous allons prendre 168 La pertinence est vue en termes des topiques ayant de l’information pointant vers liens ayant un contenu similaire. 241 aléatoirement des URLs dans les catégories correspondantes d’ODP. Par prise aléatoire d’URIs nous entendons : Construction d’une liste d’URIs avec liens similaires dans le Web. De cette manière chaque catégorie a une liste élargie d’URIs à partir desquelles nous construisons des références pour les topiques qui ne pointent pas sur la même URI. Validation de références pointant sur des URIs variées. Un scénario peut permettre que deux ou plusieurs topiques pointent vers la même catégorie ODP. Dans ce cas, le système doit assigner des URIs différentes à chacun d’entre eux. 10.1 Structure hiérarchique des catégories ODP Bien qu’au début de la construction du simulateur, l’utilisation d’ODP pour « bootstraper » la base de données des topiques et des références à utiliser a été prévu comme un moyen pour ne pas chercher ailleurs de vrais liens (sur le Web), nous avons constaté que la structure de catégories et de sous-catégories d’ODP (structure hiérarchique) ne reflétait pas le même type de comportement général des utilisateurs pour la création de leurs taxonomies personnelles. En effet, ceci parce que la hiérarchie ODP part des catégories plus générales aux plus spécifiques, un exemple très simple est représenté dans la Figure 4-3 ci-dessous. Structure ODP ≠ Taxonomie des usagers Théorie Objects Objets Programmation Langages Java Pratique C++ Java Outils Outils Figure 10-1. Exemple d’une taxonomie personnelle qui ne suit pas le type de hiérarchie d’ODP. De cette manière, plus on descend dans la hiérarchie ODP, plus spécifiques sont les liens dans leurs sous-catégories. Dans le cas des taxonomies des utilisateurs, rien ne peut garantir que leur structure suivra ce type de spécification descendante. Pour que des structures plus similaires à celles des utilisateurs en général puissent être simulées, nous avons besoin d’« homogénéiser » les liens. Nous détaillons ceci dans la section suivante. 10.2 Homogénéisation de la base de données Pour homogénéiser les liens des taxonomies des utilisateurs, nous complétons la liste de liens de la base de données d’ODP avec des liens similaires trouvés sur le Web, à travers : une fonction d’arrangement dans le code du simulateur, qui choisi aléatoirement des liens dans les sous-catégories d’une catégorie et les met dans la catégorie « père » ; d’autres liens similaires dans le Web : processus d’exploration (crawling) sur le Web. 242 L’« homogénéisation » consiste à construire, à partir d’ODP et du Web, des structures les plus similaires possibles à celles possiblement formées par des utilisateurs pour la gestion de leurs taxonomies personnelles. Liens dans topiques de l’usager Y Classification ODP AB A B C Liens dans topiques de l’usager Z BA Figure 10-2. Les liens (références) des utilisateurs sont complétés avec des liens similaires trouvés dans le Web. Sans cette homogénéisation, la structure d’ODP engendre des problèmes169 du type : quand un topique pointant vers une catégorie ODP feuille (dernières sous-catégories dans la hiérarchie) est créé, il devient très original. quand un topique pointant vers une catégorie ODP père (premières catégories dans la hiérarchie) est créé, il devient très réputé. 169 Ces problèmes se résument à la manque que l’originalité des informations dans les topiques soit bien répartie. 243 244 Annexe VI–11. Détail conceptuel de SoMeONe 11 SoMeONe selon nos évaluations Bien que nous ayons décrit les objectifs du système et des utilisateurs dans le chapitre 3, le système SoMeONe a évolué et plusieurs versions ont été implantées. Nous les détaillons dans cette Annexe afin de mieux comprendre la version qui a été utilisée dans les différentes phases pendant lesquelles le système a été utilisé. L’objectif de l’utilisateur du système est l’obtention de l’information pertinente quand il en a besoin. Par pertinence il faut comprendre l’information qui réponde le mieux à ses besoins informationnels. L’objectif du système est d’obtenir une topologie de qualité, c'est-à-dire, optimale. Il s’agit de permettre un flux d’information efficace vers tous les membres du réseau. Nous avons décidé de faire deux évaluations pour analyser notre système. Cependant, les évaluations ont eu lieu pendant le développement de plusieurs versions du système. « Webothèque » Université de Savoie-FTR&D Simulations UN ADMINISTRATEUR DECIDE EN FONCTION DE CRITERES A OPTIMISER ANALYSE DE L’OUTIL SUR LE CONTROLE DE L’UTILISATEUR ET DE PROFIL ET USAGES Figure 11-1. Différentes versions de SoMeONe Dans la première évaluation, nous avons développé l’algorithme de filtrage collaboratif et nos hypothèses, principes et mécanismes afin d’engendrer une dynamique d’échanges d’information. Les critères évalués sont la motivation, l’engagement et la pertinence de l’information échangée. Nos analyses se trouvent détaillées dans le chapitre 4, section 4.1. D’autres versions ont été développées pour prendre en compte les résultats obtenus de cette première évaluation. L’important ici a été la mise en place d’un service qui : s’est montré intéressant : beaucoup l’utilise en nomadisme (§4.1.4.A) ; a engendré de la motivation à la participation tout en recommandant des contacts pertinents (§4.1.4.B) ; permet la gestion de différents profil d’usages (§4.1.4.C) 245 Des versions intermédiaires entre les deux évaluations prennent en compte les résultats de la première et intègrent : des interfaces plus claires : espaces différenciés, graphismes, marques, instructions détaillées, etc. ; le contrôle absolu de l’utilisateur pour l’obtention d’information au travers de stratégies (§3.6.2.2). Lui seul choisit une stratégie, capable d’orienter la manière dont l’information pertinente peut lui arriver ; de la régulation (§3.1.2) et la possibilité de suivre des tactiques comportementales pour se maintenir dans le réseau (§3.6.3) ; l’utilisation d’indicateurs sociaux (§3.9.2) pour : permettre au système de suivre son objectif ; donner une conscience sociale aux membres du réseau ; en résumé le moyen de suivre une dynamique du réseau social grâce à la recommandation de contacts (dont l’utilisateur décide selon ses stratégies ou des tactiques comportementales) ; Dans la dernière évaluation, nous avons intégré la possibilité d’avoir un administrateur du réseau social qui décide en fonction des critères (§3.6) lequel il veut optimiser. Suivant son choix, le système peut savoir quelle stratégie le recommandeur peut utiliser pour la recommandation de contacts. Un administrateur du réseau social contrôle la topologie du réseau. Selon son état, il décide le critère à optimiser sur le réseau. Ainsi, de manière similaire à l’objectif du système, l’objectif de l’administrateur du réseau est d’influencer un flux d’information efficace vers tous les membres du réseau. Le recommandeur de contacts est toujours influencé par la stratégie d’obtention d’information. L’existence d’un administrateur du réseau social n’implique pas que les utilisateurs n’auront pas le contrôle sur le moyen d’obtenir de l’information. Dans le système réel, le choix de l’administrateur ne doit influencer que la stratégie par défaut. Ainsi, dans les simulations, quand l’administrateur du réseau social choisi un critère à optimiser, les stratégies des utilisateurs (§3.6.2.2) sont les stratégies à appliquer sur le calcul de recommandation de contacts (§4.2.2.1). Les stratégies de l’administrateur du réseau social sont alors celles qui lui permettent d’appliquer un critère à optimiser et que nous avons défini dans la section 4.2.3. 12 Caractère incrémental et non-incrémental de l’algorithme SocialRank Il est à noter que les différentes versions du service ont souffert des tests de performance par rapport à notre algorithme SocialRank. L’exemple le plus important est l’utilisation de notre mesure pour le calcul de contacts réputés (I.1.7.4). En effet, ce calcul est coûteux et dans le cas de nos simulations (scénarios représentant des communautés thématiques), nous avons pu remplacer l’utilisation de la formule (4), section 3.6.1 par celle de la Définition I-13 section I.1.7.3. 246 Annexe VII–12. Algorithmes de recherche sur Internet L'information dans le Web doit pouvoir être identifiée par les sujets qu'elle recouvre, c'est à dire par son type de contenu. Les évolutions technologiques récentes tiennent compte de la structure de graphe formé par les pages Web et les liens hypertextes qui les relient, comme le fait d'ailleurs Kleinberg à travers le modèle HITS (Kleinberg, 1998), ou Page à travers l’algorithme PageRank (Page et al., 1998) ; le premier pour déceler les pages les plus pertinentes vis à vis de la requête d'un usager, et le deuxième, pour mesurer l'importance relative des pages Web, en les classant et en tirant parti de la structure de graphe induite par les hyperliens. Leur méthode a notamment des applications en recherche d'informations, navigation et estimation de trafic. 13 Algorithmes traditionnels recommandation de systèmes de Traditionnellement, les systèmes de recommandation ont aidé les utilisateurs à prendre des décisions dans les espaces complexes d’information, avec par exemple, des suggestions basées sur les documents antérieurement lus par l’utilisateur. Plus tard, les systèmes de filtrage collaboratif ont ajouté la possibilité de qualifier des documents afin de pouvoir assortir des corrélations entre les profils des utilisateurs, les plus similaires. 13.1 Algorithme « coefficient de corrélation » Upendra Shardanand et Pattie Maes (MIT Media-Lab), comment nous expliquons dans la section 2.1.3.6, ont étudié le filtrage d'information basé sur le contenu et le filtrage de l'information sociale qui automatise le "bouche-à-oreille". Ils ont proposé une marque (score) de la pertinence d’un utilisateur pour en obtenir un coefficient de corrélation entre deux profils : S ( x, y ) = C * ∑ Eval ( x, c ) Eval ( y , c ) − ∑ Eval ( x, c )∑ Eval ( y , c ) c∈C c∈C ⎢ ⎞ 2 ⎛ ⎢ C ∑ Eval ( x, c ) −⎜ ∑ Eval ( x, c ) ⎟ ⎝ c∈C ⎠ ⎣⎢ C 2 c∈C 2 ⎥ ⎢ ⎞ ⎥ 2 ⎛ − * C Eval ( y , c ) Eval ( y , c ) ⎜∑ ⎟ ⎥ ⎥ ⎢ ∑ ⎝ c∈C ⎠ ⎦⎥ ⎦⎥ ⎣⎢ C C est l’ensemble des contenus c pour lesquels on connaît Eval(x,c) et Eval(y,c). Également ils proposent la prédiction de l’intérêt d’un contenu avec : ∑ S ( x, y ) * ( Eval ( y, c) − Eval ( y )) I ( c, x ) = Eval ( x ) + ∑ S ( x, y ) y∈U y∈U U est l’ensemble des utilisateurs y pour lesquels on connaît Eval(y,c). 247 Ces idées ont été la base de plusieurs autres algorithmes. La problématique évidente autour de ces deux algorithmes, est qu’on ne peut rien dire des contenus uniquement évalués par des utilisateurs pour lesquels C est vide et que seuls les utilisateurs pour lesquels C est non vide peuvent influencer les recommandations. Également, d’autres projets et systèmes ont étudié la problématique de recommandation. Comment recommander ? Quels types de données exploiter ? Rashid et ses collègues, (Rashid et al., 2002) par exemple, ont testé diverses méthodes et algorithmes. Leurs résultats sont : - La stratégie de présentation des « éléments » (items) est très importante. Le choix de la stratégie de recommandation au bon moment est important. De ces analyses et preuves, ils ont trouvé deux algorithmes efficaces : 1. L’algorithme de popularité. Cet algorithme essai de trouver une juste proportion entre l’exactitude et l’effort de l’utilisateur ; par exemple, si l’utilisateur vient de se connecter au système, il verra d’abord des éléments populaires. Il s’agit d’une tactique du système pour acquérir et pour raffiner le profil de l’utilisateur, pendant qu’il navigue entre ces choix. Pourtant, l’effort de l’utilisateur est minimum parce que le système lui demande peu d’informations et lui donne la plus reconnue. Par contre, la problématique de cet algorithme est évidente, il ne recommandera que les éléments les plus populaires, ce qui n’est pas approprié. 2. L’algorithme d’item-to-item. Cet algorithme est basé selon des similarités entre les éléments, c’est-à-dire, il trouvera des éléments similaires à ceux que l’utilisateur aime généralement ; c’est un algorithme qui sacrifie la précision de recommandations du système par moins effort demandé à l’utilisateur. La stratégie dépende de divers facteurs qu’il faudra également prendre en compte, par exemples les facteurs sociaux couverts par le type de système de recommandation ; par exemple, si le système recommande des films (activité que normalement les personnes font souvent avec leurs connaissances), alors l’utilisateur sera plus tenté à qualifier des éléments (des films). 13.2 Mesure de cosinus George Karypis (Karypis, 2000), a proposé des algorithmes pour la recommandation basée sur « item-to-item ». Il essaie d’obtenir les N éléments plus proches des intérêts des utilisateurs. Il propose deux algorithmes performants pour calculer les relations entre les éléments. Le problème critique se trouve au moment de choisir la méthode pour trouver la similarité entre des éléments. Alors, Karypis propose une méthode basée sur le cosinus. Soit R une matrice nxm des items “achetés”, n clients, m items : Nous pouvons voir que la similarité entre deux éléments sera haute si chaque utilisateur qui achète un des éléments, achète aussi l'autre élément. En outre, une fonction importante de la similarité à base de cosinus est qu'elle tient compte de la fréquence d'achat 248 des différents éléments (réalisé par le dénominateur). En conséquence, les éléments fréquemment achetés auront tendance à être semblables à d'autres éléments fréquemment achetés et pas aux éléments achetés peu fréquemment et réciproquement. 13.3 Théorie probabiliste Une manière alternative de calculer la similitude entre chaque paire de points v et u est d'employer une mesure. Cette mesure est basée sur la probabilité conditionnelle d'acheter un des articles étant donné que les autres articles ont été déjà achetés. En particulier, la probabilité conditionnelle d'acheter u si v a été déjà acheté P(u|v), est le nombre de clients qui achètent v et u divisé par le nombre de clients qui ont acheté u : Freq(uv) P (u | v) = Freq(v) Freq(X) est le nombre de clients qui ont acheté les articles dans l'ensemble X. Notez qu'en général P(u|v) = P(v|u). Une des limitations d'employer des probabilités conditionnelles comme mesure de similitude, est que chaque point v, aura des probabilités conditionnelles élevées aux articles qui sont achetés fréquemment. C'est-à-dire, P(u|v) est haut parce que u se produit très fréquemment et pas parce que v et u tendent à se produire ensemble. Des autres limitations se peuvent trouver. Karypis a évolue sa formule en normalisant chaque sim(v | u ) = ∑ r ∀i:ri ,v i ,u Freq (v) × ( Freq (u ))α ligne de la matrice R pour être d'unité de longueur, et définit la similitude entre les points v et u comme : Où α est un paramètre qui prend entre une valeur 0 et 1. Puisque les lignes sont normalisées pour être d'unité de longueur, les clients qui ont acheté plus d'articles tendront à contribuer moins à la similitude globale; ainsi, soulignant l'importance des décisions d'achat des clients qui ont acheté peu d'articles. 13.4 Limites des approches En général, avec ces exemples, on trouve que traditionnellement les algorithmes d'IR (Information Retrieval) ont des limitations soit sur le nombre de personnes ou de notations, soit sur la demande d’effort des utilisateurs. Également, ces algorithmes de rang peuvent être facilement « trompés170 ». Les administrateurs de sites Web peuvent faire leurs sites fortement classés par l'insertion de quelques mots sans rapport mais populaires. Par exemple "Clinton", "le sexe", placées stratégiquement (par exemple dans le titre de la page ou comme metadonnées). Ce phénomène est appelé la Persuasion de Moteur de recherche (SEP) ou le Publipostage excessif du Web. On peut dire que sur des grandes bases de contenus ( le WWW ), par exemple dans un système où il faut évaluer du contenu, - les intersections entre contenus évalués risquent d’être souvent vides, seulement l’avis de peu d’utilisateurs pourrait être pris en compte, 170 Souffrir des sabotages. 249 - - les intersections de profils se font surtout sur les contenus les plus populaires, les contenus évalués par des utilisateurs ayant évalués peu de contenus populaires seront rarement proposés, si les recommandations sont la seule source d’information, l’utilisateur ne fera que renforcer sa dépendance envers les utilisateurs qui apprécient les contenus recommandés, l’utilisateur n’aura pas le moyen d’exprimer qu’il apprécie autre chose. Des recherches récentes dans ce secteur se concentrent sur l'extraction de la structure des liens des ressources du Web (Brin & Page, 1998), (Chakrabarti et al., 1998). L’algorithme de ce type le plus connu est PageRank (Ridings, 2001-url), qui a été proposé par l'Université de Stanford et a été appliqué dans le célèbre moteur de recherche Google (http: // www.google.com/). 14 HITS Selon (Kleinberg, 1998), la structure d'un réseau dans un environnement maillé par des hyperliens peut être une source enrichissante d'informations sur le contenu de ce même environnement à condition que nous disposions de moyens efficaces de la percevoir. Dans cette étude, l'auteur développe un ensemble d'outils algorithmiques dédiés à l'extraction d'informations grâce aux structures de graphe induites par ces hyperliens. En particulier, il se focalise sur l'utilisation des liens pour analyser une collection de pages pertinentes à un sujet donné et découvrir ainsi les pages qui font le plus autorité pour un tel sujet. - Hypothèses: Une page p, par l'inclusion d'un lien vers une page q, adjuge autorité sur q. Comment utiliser l'information de liens dans la réponse à une large requête de topique ? D'abord, il faut obtenir les pages qui sont appropriées et autorisées et puis regarder l'information de liens dans un sous-graphique "approprié" du Web. Le sous-graphe approprié d'une requête: o Prendre S comme les plus importantes pages k (disons 200) classées par AltaVista. o Pousser S vers T. o T = S ∪ {p | ∃ liens de p vers une page dans S} ∪ {q | ∃ lien de une page dans S vers q} (1) o Considérer le sous-graphe induit par T. Ce c'est la "sous-graphe approprie''. Retourner les pages avec le plus grand nombre de "in-links" (liens entrants) n'est pas satisfaisant. Ce n'est pas seulement le grand grade entrant d'une page p qui est important, mais aussi la qualité de pages que pointent vers p. Si des pages plus importantes pointent vers p, signifie que p est plus autoritaire. L'idée clé : Des bonnes pages "hubs'' ont liens vers des bonnes pages "autorités''. Soit G = (V, E) le sous-graphe "appropriée" induit par T. Soit V = {p1, p2, …, pn} les n pages dans V. Associer une autorité non-négative de poids ap et 250 un hub non-négative de poids hp avec chaque page p ∈ V. Normaliser les poids de façon que: ∑a p∈V 2 p = 1 et ∑h p∈V 2 p =1 (2) Algorithme (Kleinberg, 1998) : 1. Initialiser: hp = 1, ap = 1 ∀ page p ∈ V. 2. Itérer pour i = 1, 2, 3, … − Mise à jour de poids d'autorités en utilisant poids de hubs ap ← ∑h q q:( q , p )∈E , ∀ p ∈ V. (3) − Mise à jour de poids de hubs en utilisant poids d'autorités hp ← ∑a q:( PA)∈E q , ∀ p ∈ V. (4) − Normaliser une p et hp tel que (2) se maintien. Est-ce que les poids d'autorité et de hub convergent autant que la compte itérative augmente ? Considérer la matrice d'adjacence A du graphe G. A est nxn et Aij = 1 si (pi, pj ) ∈ E est un arc dans G, et 0 autrement. En termes de A, (3) et (4) deviennent : a ← A T h et h ← Aa , (5) où h = le vecteur hub de poids et a = le vecteur autorité de poids, tout le deux de taille n x 1. Les mises à jours itératives mènent vers le suivant : a (1) = A T h (0) h (1) = A a (1) (6) ⇒ h(1) = A A T h(0) ⇒ h(k) = (AAT ) k h (0). Ici h(k) dénote le vecteur hub en l' itération kth. En conséquence, − h(k) est un vecteur d'unité dans la direction de (AAT)k h (0) , et − a(k) est un vecteur d'unité dans la direction de (ATA)k-1ATh(0) Sous conditions légères : − h(k) converge vers le vecteur gauche singulier principal de A, et − a(k) converge vers le vecteur gauche singulier principal de A. - Requêtes de pages qui se ressemblent. Quelles pages sont semblables à p ? Si p est une bonne autorité sur certain topique, en prenant T comme les (200) pages que pointent vers p, il faut trouver alors des autorités et les prendre comme des pages semblables. - Désavantages: 1. Les liens à l'intérieur du même nom de domaine. 2. Il peut y avoir beaucoup de sites dans un nom de domaine que contient beaucoup de liens à une page particulière. 251 3. Les liens peuvent être automatiquement engendrés et toujours ne confèrent pas l'autorité sur une page. 4. Il peut recevoir des pages non-pertinentes grâce à "la dérive du topique" ou "la dilution du topique''. - Solutions : 1. Éliminer liens à l'intérieur du même nom de domaine. 2. Normaliser chaque lien pour avoir le poids 1/k, où k est le numéro total de liens du même nom de domaine. 3. Faites l'analyse de contenu en regardant le texte de la page pour assurer que la page est appropriée. 4. Enlevez des pages sans rapport et pénalisez les pages qui sont moins appropriées. Cet échantillon d'algorithme considère seulement une petite partie du graphe du Web, l'addition de quelques arcs peut potentiellement changer en grand nombre les résultats, ainsi plus facile de manipuler résultats. Également, si le graphique de voisinage contient plus de pages sur un sujet différent de la requête, donc l'autorité supérieure et les pages hub sont sur un sujet différent. Appelé dérive de sujet. Pourtant, il est recommandable, mettre des poids sur des arcs pour refléter l'importance de liaisons, par exemple, en mettant un poids plus haut si l'ancre du texte associé à la liaison est appropriée pour faire une requête; normaliser des poids sortants d'une source simple ou entrants vers un bassin simple, cela soulage le publipostage excessif de résultats de la requête; éliminer des arcs du le même domaine. 14.1.1 Commentaires En particulier, nous constatons que les moteurs de recherche actuels : - Ils indexent typiquement une portion mesurable du Web. - Ils répondent en l'ordre de quelques secondes. D’une part, l’indexation de portions du Web élimine les pages récemment introduites, alors qu’elles pourraient avoir de contenu hautement valable. D’autre parte, le temps de réponse rapide élimine la possibilité d’analyse profond de réponses. On pourrait se demander, dans ce cas, s'il n’est pas plus utile de temps réponse plus grands au profit d'une meilleure pertinence des pages proposées. Malheureusement, il est encore difficile pour eux, de savoir comment trouver un juste équilibre entre la quantité mis à jour toujours, le temps de réponse et la qualité. Autrement dit, on est en manque d'un paradigme qui puisse être concrètement défini et correspondant à une notion humaine de qualité. 15 PageRank Lancé en 1998, le moteur de recherche Google, classe les pages grâce à la combinaison de plusieurs facteurs dont le principal porte le nom de PageRank (Page et al., 1998). Les pages Web sont stockées dans un entrepôt de données. Ensuite les hyperliens sont stockées séparément pour former un sous graphe du Web. Le classement des pages est fait en utilisant un indice numérique : le «rang, calculé pour chaque page. Le sous graphe du Web, est alors utilisé pour le calcul des rangs de page. Le rang d'une page permettra en particulier d'ordonner les résultats d'une requête d'un usager. Dans (Page et al., 1998), les auteurs proposent un modèle de conservation du rang dans son calcul : l'algorithme PageRank. Il sert à mesurer l’importance relative d’une page Web (Ridings, 2001-url), que l'on appelle souvent la popularité, de la manière suivante : 252 - Trouver les pages qui ont une relation avec les mots-clés de la recherche. Trier les pages selon les facteurs trouvés dans les pages (i.e. mots-clés). Calculer liens entrants de pointeurs du texte Ajuster les résultats selon les scores PageRank. Soient T1, T2, ..., Tn : n pages pointant vers une page B. Notons PR(Tk) le PageRank de la page Tk, N(Tk) le nombre de liens sortants présents sur la page Tk, et d un facteur compris entre 0 et 1, fixé dans ce cas, à 0,85, PR(T1) est le PageRank d’une page pointant vers la page A, C(T1) le nombre de liens sortants de cette page et PR(Tn)/C(Tn) signifie qu’on fait cette opération pour chaque page dirigée vers la page A. Alors le PageRank de la page A se calcule à partir du PageRank de toutes les pages Tk de la manière suivante : PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Cette formule est la plus simple, expliqué sur Internet. Elle ne dépend que de quelques termes, mais elle est récursive : pour calculer le PageRank d'une page, il faut avoir calculé celui de toutes les pages pointant vers elle. Soit, “le PageRank donné à une page A par une page B à travers d’un lien dirigé vers elle, est diminué par chaque lien dirigé à une autre place qui existes dans la page B.C’est-àdire, le PageRank d’une page est simplement une mesure de son vote; il peut diviser son vote entre un lien ou deux liens ou plusieurs, mais la totalité de son vote sera toujours la même” (Ridings, 2001-url). Deux idées supplémentaires mais essentielles viennent la compléter : - l'augmentation de PageRank de la page A est d'autant plus importante que le PageRank de la page T est élevé. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la page d'accueil de Google que depuis une page du site de votre petit cousin. - l'augmentation de PageRank de la page A est d'autant plus importante que la page T fait peu de liens. En d'autres termes, si la page T juge qu'il n'y a qu'une page qui mérite un lien, alors il est normal que le PageRank de la page A augmente plus que dans le cas où de nombreuses pages obtiendraient un lien. Si on suppose, l’exemple suivant : 253 Le PageRank d'une page A ne dépend que de trois facteurs : - le nombre de pages Tk faisant un lien vers A, le PageRank de chaque page Tk, le nombre de liens sortants de chaque page Tk Il ne dépend donc pas des éléments suivants : - le trafic des sites faisant un lien vers A le nombre de clics sur les liens vers A dans les pages Tk le nombre de clics sur les liens vers A dans les pages de résultats sur Google. 15.1 Formellement L’idée implicite de PageRank: si une page u a un lien à une page v, alors l’auteur de u donne de façon implicite, certaine importance à la page v. Cependant, combien d’importance? Formellement, on peut dire que Nu est le nombre de pages sortant de la page u, et Rank(v) le PageRank (importance) de la page v, alors le lien (u,v) donne Rank(u)/ Nu à v , et on calcule le vecteur d’importances de Rank* sur toutes les pages du Web. Si N est le nombre de pages, on donne la valeur initiale 1/N. Bv représente l’ensemble de pages dirigées à v. Pour chaque itération, on fait la propagation de « importances » de la manière suivante (Haveliwala, 1999) : ∀v Ranki +1 (v) = ∑ Rank (u ) / N u∈Bv i u Pour chaque u ∈ Bv, le lien (u,v), garanties que Nu >1, à la fin, on obtient un vecteur Rank* qui contienne le vecteur PageRank sur tout le Web. L’algorithme PageRank peut être pensé, comme une distribution de probabilité sur toutes les pages, et induit par une « promenade aléatoire » (random walk) dans le Web. 254 15.1.1 Modèle fonctionnel Le modèle fonctionnel est intéressant. Soit G = (S,U) le graphe orienté formé par les pages Web : S et les liens hypertexte qui les relient : U. G est obtenu par une succession de parcours du Web. Le rang d'une page v respecte la loi de conservation suivante : ⎡ ⎛ ⎤ Rank (u ) ⎞ ⎟ + (1 − d ) × E (v)⎥ Rank (v) = c ⎢d × ⎜⎜ ∑ ⎟ ⎣⎢ ⎝ u / u pointe sur v d + (u ) ⎠ ⎦⎥ où d est un facteur d'amortissement choisi dans [0, 1], d + (u) le degré externe de u et c une constante de re-normalisation permettant de garantir que ∑∀v∈S Rank (v) = 1 . De plus, on suppose que : ∀v ∈ S , R(v) > 0, E (v) > 0 et ∑∀v∈S E(v) = 1 . E représente donc une loi de distribution sur l'ensemble des pages de S. Généralement, E est une loi de distribution uniforme : ∀v ∈ S , E (v) = 1 où n=|S|.Mais il a été proposé que cette n distribution puisse être «personnalisée» (Brin et al., 1998). Cependant, pourquoi le choix d'un tel modèle ? En fait, il cache une idée intuitive de propagation de rang assez intéressante. Ainsi, une page reçoit un rang élevé si la somme des rangs des pages pointant sur elle est élevée. 0.02 vers E a _ × c 0.09 0.2 0.03 _ × 0.19 0.09 0.01 b 0.3 _ × d 0.09 _ × 0.1 0.09 0.09 0.01 n=10 d=0.9 1-d=0.1 Figure 15-1. Une propagation de rang d'une paire de pages à l'autre. De la figure, on y suppose d = 0,9 et n = 10. En observant la page a sur cette figure, nous remarquons que : (i) d =90 % de son rang (soit 0,18) est redistribué équitablement sur ses liens sortants (soit 0,18/2 = 0,09) affectant ainsi le rang des pages pointés par a. (ii)1-d =10 % de son rang (soit 0,02) est dissipée au profit d'une répartition globale sur l'ensemble du graphe contribuant ainsi à alimenter chaque page d'un rang égal à (1-d)/n = 0,1/10 = 0,01. Nous pouvons vérifier par exemple que le rang de la page c est bien 0,19 : Rank (c) = d × Rank (b) 1 − d 0,3 0,1 Rank (a) 0,2 +d× + + = 0,9 × + 0,9 × + = 0,19 + d (b) n 3 10 d (a ) 2 15.1.2 L’algorithme L’algorithme de (Page et al., 1998) est basée sur une récurrence Rankn +1 = At Rankn . Remarquons que le facteur µ augmente la stabilité numérique de l'algorithme en forçant la condition Rank n +1 1 = 1 . Une normalisation alternative et plus robuste, consisterait à multiplier Rank n +1 par un facteur approprié. Alors, l'utilisation de µ peut avoir un léger impact sur l'influence de E. Les auteurs n'apportent aucune preuve de la convergence de cet algorithme. Il est listé cidesous : - Données : une matrice sous stochastique A d'un sous graphe du Web G = (S,U) 255 - un vecteur E positif tel que ||E||1 = 1 un réel e Résultat : le vecteur propre dominant R de la matrice At début R0 = E; répéter Rn+1 = At Rn ; µ = ||Rn ||1 - ||Rn+1||1 ; Rn+1 = Rn+1 +µE; d = ||Rn+1 - Rn ||1 ; jusqu'à δ < ε; fin Les résultats empiriques rapportés dans (Page et al., 1998) indiquent une convergence rapide de l'algorithme en pratique : en quelques dizaines d'itérations, une approximation raisonnable de R est atteinte sur un graphe de 322 millions de liens. Les auteurs suggèrent que l'explication pourrait provenir d'une propriété d'expansion du graphe du Web, et font référence à (Motwani et Raghavan, 1995). En effet, pour un graphe expansif, on sait donner une borne supérieure pour les valeurs propres de At différentes de la valeur propre principale. En fait, ces résultats s'appliquent à des graphes non orientés de degré constant, donc pas directement au problème des pages du Web. Néanmoins, il est certain que les relations entre la topologie du graphe et la vitesse de convergence de l'algorithme sont à exploiter. D’ailleurs, (Kleinberg, 1998), considère un graphe orienté G = (S,U) de matrice d'adjacence M. La probabilité d'une transition de la page i vers la page j dans [Brin et Page, 1998] peut être perçue, (selon Kleinberg) comme égale à B = d M + 1 − d . Soit la matrice B, la ij d + (i ) ij n matrice dont les entrées sont les B i j . Le vecteur rang R est alors une solution non nulle et positive de l'équation Bt R = R, et par conséquent il correspond au vecteur propre dominant de la matrice Bt. Ce modèle est repris dans (Haveliwala, 1999). Selon cet auteur, l'introduction du paramètre d'amortissement est destinée à améliorer la «qualité» du PageRank en garantissant la convergence vers un unique vecteur rang. La matrice A est explicitement supposée stochastique en éliminant itérativement les pages sans liens. 15.2 Le promeneur aléatoire Il existe une autre façon d'interpréter le PageRank, basée sur la modélisation du surf aléatoire d'un internaute sur le Web. Imaginons qu'un internaute se promène en parcourant des pages, passant de l'une à l'autre en cliquant au hasard sur un lien. Il se peut qu'il se retrouve bloqué dans un groupe de pages liées entre elles mais fermées sur le reste du Web. Dans ce cas il saute aléatoirement sur une autre page. Ce brusque changement peut aussi provenir directement du promeneur qui s'est lassé des pages qu'il visitait ou, qui n'a pas trouvé ce qu'il cherchait. Le PageRank d'une page peut alors être vu comme la probabilité qu'à un instant donné ce surfeur soit précisément sur cette page. 256 Alors, l’idée du comportement aléatoire d'un internaute permet interpréter l'introduction du vecteur E dans le modèle de rang. En effet, pour échapper aux circuits sans issue, il est nécessaire «de temps en temps» de sauter aléatoirement vers une page quelconque du Web. Cependant, les auteurs n'exploitent pas plus loin cette interprétation. 15.3 Les liens pendants Les liens pendants dans PageRank, sont des iens qui pointent sur des pages sans liens sortants. Ils affectent le modèle en ce sens qu'il n'est pas clair que leur poids soit redistribué et il en existe un très grand nombre. Très souvent, ces liens pendants sont de simples pages qui n'ont pas encore été téléchargées, puisqu'il est difficile d'échantillonner le Web dans sa totalité (les auteurs disposaient de 24 millions de pages téléchargées, ils leur restaient 51 millions d'urls 4 à télécharger qui correspondent en fait à ces liens pendants). Puisque les liens pendants n'affectent en aucune manière le classement des autres pages directement, ils les détruisent du système jusqu'à ce que tous les rangs de pages aient été calculés. Après que tous les rangs de pages aient été déterminés, ils peuvent être réinsérés sans affecter le reste du graphe. Une normalisation supplémentaire des liens devrai être faite localement ! 15.4 Propriétés de convergence Comme nous avons dit, PageRank converge vers une solution sur un graphe de 322 millions de liens contenus dans la base en environ 52 itérations. La convergence de la moitié des données prend environ 45 itérations. Le graphe du Web constitue la preuve vivante que cette méthode s'ajuste très bien même avec des collections de grande taille où le facteur d'échelle est grosso modo linéaire en log n. S Y V+(Y) Figure 15-2. Un graphe α-expansioniste. Une des raisons pour laquelle ce calcul converge rapidement (Page et al., 1998), tient au fait que le Web est un graphe expansionniste (Motwani et Raghavan, 1995). Une promenade aléatoire dans un graphe est un processus stochastique où à chaque instant nous nous situons sur un nœud particulier du graphe et nous choisissons un lien sortant uniformément au hasard pour déterminer le nœud à visiter au temps suivant. Un graphe G = (S,U) est dit -expansionniste si et seulement si ∀Y ⊆ S V + (Y ) Y ≥ α (voir Figure 15-2). Où α est le facteur d'expansion. Un graphe a un bon facteur d'expansion si et seulement si la plus grande valeur propre est beaucoup plus grande que la seconde valeur propre. On qualifie une promenade aléatoire sur un graphe de rapidement couplée si elle converge rapidement (temps logarithmique en la taille du graphe) vers une distribution limite d'une promenade aléatoire du graphe du Web. 257 15.4.1 Modèle matriciel Si le calcul itératif converge alors, selon la loi de conservation : la quantité de rang entrante est égale à la quantité de rang sortante - rien ne se perd ni se crée. On définit la matrice stochastique A du graphe du Web : A[u, v] = 1/Nu s'il existe un lien de u vers v = 0 sinon Soit R le vecteur rang associé à l'ensemble des pages Web, on peut affirmer que R = c A R. R est alors un vecteur propre associé à la valeur propre c. Selon les auteurs, il ne faut s'intéresser qu'au vecteur propre dominant de A. Hélas, ce calcul itératif ne fonctionne pas dans le cas général. Considérons par exemple le cas de deux pages qui pointerait seulement l'une sur l'autre. Et supposons maintenant l'existence d'une troisième qui redistribuerait un rang strictement positif sur la première par exemple. Alors, à chaque itération, cette boucle accumulerait du rang mais ne pourrait en aucun cas le redistribuer puisqu'il n'existe aucun lien sortant. Cette boucle forme donc une sorte de trappe que les auteurs appellent un puits de rang : rd ra rb rc Pour que le calcul itératif converge, il faut et il suffit que : ra=rc+rd rb=ra rc=rb On voit que tout dépend de la valeur de r d . Deux cas peuvent se présenter : 1. soit r D = 0 : D'où nous en déduisons que r a = r b = r c 2. soit r D ≠0 : Et dans ce cas pour que le système converge, il faut admettre ∞ comme solution. Pour résoudre ce problème de puits de rang, les auteurs introduisent la notion opposée de source de rang. Alors, dans un fonction de rang pondéré généralisée, soit E un vecteur associant à chaque page Web un rang initial correspondant à la probabilité de zapper sur cette page. Dans ces conditions, on peut alors définir la fonction de rang R' définie par l'équation suivante : ⎛ ⎞ R' (u ) + E (v) ⎟⎟ R' (v) = c⎜⎜ ∑ ⎝ u∈Bv N u ⎠ avec c maximal et ||R’||=1. Il s’ensuit que obtient : ∑ i =n ' i =1 i r = 1. ∑ i =n r' = 1 i =1 i comme ∀i ∈ {1,2,..., n − 1, n}ri' ≥ 0 . On Les auteurs en déduisent ensuite que R’=c(A+E×1)R’ où 1 désigne le vecteur ligne ne contenant que des 1. En effet, comme ∑ i =n ' i =1 i r = 1 obtient alors : 1 × R’ = I 1 . Il en découle que : E = E ×1×R’ et par conséquent R' est bien un vecteur propre de la matrice (A +E × 1). Ceci, évoque des souvenirs intuitifs sur les parcours aléatoires de graphe, soit à une distribution probabiliste d'une marche aléatoire du graphe du Web. Intuitivement, elle simule donc le comportement d'un internaute surfant sur le Web. 258 15.4.2 L’algorithme Voici une version de leur algorithme qui, au bout d'un certain nombre d'itérations, converge vers la solution du système. Cette solution produit un ordre partiel sur toutes les pages puisqu'elle permet associer à chacune d'elle une importance relative : Données : - la matrice d'adjacence A du graphe du Web - le vecteur E - un réel ε Résultat : Le vecteur rang R associé à l'ensemble des pages du Web début Soit un vecteur S = E; R 0 = S; répéter R i+1 = AR i ; d = ||R i ||1 ||R i+1 ||1 ; R i+1 = R i+1 + dE; δ = ||R i+1 - R i || 1 ; jusqu'à δ < ε; fin Remarquons que le facteur d augmente le taux de convergence et maintient ||R||1 . Une normalisation alternative consisterait à multiplier R par un facteur approprié. L'utilisation de d peut avoir un léger impact sur l'influence de E. La présence de la ligne R i+1 = R i+1 + dE peut paraître intrigante dans la mesure où selon ses auteurs elle vise à maintenir une norme constante. En fait, elle est nécessaire en ce sens que chaque multiplication matricielle A R i induit un certain nombre de divisions lié à la stochasticité de la matrice A. Elle maintient donc la norme ||R||1 exacte à la précision machine prés. 259 260 16 Bibliographie 16.1 Référencée (Adamic, 2000-url) Adamic Lada A., Zipf, Power-laws, and Pareto - a ranking tutorial, http://www.hpl.hp.com/shl/papers/ranking/, 2000. (Adamic et al., 2001) L. Adamic, R. Lukose, A. Puniyani, and B. Huberman. Search in power law networks. Physical Review E, vol. 64, 046135, 2001. (Adams,1965) Adams, S. “Status congruency as a variable in small group performance, Social forces”, 32, p. 16-22. (Adar et Huberman, 2000) E. Adar and B. Huberman. “Free riding on gnutella”. Technical report, Xerox PARC, 2000. (Adar et al., 1999) Adar E., Karger D., et Stein L., Haystack: Per-user information environments. In Proceedings of the 1999 Conference on Information and Knowledge Management, CIKM, 1999. http://www.hpl.hp.com/shl/people/eytan/p413-adar.pdf (Agosto et al., 2003) Agosto L., Plu M., Vignollet L., Bellec P., SOMEONE: A cooperative system for personalized information exchange, dans le livre « Enterprise Information Systems V », édité par Olivier Camp, ESEO, Angers, France - Joaquim B.L. Filipe Escola Superior de Tecnologia de Setúbal, Portugal - Slimane Hammoudi, ESEO, Angers, France - Mario G. Piattini, Universidad de Castilla-La Mancha, Ciudad Real, Spain, Eds Kluwer. (Aguzzoli et al., 2001) Aguzzoli, S. Avesani, P. Massa, P. “Compositional Recommender Systems Using Case-Based Reasoning Approach”, 2001 ACM SIGIR Workshop on Recommender Systems, 2001, Radisson Hotel New Orleans, LA – USA (Andrews 2000-url) Andrews Paul, Bookmarking service offers new way of personalizing the Web, http://seattletimes.nwsource.com/news/technology/html98/paul_20000102.html, 2000. (Angot et Josserand, 1999) Angot J. et Josserand E. 1999, “Analyse des réseaux sociaux”, in Thiétart R-A. et coll., Méthodes de recherche en managent, Chapitre 14, Collection Gestion Sup., Paris : Dunond, pp.397-421. (Ardichvili et al., 2002) Ardichvili A., Page V. et Wentling T. 2002 Motivation and barriers to participation in Virtuel Knowledge Sharing Communities of Practice. Journal of Knowledge Management, 19 March 2003, vol. 7, iss.1, pp. 64-77(14). (Armstrong et al. 1995) Armstrong R., Freitag D., Joachims T., et Mitchell T., WebWatcher: A learning apprentice for the World Wide Web. In Proceedings of AAAI Spring Symposium on Information Gathering from Heterogeneous Distributed Environments, March 1995. http://www2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-6/web-agent/www/webagent-plus/webagent-plus.html (Baranger-url) M. Baranger, Chaos, Complexity, and Entropy: a Physics Talk for Non-Physicists http://www.necsi.org/projects/baranger/cce.html (Bardini, 1996). Bardini, Thierry, Changement et réseaux socio-techniques : de l’ inscription à l’ affordance, in : Reseaux, n. 76, CNET, 1996. 261 (Barnes, 1954) Barnes J. A. "Class and Committees in a norwegian Island Parish", Human Relations, 7, pp. 39-58. (Bar-Yan, 1997) Y. Bar-Yam, Dynamics of Complex Systems. Addison-Wesley, Reading Mass, 1997. Beaver et Rosen, 1978) Beaver, D. et Rosen, R., Studies in scientific collaboration. Part 1 the professional origins of scientific authorship, Scientometrics, 1, 65-84, 1978. (Berners-Lee et al. 1996) 2001Berners-Lee Berners-Lee, T., Fielding, R., and H. Frystyk, 1996. Hypertext Transfer Protocol HTTP/1.0., RFC 1945 MIT/LCS, UC Irvine, May. (Boltanski et Thévenot, 1987) Boltanski L. et Thévenot L., 1987, “Les économies de la grandeur”, Cahiers du Centre d’études de l’Emploi, n°31, Paris : PUF. (Bourdieu, 1986) Bourdieu, P.,1986. The forms of capital. In J. Richardson (Ed.), Handbook of theory and research for the sociology of education (pp. 241-258). New York: Greenwood. (Borgatti, 1998-url) Borgatti Steve, http://www.analytictech.com 1998 Social Network Analysis, Instructional Web Site, (Bricklin, 2001) Dan Bricklin. The Cornucopia of the Commons: How to get volunteer labor. http://bricklin.com/cornucopia.htm, 2001. (Brin et Page, 1998) Brin S. and Page L, 1998, The anatomy of a large-scale hypertextual (Web) search engine. In The Seventh International World Wide Web Conference. (Broadbent et Weil, 1997) Broadbent, M., Weil, P. Management by maxim: how business and IT managers can create IT infrastructures. Sloan management review, 38(3), p.77-92. (Budzik et al. 1998) Budzik J., Hammond K.J., Marlow C., et Scheinkman A., Anticipating information needs: Everyday applications as interfaces to Internet information servers. In Proceedings of the 1998 World Conference of the WWW, Internet and Intranet, Orlando, Florida, 1998. AACE Press. (Budzik et al. 2000) Budzik Jay, Hammond Kristian J., Birnbaum Larry, et Krema Marko., Beyond similarity. In Proceedings of the 2000 Workshop on Artificial Intelligence and Web Search. AAAI Press, 2000. (Budzik et Hammond, 2000) Budzik J. et Hammond, K.J., User interactions with everyday applications as context for just-in-time information access. In Proceedings of the 2000 International Conference on Intelligent User Interfaces, New Orleans, Louisiana, ACM Press, 2000. http://dent.infolab.nwu.edu/infolab/downloads/papers/paper10080.pdf (Burt, 1982) Burt Ronald S. Toward a Structural Theory of Action. Networks Models of Social Structure, Perception and Action, New York, Academic Press. (Canny, 2002) J. Canny. Collaborative Filtering with privacy. In IEEE Conference on Security and Privacy, Oakland, CA, USA, May 2002. (Chakrabarti et al., 1998) S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan, D. Gibson and J. Kleinberg. Automatic resource compilation by analyzing hyperlink structure and associated text. Proc. 7th International World Wide Web Conference, http://decweb.ethz.ch/WWW7/1898/com1898.htm, 1998. (Clement, 1990) Clement, A. Cooperative Support for Computer Work: A Social Perspective on the Empowering of End Users, Proc. of CSCW 90, ACM Press, pp.223-236. (Cohen, 1998) Cohen, D., Towards a knowledge context : report on the first annual U.C. Berkeley forum of knowledge and the firm. California Management Review, 40(3), p.22-39, 1998. (Collot, 1993) Collot, B. De l'importance des médias électroniques dans l'existence de systèmes éducatifs vivants: les réseaux. in Derrien, C., bedecarrats, O. & Morne, J.J. (Eds.). Ecoles en réseaux. Télématique et pédagogie Freinet, p 65-78. (Constant et al. 1994) ConstantD., Kiesler, S., et Sproull, L., What’s mine is ours, or is it ? Information Systems Reseach, 5(4), 400-422, 1994. http://www.itsdocs.fhwa.dot.gov/jpodocs/repts_te/8v201!.pdf (Cook et al., 1983) Cook Karen , Richard M. Emerson et May R. Gillmore, 1983 “The Distribution of Power in Exchange Networks : Theory and Experimental Results”, American Journal of Sociology 89:275-305. (Cronin, 1995) Cronin B., The scholar’s courtesy: the role of acknowledgement in the primary communication process. London : Taylor Graham. 262 (Delgado et al. 2001) Delgado Joaquin, Ishii Nahoiro et Ura Tomoki, Content-based collaborative filtering : Actively learning to classify and recommended documents, 2001. http://wwwishii.ics.nitech.ac.jp/~jdelgado/raap-final.pdf (Denoue et Vignollet, 2000) Denoue L. et Vignollet L., L'importance des annotations : application à la classification des documents du web, Document Numérique, numéro spécial « L'indexation », Volume 4, n°1-2, pp. 37-57, 2000. (Desalles, 2001) Desalles J.L. L’origine politique du langage, La Recherche, 341, 31-35, 2001. (Dixon 2000) Dixon N.M., Common Knowledge: How companies thrive by sharing what they know, Boston Harvard Business Scholl Press, 2000. (Dyer et Nobeoka, 2000) Dyer, J. H., & Nobeoka, K. (2000). Creating and managing a high-performance knowledgesharing network: the Toyota case. Strategic Management Journal, 21(3), 345-367. (Eveland et al., 1994) Eveland, D. J., Brown, W. & Mattocks, J. The Role of "Help Networks" in Facilitating Use of CSCW Tools, Proc. of CSCW 94, ACM Press, pp.265-274. (Flake et al. 2000) Gary Flake, Steve Lawrence, and C. Lee Giles., Efficient identification of web communities. In Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 150–160, Boston, MA, August 20–23 2000. http://www.neci.nec.com/~lawrence/papers/webkdd00/web-kdd00.pdf (Forsé, 2002) Forsé Michel, "Les réseaux sociaux chez Simmel : les fondements d'un modèle individualiste et structural", in Deroche-Gurcel Lyliane et Watier Patrick (dir.), La sociologie de Georg Simmel, Paris, Presses Universitaires de France, pp.63-107 (Freeman, 1979) Freeman L.C. “Centrality in social networks: conceptual clarification”, Social Networks, 1:215-239, 1979. (Garton et al., 1997) Garton, L., Haythornthwaite, C., & Wellman, B. (1997). Studying online social networks. Journal of Computer-Mediated Communication, 3(1). Available online at: http://207.201.161.120/jcmc/vol3/issue1/garton.html (Gensollen, 2003-url) Gensollen M. 2003 “Biens Informationnels et communautés mediates”, http://www.enssib.fr/gdr/pdf/ecoles/sept2003/01-01gensollen.pdf, mai 2003. (Ghosh, 1998) Rishab Aiyer Ghosh, 1998. “Cooking pot markets: an economic model for the trade in free goods and services on the Internet”. First Monday, volume 3, number 3, a Peer-reviewed Journal on the Internet (March). (Glover et al. 1999) Glover, Eric J., Lawrence Steve, Michael D. Gordon., William P. Birmingham et C. Lee Giles, Web Search – Your Way. Communications of the ACM, 1999, 2000. http://www.eecs.umich.edu/~compuman/papers/cacm1.pdf (GMD-FIT, 2000) The social web research program, http://orgwis.gmd.de/projects/SocialWeb. (Goldberg et al., 1992) Goldberg, D. Nichols, D. Oki, B. M. Terry, D. “Using Collaborative Filtering to Weave an Information Tapestry”, Communications of the ACM, Vol. 35, No. 12, December 1992 (Gokhale, 1999) Gokhale, A. Improvements to Collaborative Filtering Algorithms. Thesis computer science department, WPI, May 1999. (Goldberg et Roeder, 2000) Goldberg, K. and Roeder, T. Eigentaste : A constant time collaborative filtering algorithm. Technical Report M00/41, UCB Electronics Research Laboratory, 2000. (Good et al. 1999) Good Nathaniel, Shafer J. Ben, Konstan Joseph A., Borchers Al, Sawar Bradul, Herlocker Lon et Riedl John, Combining collaborative filtering with personal agents for better recommendations, AAAI/IAAI, 1999. http://www.cs.umn.edu/Research/GroupLens/aaai-99.pdf (Granovetter, 1985) Granovetter, M., 1985, “Economic action and social structure: the problem of embeededness”, American Journal of Sociology 91:481-510. (Grather et Prinz, 2001) Wolfgang Grather et Wolfgang Prinz, The social web cockpit, support for virtual, 2001. (Greer et al., 1998) Greer, J., McCalla, G., Collins, J., Kumar, V., Meagher, P. & Vassileva, J. Supporting Peer Help and Collaboration in Distributed Workspace Environments, International Journal of Artificial Intelligence in Education, 9. 263 (Guernsey, 2003) Lisa Guernsey. Making Intelligence a Bit Less Artificial. New York Times, 5 January 2003. (Hall, 2001) Hall Hazel, Social exchange for knowledge exchange, Paper presented at Managing Knowledge: conversations and critiques, University of Leicester Management Centre, 10-11 April 2001. (Hansen, 1999) Hansen, M. T., The search-transfer problem : the role of weak ties in sharing knowledge across organization sub-units. Administrative Science Quarterly, 44(1), 82-111, 1999. (Hardin, 1968) Hardin, G. (1968) « The Tragedy of Commons », Science 162, 1243-1248. (Hargadon, 1998) Hargadon, A. B., 1998. Firms as knowledge brokers. California Management Review, 40(3),209-227. (Hart et al., 2000) A. Harth, M. Bauer, and B. Breutmann. Iowl collaborative Filtering in a distributed environment: An agent-based approach. Technical report, University of Applied Sciences - Wurzburg Germany, 2000. (Hartigan, 2000) Hartigan Patti, Free riders who don't share in http://www.hpl.hp.com/shl/people/huberman/BostonGlobe.htm,%202000 the digital community. (Héber-Suffrin, 1992) Héber-Suffrin C., 1992, Echanger les Savoirs, Desclée de Brouwer. (Héber-Suffrin et Héber-Suffrin, 1993) Héber-Suffrin C. et Héber-Suffrin M., 1993, Le cercle des savoirs reconnus, Desclée de Brouwer. (Héber-Suffrin, 1998) Héber-Suffrin C., 1998, Les savoirs, la réciprocité et le citoyen, Desclée de Brouwer. (Herlocker et al., 2000) J.L. Herlocker, J.A. Konstan, and J. Riedl. Explaining Collaborative Filtering Recommendations. In Proc. of CSCW 2000. (Herlocker et al., 2004) Herlocker, J, Konstan, J., Terveen, L., and Riedl, J. Evaluating Collaborative Filtering Recommender Systems. ACM Transactions on Information Systems 22 (2004), ACM Press, 5-53. (Jarvenpaa et Leidner, 1999) Jarvenpaa, S.L., Leidner, D.E. Communication and trust in global virtual teams, Organization science, 10(6), p. 791-815. (Jin et al., 2001) Jin Emily M., Girvan Michelle, and Newman M. E. J., The structure of growing social networks, Phys. Rev. E 64, 046132 (2001). (Kamvar et al., 2003) S. Kamvar, M. Schlosser, and H. Garcia-molina. Eigenrep: reputation management in p2p network. In Proc. of WWW, 2003. (Kanawati et Malek, 2000) Kanawati Rushed et Malek Maria, 2000. Informing the design of shared bookmarks systems, In Proceedings of RIAO2000. Paris, France. Pp. 170-180. (Karypis, 2000) Karypis George, Evaluation of Item-Based Top-N Recommendation Algorithms. (University of Minnesota, Department of Computer Science / Army HPC Research Center), http://wwwusers.cs.umn.edu/~karypis/publications/Papers/PDF/itemrs.pdf, 2000. (Kautz et al., 1997) Kautz, H. Selman, B. Shah, M. “Referral Web: Combining Social Networks and Collaborative Filtering”, Communications of the ACM 40(3), March 1997, 63-65 (Kautz et al., 1997b) Kautz, H., Selman, B., et Shah, M. 1997. The Hiden Web, AI Magazine, vol. 18 No. 2, pp. 27-36. (Kessler, 1963) Kessler M., Bibliographic coupling between scientific papers. American documentation, 14:10—25, 1963. (Key, 2000) Key Peter, Web Designers build site with global http://www.bizjournals.com/philadelphia/stories/2000/11/27/newscolumn2.html reach, 2000. (Kim et al., 2002) B. Kim, C. Yoon, S. Han, and H. Jeong. Path Finding strategies in scale-free networks. Physical Review E, vol. 65, 027103, 2002. (Kleinberg, 1998) Jon Kleinberg, Authoritative Sources in a Hyperlinked Environment. In Proceedings of 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. Extended version in Journal of the ACM 46(1999). Also appears as IBM Research Report RJ 10076, http://www.cs.cornell.edu/home/kleinber/auth.ps, May 1997. 264 (Krackhardt, 1992) Krackhardt, D., The strength of strong ties: the importance of philos in organizations. In N. Nohira & R. Eccles (Eds), Organizations and Networks : Structure, form and action (p.216-239). Boston: Harvard Business School, 1992. (Kreps et Wilson, 1982) Kreps, D.M. et Wilson 1982, “Reputation and Imperfect information”, Journal of Economic Theory 27:253-279. (Kreps, 1990) Kreps, D.M. 1990, “Corporate culture and economic theory”, 90-143, in:J.E. Alt; K.A. Sheple (eds.), Perspectives on positive political economy, Cambridge: Cambridge University Press. (Labalme et Burton, 2001) F. Labalme and K. Burton. Enhancing the internet with reputations: an openprivacy white paper. Web page, March 2001. (Lauwrence, 2000) Lawrence Steve, Context in Web Search, IEEE Data Engineering Bulletin, Volume 23, Number 3, pp. 25-32, 2000. http://www.neci.nec.com/~lawrence/papers/context-deb00/contextdeb00.pdf (Lave et Wenger, 1991) Lave, J. and Wenger, E.: Situated Learning: Legitimate Peripheral Participation. Cambridge University Press, 1991. (Lawlor, 2000) Lawlor Julia, Web services offer solutions to bookmark overload, NY Times, Juliet 13 2000. http://www.nytimes.com/library/tech/00/07/circuits/articles/13basi.html (Levien, 2000-url) R. Levien. Advogato Trust Metric. http://www.advogato.org/trust-metric.html, 2000. (Lueg, 1997) Lueg, C., Social filtering and social reality. In Delos Workshop on Collaborative Filtering, Budapest, Nov 1997. (Lueg, 1998) Lueg, C. Considering collaborative filtering as groupware : Experiences and lessons learned. In 2nd International Conference on Practical Aspects of Knowledge Management (PAKM), 1998. (Luhmann, 1988). Familiarity, confidence, trust: problems and alternatives. In Gambetta, D. (Ed) Trust: Making and breaking cooperative relations, Oxford, Basil Blackwell, p. 95-107. (Maltz et Enhrlich, 1995) Maltz, D. and Enhrlich, K. Pointing the way : active collaborative filtering. In Conference on human factors in computing systems (CHI), Denver,Colorado USA, May 1995. (Markoff, 1999) Markoff John, On the web, as elsewhere, popularity us self-reinforcing, NY Times, 1999. http://www.tgc.com/dsstar/99/0629/100852.html (Markoff, 2000) Markoff John, More taking than giving in the web, NY Times, 2001. http://www.meehawl.com/Webstore/Gnutella%20-20Tragedy%20of%20the%20Commons/21shar.html (Markus, 1987) Markus, M.L. Toward a critical mass theory of interactive media. Communication research, 14, p.491-511. (McJones, 1997-url) P. McJones. Eachmovie collaborative Filtering data set. http://research.compaq.com/ SRC/eachmovie/, 1997. (Meadows, 1998) Meadows, A. Communicating research. San Diego, CA: Academic Press. 1998. (Merali, 2000) Merali, Y. Self-organising communities. In S. Rock (Ed.), Liberating knowledge (pp.80-87). London: IBM/CBI, 2000. (Midleton, 2003) Middleton S.E. Capturing knowledge of user preferences with Recommender Systems. Faculty of Engineering and Applied Science Electronics and Computer science, Doctor of Philosophy, University of Southmapto, 2003. (Milgram, 1967) S. Milgram, Psychology Today 2, 60 (1967). (Millen et Patterson, 2002) Millen David R. et John F. Patterson. Stimulating social engagement in a community network. Proceedings of the 2002 ACM conference on Computer supported cooperative work, New Orleans, Louisiana, USA, p.306 - 313, 2002. (Miller et al., 1997) Miller, B.N., Riedl, J.T. and Konstan, J.A. Experiences with grouplens : Making usenet useful again. In Usenix Winter Technical Conference, Jan 1997. (Molm, 2001) Molm, L. D. Theories of social exchange and exchange networks. In G. Ritzer & B. Smart (Eds.), Handbook of social theory (pp. 260-272). London: Sage. 2001. 265 (Motwani et Raghavan, 1995) R. Motwani and P. Raghavan. Randomized algorithms. In Cambridge university press, 1995. (Nahapiet et Ghoshal, 1998) Nahapiet J. et Ghoshal S., 1998. Social capital, intellectual capital, and the organizational advantage. Academy of Management Review, 23(2), 242-266. (Nowak et Sigmund, 2000) Nowak, M. A., K. M. Page and K. Sigmund, 2000. Fairness versus reason in the ultimatum game. Science 289: 1773-1775. (O'Dell et Jackson Grayson, 1998) O'Dell, C. & Jackson Grayson, C. (1998). "If we only knew what we know: identification and transfer of internal best practices." California Management Review, 40(3), 154-174 (Olson, 1965/1978) Olson, M. La Logique de l'Action Collective. Paris: PUF. (O’Reilly et associés, 2001) O’Reilly & Associates, 2001 Peer-to-Peer: Harnessing the Power of Disruptive Technologies, A. Oram, editor. (Page et al., 1998) Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford Digital Library Technologies Project, 1998. (Palme, 1995) Palme, J. Electronic mail. Artech House Publishers, 1995. (Perriault 1996) Perriault J. La communication du savoir à distance. L’Harmattan 1996. (Plu et al., 2003) Plu M., Agosto L., Bellec P., Van De Velde W. “The Web of People: A dual view on the WWW”, to present on “The Twelfth International World Wide Web Conference”, 20-24 May 2003, Budapest, HUNGARY. Best Alternate Track Paper. (Plu et al., 2004) Plu M., Agosto L., Vignollet L., Marty JC., A contact recommender system for a mediated social media, 6th International Conference on Enterprise Information Systems, Portugal, 14-17 April 2004. (Popescul et al., 2001) Popescul A., Ungar L., Pennock D., et Lawrence S. Probabilistic models for unified collaborative and content-based recommendation in sparse-environments. In Proc. 17th Conf. Uncertainty in Artificial Intelligence, pages 437-444, 2001. (Prax 2003) Prax Jean-Yves. Le manuel du Knowledge Management : Une approche de 2e génération, 2003. (Preece, 2000) Preece, J. Online Communities: Designing Usability, Supporting Sociability. Chichester, UK: John Wiley & Sons, 439 pages, 2000. (Rashid et al., 2002) Rashid, A.M., Albert, I., Cosley, D., Lam, S.K., McNee, S., Konstan, J.A., & Riedl, J. (2002). Getting to Know You: Learning New User Preferences in Recommender Systems. In Proceedings of the 2002 International Conference on Intelligent User Interfaces, San Francisco, CA, pp. 127-134, http://www-users.cs.umn.edu/~cosley/research/papers/getting-to-know.pdf, 2002. (Reynaud, 1989) Reynaud J-D., 1989, Les règles de jeu. L’action collective et la régulation sociale, Collection U, Paris : Armand Colin. (Reix, 1995) Reix, R. Systèmes d'information et management des organisations. (3ème Ed.). Paris, Vuilbert (1ère Ed: 1995). (Resnick et al., 1994) Resnick, P., Lacovou, N., Suchak, M., Bergstrom, P. and Riedl, J. An open architecture for collaborative filtering of netnews. In Conference on Computer Supported Co-operative Work, pages 175–186. (Resnick et Varian, 1997) P. Resnick, H. R. Varian. "Recommender systems", Communications of the ACM, 3, 40, 1997, p. 56-58. (Ridings, 2001-url) Ridings Chris, www.goodlookingcooking.co.uk/PageRank.pdf, 2001. PageRank Explained, http:// (Rioux, 2000) Rioux, K., Sharing information found for others in the web : a preliminary examination. In D. Kraft (Ed.), Proceedings of the 63rd Annual Meeting of the American Society for Information science (Vol. 37, p. 68-77). Medford, New Jersey : Information Today, 2000. 266 (Rodes et Starner, 1996) Rhodes Bradley J. et Starner Thad., Remembrance Agent: A continuously running automated information retrieval system. In Proceedings of the First International Conference on the Practical Application of Intelligent Agents and Multi Agent Technology, pages 487–495, 1996. (Rodes, 2000a) Rhodes Bradley., Just-in-Time Information Retrieval. PhD thesis, Massuchesetts Institute of Technology, 2000. (Rodes, 2000b) Rhodes Bradley J., Margin Notes: Building a Contextually aware associative memory. In Proceedings of the International Conference on Intelligent User Interfaces, IUI 00, 2000. (Rojo, 1995-url) Rojo, A. Participation in scholarly electronic forums. Ph. D. Thesis. university of Toronto. (En ligne): http://www.digitaltempo.com/e-forums/thindex.html (Rojo et Ragsdale, 1997) Rojo, A., Ragsdale, R.G. A process perspective on participation on scholarly electronics forums. Science Communication, 18(4), p. 342-361, 1997. (Sarwar et al., 2000) B. Sarwar, G. Karypis, J. Konstan, and J. Riedl. Application of dimensionality reduction in recommender systems -a case study, 2000. (Schafer et al., 1995) J.B. Schafer, J. Konstan, and J. Riedl. Recommender systems in e-commerce. In Proceeding of the ACM Conference on Electronic Commerce, Pittsburgh, PA, USA, November 1999. (Shardanand95) U. Shardanand, P. Maes."Social Information Filtering : Algorithms for Automating Word of mouth", in : CHI'95 : Mosaic of creativity, ACM, p. 210-217, Denver, Colorado, mai, 1995. (Schein et al., 2002) A. Schein, A. Popescul, L. Ungar, and D. Pennock. Methods and metrics for cold-start recommendations, 2002. (Sen et al., 2002) S. Sen, A. Biswas, and S. Debnath. Believing others: pros and cons. Artificial Intelligence, 142(2):179- 203, December 2002. (Shardanand et Maes, 1995) U. Shardanand, P. Maes."Social Information Filtering : Algorithms for Automating Word of mouth", in : CHI'95 : Mosaic of creativity, ACM, p. 210-217, Denver, Colorado, mai, 1995. (Shirky, 2000-url) Clay Shirky. What is p2p ... and what isn't? http://www.openp2p.com/pub/a/ p2p/2000/11/24/shirky1-whatisp2p.html, November 2000. (Sinha et Swearingen, 2001) Sinha, R. et Swearingen K., 2001. Comparing Recommendations made Online Systems and Friends ; Proceedings of the DELOS-NSF Workshop on Personalization on Recommender Systems in Digital Libraries. (Snowden, 2000) Snowden, D., Liberating Knowledge. In S. Rock. (Ed.) Liberating Knowledge (p. 105-111). London: IBM/CBI, 2000. (Spears et al., 2000) Spears, R., Postmes T., Wolbert A., Lea M. et Togers P. Social Psychological Influence of ICT’s on Society and ther Policy Implications (Research Report). Amsterdam, the Netherlands:Infodrome, 2000. (Sperturs, 1996) Ellen SPERTUS, Parasite : mining structural information on the web. 1996. (Sproull et Kiesler, 1991) Sproull, L. & Kiesler, S. Connections: New ways of working in the networked organization, MIT Press. (Swearingen et Sinha, 2001) K. Swearingen and R. Sinha. Beyond algorithms: An hci perspective on recommender systems, 2001. (Thibault et Kelly, 1952/1959) Thibault J.W. et Kelly H. H., 1952. The Social Psychology of Groups, New Yoerk: John Wiley & Sons. (Trevor, 2001) Trevor Robie, 2001. PageTracker: A Portable Bookmarking Tool Used for Fine-Grain Update Notification, 2001. (Turner, 1982) Turner, J.C. Towards a cognitive redefinition of the social group, in H. Tajfel (Ed.) Social identity and intergroup relations, Cambridge; Cambridge University Press. (Vignollet et al., 2005) Vignollet L., Plu M., Marty J.C., Agosto L., Regulation mechanisms in an open social media using a contact recommender, 2nd International Conference on Communities and Technologies, Milano, Italy, 13-16 June 2005 267 (Von Krogh, 1998) Von Krogh, G., Care in knowledge creation, California Management Review, 40(3), 133153, 1998. (Wasko et Faraj, 2000) Wasko, M., et Faraj, S., 2000. "It is what one does"; why people participate and help others in electronic communities of practice. Journal of Strategic Information Systems, 9(2/3),155-173. (Wasserman et Faust, 1994) Wasserman Stanley et Faust Katherine, Social Network Analysis. Methods and Applications, Cambridge (Mass.),Cambridge University Press, 825 p. (Watts et Strogatz, 1998) D.J. Watts, S.H. Strogatz, Nature 393, 440. 1998. (Weber, 1968) Weber Max (1968), Economy and Society, : An Outline of Interpretive Sociology, New York Bedminster Press, 1968. (Weisband et al., 1995) Weisband, S., Schneider, S., & Connolly, T. Computer-mediated communication and social information. Academy of Management Journal, 38(4), 1124-1151, 1995. (Wenger, 1996) Wenger, E. Communities of Practice: The Social Nature of Learning, HealthCare Forum Journal, pp.20-26. (Wilson, 1985) Wilson 1985, “Reputations in games and markets”, 27-62, in: A.E. Roth, Game-theorical models of bargaining, Cambridge: Cambridge University Press. (Zaslow, 2002) Jeffrey Zaslow. If TiVo Thinks You Are Gay, Here's How to Set It Straight. The Wall Street Journal, 26 November 2002. 16.2 Consulté (Aberer et Despotovic, 2001) Karl Aberer and Zoran Despotovic. “Managing trust in a peer-2-peer information system”. In CIKM, pages 310{317, 2001. (Amblard et Ferrand, 1998) Amblard et Ferrand. Acters du Colloque Modèle et Systèmes Milti-Agents pour la gestion de l ‘environement et des territoires, Clermont-Ferrand, 5-8 Octobre, 1998, N Ferrand (ed), Cemagref, p. 153-168. “Modélisation Multi-Agents de l’évolution de Réseaux Sociaux“ Frederic AMBLARD, Nils FERRAND, Cemagref, LISC. (Asnicar et Tasso, 1997) Asnicar, F. A. Tasso, C. “ifWeb: a Prototype of User Model-Based Intelligent Agent for Document Filtering and Navigation in the World Wide Web”, In Proceedings of the Sixth International Conference on User Modeling, Chia Laguna, Sardinia, June 1997. (Baeza-Yates et Ribiero-Neto, 1999) Ricardo Baeza-Yates and Berthier Ribiero-Neto. Modern Information Retrieval. Addison Wesley / ACM press, 1999 (Bala et Goyal, 2000) Bala, V., Goyal, S. “A Noncooperative Model of Network Formation”, Econometrica, 68, 1181-1229. (Balabanovic et Shoham, 1997) Balabanovic, M. Shoham, Y. “Fab: Content-Based, Collaborative Recommendation”, Communications of the ACM 40(3), March 1997, 67-72. (Bauer et Dengler, 2002) Bauer, M. Dengler, D. “Group Decision Making Through Mediated Discussions”, Workshop on Recommendation and Personalization in e-Commerce (RPeC02), Malaga, Spain. (Beugnard et Pahn, 2002) Beugnard A and Phan D., 2002. Moduleco, a multi-agent modular framework for the simulation of network effects and population dynamics in social sciences, markets & organizations. http://www-eco.enst-bretagne.fr/~phan/moduleco/ModulecoGreyPaper.pdf (Borgman, 2000) Borgman, C., 2000 “Scholarly communication and bibliometrics revisited”. In B. Cronin & H. B.Atkins (Eds.), The web of knowledge (pp. 143-162). Medford, NJ: Information Today. (Breese et al., 1998) J. Breese, D. Heckerman, and C. Kadie. Empirical analysis of predictive algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Arti_ cial Intelligence,Madison, WI, July 1998. (Bueno et al., 2001) Bueno, D. Conejo, R. David, A. A. ”METIOREW: An Objective Oriented Content Based and Collaborative Recommending System”, Twelfth ACM Conference on Hypertext and Hypermedia, Hypertext 2001, Århus, Denmark 268 (Burke, 2000) Burke, R. “Knowledge-based Recommender Systems”, In: A. Kent (ed.): Encyclopedia of Library and Information Systems, 2000, Vol. 69, Supplement 32. (Burt, 1992) Burt Ronald S. Structural Holes. The Social Structure of Competition, Cambridge (Mass.), Harvard University Press. (Crozier et Freidberg, 1977) Crozier et Freidberg, “L’acteur et le système”, Seuil, 1977. (Davenport et Cronin, 2000) Davenport, E., & Cronin, B., 2000. The citation network as a prototype for representing trust in virtual environments. In B. Cronin & H. B. Atkins (Eds.), The web of knowledge (pp.517-534). Medford NJ: Information Today. (Degenne et Forsé, 1994) Degenne Alain et Forsé Michel. Les réseaux sociaux. Une approche structurale en sociologie, Paris, Armand Colin, coll. "U", 263 p. McAdams, S. Winsberg, S. Donnadieu, S. De Soete, G. et Krimphoff, J. (1995) "Perceptual scaling of synthesized musical timbres: common dimensions, specificities, and latent subject classes". Psychological Research,58, 177-192. (Forsé et Langlois, 1997) Forsé Michel et Langlois Simon, "Réseaux, structures et rationalités", L'Année sociologique, vol. 47, n° 1, pp. 27-35. (Fu et al., 2000) Fu, X. Budzik, J. Hammond, K. J. “Mining Navigation History for Recommendation”, In Proceedings of the 2000 Int. Conf. On Intelligent User Interfaces (IUI'00). New Orleans, Louisiana (Hardin,1968) Garrett Hardin. The tragedy of the commons. Science, 162:1243{1248, 1968. (Glance, 2001) Glance Natalie S., Putting Recommender Systems to Work for Organizations, Xerox Research Centre Europe, 2001. (Glance et al., 2001) Glance Natalie, Meunier Jean-Luc, Bernanrd Pierre et Arregui Damian, Collaborative Document Monitoring, Proceedings of the 2001 International ACM SIGGROUP Conference on Supporting Group Work – Volume 2001, Boulder, Colorado, USA, Sept. 30 - Oct. 3, 2001. http://www.xrce.xerox.com/research/ct/publications/home.html (Granovetter, 2000) Granovetter, M. 2000, “Action économique et structure sociale : le problème de l’encastrement”, in Le marché autrement. Les réseaux dans l ‘économie, Collection Sociologie économque, Paris : Desclée de Brouwer, pp. 75-114. (Grather et Prinz, 2000) Wolfgang Grather et Wolfgang Prinz, The Social Web Cockpit: A Tool to Support Knowledge Sharing Communities, 2001. (Harth et al., 2000) A. Harth, M. Bauer, and B. Breutmann. Iowl collaborative Filtering in a distributed environment: An agent-based approach. Technical report, University of Applied Sciences - Wurzburg Germany, 2000. (Haveliwala, 1999) Haveliwala Taher H., http://dbpubs.stanford.edu/pub/1999-31 , 1999. Efficient Computation of PageRank, (Hayes et al., 2002) C. Hayes, P. Massa, P. Avesani, and P. Cunningham. An on-line evaluation framework for recommender systems. In Workshop on Personalization and Recommendation in E-Commerce, Malaga, 2002. Springler. (Hirai et al., url) Jun HIRAI, Siram RAGHAVAN, Hector GARCIA-MOLINA, Andreas PAEPCKE. WebBase : A repository of web pages. Computer Science Department, Stanford University. http://www9.org/w9cdrom/296/296.html (Jouet, 2002) Jouet Josiane, “Discours publicitaires et médiatiques”, Les nouvelles technologies : quels usages, quels utilisateurs ?, Dossiers de l’audiovisuel n°103, mai-juin 2002, p 22. (Ketchpel et Garcia-Molina, 1999) S. Ketchpel and H. Garcia-Molina. A sound and complete algorithm for distributed commerce transactions. Distributed Computing, 12(1), 1999. (Klein, 2002) Klein Isabelle, “Les pages personnelles, des dispositifs de médiation entre espace public et espace privé”, Les nouvelles technologies : quels usages, quels utilisateurs ?, Dossiers de l’audiovisuel n°103, mai-juin 2002, p 49. (Knoke et Kuklinski, 1982) Knoke D. et Kuklinski J.H., Network analysis, Quantitative Applications in the Social Sciences, 28, Beverly Hills, Sage, 1982. 269 (Konstan et al., 1997) J. A. Konstant, B. N. Miller, D. Maltz, J. L. Herlocker, L. R. Gordon, J. Riedl. "GroupLens : Applying collaborative filtering to Usenet News", Communications of the ACM, 3, 40, 1997, p. 77-87. (Krackhardt, 1987) Krackhardt, 1987, “Cognitive social structures”, Social Networks, n°9, pp. 109-134. (Krackhardt, 1990) Krackhardt, 1990, “Assessing the political landscape : structure, cognition and power in organizations”, Administrative science quarterly, n°35, pp. 342-369. (Krackhardt et Hanson, 1993) Krackhardt et Hanson, 1993, “Informal Networks : the company behind the chart”, Harvard Bussiness Review, Vol. 71, n°4, juillet-aout, pp. 104-111. (Lazeaga, 1994) Lazeaga, 1994, “Analyse de réseaux et sociologie des organisations”, Revue Française de Sociologie, Vol. 35, n°2, pp. 293-320. (Linton, 1999) Linton, F. “OWL - A Recommender System for IT Skills”, Workshop Interacting with Recommender Systems, CHI' 99,Pittsburgh, Pennsylvania, USA. (Manjoo, 2002-url) Farhad Manjoo. Gnutella bandwidth bandits. salon.com/tech/feature/2002/08/08/gnutella developers/, August 2002. (Marsh, 1994) S. Marsh. Formalising Trust as a Computational Concept. PhD thesis, Univ. of Stirling, Scotland, 1994. (Martel et Vignollet, 2002) Martel Christian, Laurence Vignollet, 2002. Educational Web Environment based on the metaphor of electronic schoolbag, ARIADNE 2002, Lyon, France. (Mcdonald et Ackerman, 2000) McDonald, D. W. Ackerman, M. S. “Expertise Recommender: A Flexible Recommendation System and Architecture”, In Proceedings of the ACM 2000 Conference on CSCW, Philadelphia, PA USA, December 2000 (Mooney et Roy, 2000) Mooney, R. J. Roy, L. “Content-Based Book Recommending Using Learning for Text Categorization”, Proceedings of DL-00, 5th ACM Conference on Digital Libraries, 2000, San Antonio, US, ACM Press, New York, US. (Moreno, 1954) Moreno Jacob L. (1934), Who Shall Survive ?, trad. fr. Fondements de la sociométrie, Paris, Presses universitaires de France,1954. (Moreno, 1960) Moreno Jacob L. "Political prospects of sociometry", International Journal of Sociometry and Society, 2, pp. 3-6. (Moulin et al., 1999) Moulin Yvette, Chatagnon Pascal et Perriault Jacques, Les réseaux d'echanges reciproques des savoirs, Conference-debat du 13 fevrier 1999. (Mui, 2002) L. Mui. Computational Models of Trust and Reputation: Agents, Evolutionary Games, and SocialNetworks. PhD thesis, Massachusetts Institute of Technology, 20 December 2002. (Mugny et al., 1995) Mugny, G., Oberlé, D. et Beauvois, J.L. Relations humaines, groupes et influence sociale. Presses Universitaires de Grenoble; Grenoble. (Mullins, 1973) Mullins Nicholas C. Theories and Theory Groups in Contemporary American Sociology, New York, Harper & Row, 1973. (Nisbett et al., 2001) Nisbett, R.E., Peng, K., Choi., & Norenzayan, A., 2001. Culture and systems of Thought: Holistic vs Analitic Cognition. Psychological Review, 108, 201-310. (Oram, 2001) Andy Oram, editor. Peer-to-peer: harnessing the power of disruptive technologies. O'Reilly and Associates, March 2001. (Rahman et Hailes, 2000) Alfarez Abdul-Rahman and Stephen Hailes. Supporting trust in virtual communities. In HICSS, 2000. (Reliance, 2000-url) Reliance, The Relative Project, solution libre pour la gestion de liens, http://www.reliance.fr/RelativeWeb/ , 2000. (Reix, 2000) Reix, R. Systèmes d'information et management des organisations. (3ème Ed.). Paris, Vuilbert (1ère Ed: 1995). (Resnick et al., 2000) P. Resnick, R. Zeckhauser, E. Friedman, and K. Kuwabara. Reputation Systems. Communication of the ACM, 43(12), December 2000. 270 (Rousseau et al., 1998) Rousseau, D.M., Sitkin, S.B., Burt, R.S. & Camerer, C. Not so different after all: a cross-discipline view of trust, Academy of management review, 23(3), p. 393-404. (Salton et McGill, 1998) Salton G. et McGill, M.J. Introduction to modern information retrieval, Mc Graw Hill 1998. (Small, 1973) Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents. J. Amer. Soc. Info. Sci., 24, 1973. (Smith, 1992-url) Smith, M. Voices from the Well: the logic of the virtual commons. Sociology UCLA. (En ligne): http://www.sscnet.ucla.edu/soc/csoc/papers/voices/Voices.htm. (Simmel, 1908) Simmel Georg (1908), Les Pauvres, Paris, Presses Universitaires de France, coll. "Quadrige", trad. fr. 1998 par Bernard. (Svensson et al., 2001) Svensson, M. Höök, K. Laaksolahti, J. Waern, A. “Social Navigation of Food Recipes”, In Proceedings of SIGCHI’01, Seattle, WA, USA, April 2001 (Swearingen et Sinha, 2001-url) Swearingen http://www.rashmisinha.com/articles/musicDIS.pdf K. et Sinha, R., 2001. (Terveen et al., 1997) Terveen, L. Hill, W. Amento, B. McDonald, D. Crester, J. “PHOAKS: A System for Sharing Recommendations”, Communications of the ACM 40(3), March 1997, 59-62. (Voss et Kreifelts, 1997) Voss, A. Kreifelts, T. “SOAP: Social Agents Providing People with Useful Information”, Proceedings of the international ACM SIGGROUP conference on Supporting group work (GROUP'97), Phoenix AZ, 1997, pp 291-298. (Wasfi, 1999) Wasfi, A. M. A. “Collecting User Access Patterns for Building User Profiles and Collaborative Filtering”, In Proceedings of the 1999 International Conference on Intelligent User Interfaces, pages 5764, 1999. (Watts, 1999) D.J. Watts, Small Worlds. Princeton University Press, Princeton, New Jersey, 1999. (Weber, 1965) Weber Max (1904-1917), Essais sur la théorie de la science, Paris, Plon, 1965. (Zacharia et al., 1999) Giorgos Zacharia, Alexandros Moukas, and Pattie Maes. Collaborative reputation mechanisms in electronic marketplaces. In HICSS, 1999. 271