Optimisation d`un Réseau Social d`Échange d`Information

Transcription

Optimisation d`un Réseau Social d`Échange d`Information
Optimisation d’un Réseau Social
d’Échange d’Information par
Recommandation de Mise en Relation
Thèse
en vue de l’obtention du Doctorat en Informatique
présentée et soutenue publiquement le 12 décembre 2005
par
Layda J. Agosto Franco
Membres du jury :
Cécile Roisin
Professeur, Université Pierre Mendès-France, Présidente du jury
Bertrand David
Professeur, École Centrale De Lyon, Rapporteur
Michel Riveill
Professeur, École Supérieure en Sciences Informatiques
Université de Nice - Sophia Antipolis, Rapporteur
Jean-Charles Marty
Maître de Conférences habilité, Université de Savoie, Directeur
Michel Plu
France Télécom R&D, Codirecteur
Laurence Vignollet
Maître de Conférences, Université de Savoie, Codirectrice
2
3
4
REMERCIEMENTS
Ce travail je le dédie spécialement à mes deux grands amours : ma fille
et mon époux.
Sa réussite et la qualité professionnelle de son contenu sont dues à
l’expérience et à la connaissance de mes directeurs de thèse. Je tiens
beaucoup à les remercier, pour leur suivi, leur disponibilité et leur patience.
Son achèvement est grâce au soutien de ma mère et de mes amis à
FTR&D : Fabien, Olivier, Tanguy, Marylène, et l’équipe EASY/SUN.
5
6
Conventions
En gras
Mots ou phrases clés pour notre approche.
En italique
Concepts ou définitions importantes.
(Référence,
année)
Référence bibliographique dans le texte.
Auteur
Auteur mentionné dans le texte.
Définition
Définition par rapport à notre approche.
Système
Nom d’un système ou d’une application.
Description
Description de figure ou d’image.
Lien
Lien ou référence type URI.
Commentaire
Commentaire.
N(e,f) ou V(e)
Matrice ou vecteur.
[ref00]
§
Référence à une hypothèse [h00] , à un principe [p00], à un mécanisme
[m00], ou autre, définis par rapport à notre approche.
Référence à une section de ce document de thèse.
A retenir.
7
8
RESUME
Nous avons observé que sur le Web les internautes ont des besoins changeants
d’information. Grâce aux théories des analyses sociales et grâce aux expériences de systèmes
de recommandation existants, nous savons que la plupart du temps, ces besoins
informationnels sont généralement satisfaits par le fait de « demander à un copain », c’est à
dire, à une connaissance ou à un référent sur le sujet d’intérêt.
Par ailleurs, nous avons fait le constat, comme d’autres avant nous, que dans des
systèmes d’échanges d’information (e.x. les groupes d’intérêt), seule une minorité de
producteurs d'information est très active, alors qu’une majorité de consommateurs est
silencieuse. Pouvons-nous vraiment modifier cette forte tendance ? Tenter de répondre à cette
question a été au cœur de notre recherche. Pour arriver à répondre positivement, nous avons
imaginé la possibilité d’influencer la motivation des personnes à échanger des informations en
construisant des mécanismes de régulation dédiés qui intègrent une dynamique d’échanges
d’information, de gestion d’information personnelle (favoris) et de conscience sociale. Nous
avons donc proposé et mis en œuvre des algorithmes de recommandation utilisant la structure
de la topologie du réseau de relation de personnes formée selon leurs échanges et selon les
informations qu’elles gèrent. Nous avons développé notre système SoMeONe sous forme d’un
service Web.
L’apport le plus important de notre approche est, semble t’il, notre idée de
recommander des contacts plutôt que de l’information. Pour cela nous nous sommes
fortement intéressés à valider l’efficacité de flux d’information dans le réseau social
proposé à travers la construction de mesures de qualité de la topologie du réseau. Nous avons
donc établi une série de postulats, de principes et d’hypothèses à valider dans notre cadre
théorique. Nos hypothèses tiennent compte des objectifs des utilisateurs (obtenir de
l’information) et pour cela nous avons intégré des critères de qualité à optimiser pour tenir
compte également des objectifs du système (optimiser la structure d’un réseau social). Le
moyen pour les atteindre a été d’utiliser des indicateurs sociaux. Ils constituent nos
algorithmes que nous nommons SocialRank.
Mots-clés
Analyses de réseaux sociaux, systèmes de recommandation, filtrage collaboratif, réputation,
confiance, conscience sociale, régulation, PageRank.
9
10
SOMMAIRE
PPR
REEC
CO
OM
MM
MA
AN
ND
DA
ATTIIO
ON
N SSU
UR
R LLEE
REEM
MIIÈÈR
REE PPA
AR
RTTIIEE -- LLEESS SSY
YSSTTÈÈM
MEESS D
DEE R
W
E
B
:
A
S
P
E
C
C
H
O
S
O
C
I
A
U
X
1199
T
S
I
N
F
O
R
M
A
T
I
Q
U
E
S
E
T
P
H
É
N
O
M
È
N
E
S
P
S
Y
WEB : ASPECTS INFORMATIQUES ET PHÉNOMÈNES PSYCHOSOCIAUX
11
IIN
NTTR
RO
OD
DU
UC
CTTIIO
ON
NG
GÉÉN
NÉÉR
RA
ALLEE
2211
1.1
Problématique générale
23
1.2
Objectif
25
1.3
Originalité
25
1.4
Structure de ce document de thèse
26
22
ÉÉTTA
ATT D
DEE LL’’A
AR
RTT
2299
2.1
Contexte informatique
2.1.1 Les systèmes de recommandation
2.1.1.1 Définition des systèmes de recommandation
2.1.1.2 Quelques exemples significatifs de systèmes de recommandation
2.1.1.3 Principales techniques des systèmes de recommandation
2.1.2 Étude des systèmes de recommandations existants
2.1.2.1 Systèmes de recommandations utilisant l'analyse du contenu
2.1.2.2 Systèmes de recommandations utilisant l'analyse du contexte
2.1.2.3 Systèmes de recommandations utilisant le filtrage d’information
2.1.3 Faiblesses des systèmes de recommandations
2.1.3.1 Problème de la collecte des méta-données sur les ressources
2.1.3.2 Problème du démarrage à froid
2.1.3.3 Problème de sécurité
2.1.3.4 Manque de contrôle sur le comportement du système
2.1.3.5 Contrôle des données personnelles : caractère privé et emplacement
2.1.3.6 Non prise en compte des aspects sociaux
2.1.3.7 Le phénomène du « passager clandestin »
2.1.4 Un exemple d’application : la gestion de favoris
2.1.5 Premières réponses aux problèmes identifiés
2.1.6 Nouvelles technologies pour des médias sociaux plus humains
2.1.6.1 Systèmes pair à pair
2.1.6.2 Les « Weblogs »
2.1.6.3 Le phénomène « Social Networking »
31
31
31
34
35
36
36
36
37
38
38
38
39
39
39
40
41
42
44
46
46
47
48
2.2
Contexte socio-psychologique
2.2.1 La participation à des réseaux sociaux virtuels
2.2.1.1 Participation individualiste
2.2.1.1.1 Les théories psychosociales de l'échange
2.2.1.1.2 La théorie sociologique de la masse critique
2.2.1.1.3 Limites des échanges dans des réseaux sociaux virtuels
2.2.1.2 Motivation à la participation
2.2.1.2.1 Le rôle de la confiance
50
51
51
51
53
54
55
56
11
2.2.1.2.2 Le succès de l’échange et du partage
2.2.2 Analyse de réseaux sociaux
2.2.2.1 Une modélisation des réseaux de relations sous forme de graphes
2.2.2.2 Concepts et propriétés des structures
2.2.2.3 Représentation matricielle d’un graphe
2.3
Conclusion
57
59
59
61
63
66
D
DEEU
UX
XIIÈÈM
MEE PPA
AR
RTTIIEE -- U
UN
N SSEER
RV
VIIC
CEE W
WEEBB D
DEE M
MIISSEE EEN
NR
REELLA
ATTIIO
ON
N PPA
AR
R
D
6699
QU
UEESS SSO
OC
CIIA
ALLEESS D
D’’ÉÉC
CH
HA
AN
NG
GEESS D
D’’IIN
NFFO
OR
RM
MA
ATTIIO
DY
YN
NA
AM
MIIQ
ON
NSS
33
N
NO
OTTR
REE A
APPPPR
RO
OC
CH
HEE
7711
Section 1. Cadre théorique de notre approche
73
3.1
Concepts de base
3.1.1 Réseau social médiatisé
3.1.2 Régulation
73
73
73
3.2
Objectifs
74
3.3
Postulats
74
3.4
Hypothèses
76
3.5
Principes
76
Section 2. Les grandes lignes de notre approche
79
3.6
80
Système de partage de références sur un réseau social médiatisé
Section 3. Conception
83
3.7
Mécanisme de gestion de l’information
3.7.1 Construction d’une taxonomie personnelle
3.7.1.1 Étiquetage multiple
3.7.1.2 Spécialisation de listes de diffusion
3.7.1.3 Profil individuel
3.7.2 La construction d’une connaissance collective
3.7.3 Diffusion d’information et profil social
83
83
85
86
86
88
90
3.8
93
Dynamique du réseau
3.9
Mécanisme de recommandation de contacts
3.9.1 Première étape
3.9.1.1 Algorithme de filtrage collaboratif
3.9.1.2 Exemple
3.9.2 Deuxième étape : SocialRank
3.9.2.1 Notre réseau social médiatisé
3.9.2.2 Calcul des indicateurs sociaux
3.9.2.3 Stratégie de recommandations de contacts
12
94
95
95
98
99
102
103
106
3.9.2.4 Exemple de stratégies d’obtention d’information
3.9.2.4.1 Résultats de l’indicateur de réputation
3.9.2.4.2 Résultats de l’indicateur de redondance
3.9.2.4.3 Résultats de l’indicateur d’originalité
3.9.2.4.4 Résultats de l’indicateur d’agrégation
3.9.2.4.5 Évaluation de résultats des indicateurs
3.9.2.5 Calcul de toutes les recommandations possibles
3.9.2.6 Filtrage des recommandations selon la stratégie
107
108
109
109
110
110
111
112
3.10 Réseau personnel de l’utilisateur : son ego-network
3.10.1 Ego-network
3.10.2 Description de contacts
3.10.3 Exemple d’ego-network
3.10.4 Tactiques pour modifier l’ego-network
3.10.4.1 Diffuser l’information personnelle
3.10.4.2 Classement des utilisateurs
115
115
116
117
118
119
120
3.11
121
Revue des concepts de notre approche
Section 4. Description du Système réalisé
124
3.12 Fonctionnalités
3.12.1 La navigation avec SoMeONe
3.12.1.1 Une interface personnelle
3.12.1.2 Faciliter la navigation
3.12.2 Gestion d’informations
3.12.2.1 Profil de l’utilisateur
3.12.2.2 Taxonomie personnelle
3.12.2.2.1 Code de couleurs de topiques
3.12.2.2.2 Documents reçus
3.12.2.2.3 Listes de diffusion
3.12.2.3 Échange de l’information
3.12.3 Ego-network de l’utilisateur
3.12.4 Gestion de Contacts
3.12.5 Recommandeur de Contacts
3.12.5.1 Recommandation de topiques publics
3.12.5.2 Recommandation de contacts
125
125
125
126
126
126
126
127
127
127
127
128
129
130
132
133
3.13 Architecture informatique
3.13.1 Serveur d’application du système : JCMS
3.13.2 Outil de filtrage collaboratif
3.13.2.1 L’annuaire « Open Directory Project »
3.13.2.2 Intégration d’ODP
135
136
137
138
139
44
114411
V
VA
ALLIID
DA
ATTIIO
ON
ND
DEE N
NO
OTTR
REE A
APPPPR
RO
OC
CH
HEE
4.1
Première évaluation : utilisateurs réels
4.1.1 Objectifs
4.1.2 Méthode
4.1.2.1 Intégration dans le portail de l’Université de Savoie
4.1.2.2 Profil d’usages
13
142
142
143
143
144
4.1.3 Résultats de l’évaluation
4.1.3.1 Profils d'usage des topiques
4.1.3.2 Analyse de l'utilisation des recommandations
4.1.3.3 D’autres profils d'usages : consommateurs versus producteurs
4.1.3.4 Degrés de réciprocité des échanges
4.1.3.4.1 Topiques reçus
4.1.3.4.2 Topiques consultés
4.1.3.4.3 Liens reçus, consultés, déplacés
4.1.3.4.4 Réciprocité dans les recommandations
4.1.4 Les points forts de l’évaluation
4.1.5 Les points faibles de l’évaluation
4.1.6 D’autres facteurs à prendre en compte
4.1.7 Conclusion de l’évaluation
4.2
Deuxième évaluation : Simulations de nos hypothèses
4.2.1 Objectifs de l’évaluation
4.2.2 Hypothèses de simulations
4.2.3 Scénario
4.2.3.1 Paramètres pour la définition de l’état initial du réseau
4.2.3.2 Paramètres pour la dynamique du réseau social
4.2.3.3 Scénarios retenus
4.2.4 Les simulations
4.2.4.1 Base de données pour les taxonomies de topiques du réseau initial
4.2.4.2 Connectivité du réseau initial
4.2.4.3 Vision globale d'une itération
4.2.5 Méthode d’évaluation
4.2.6 Limites des simulations
4.2.7 Analyse des simulations
4.2.7.1 Étude de la vitesse de diffusion d’informations nouvelles
4.2.7.2 Étude de l’impact de contacts « gourous »
4.2.7.3 Étude de l’efficacité du réseau
4.2.8 Conclusion des simulations
145
145
146
147
147
148
149
150
152
152
153
156
157
157
158
159
160
161
162
164
164
165
166
168
169
170
171
171
174
176
182
C
CO
ON
NC
CLLU
USSIIO
ON
N EETT PPEER
RSSPPEEC
CTTIIV
VEESS
118855
5.1
Conclusions
5.1.1 Cadre théorique
5.1.1.1 Contexte socio-psychologique
5.1.1.2 Contexte informatique
5.1.1.3 Mécanismes de régulation
5.1.1.4 Efficacité du flux d’information
5.1.2 Évaluation de notre approche
5.1.3 Cadre d’usage
5.1.3.1 L’usage entreprise.
5.1.3.2 L’usage grand public.
5.1.4 Dynamique d’usage
185
185
186
186
187
188
188
190
190
191
191
5.2
Perspectives
5.2.1 Vers une intégration de l’outil de partage de favoris
5.2.2 Vers une intégration du recommandeur de contacts
191
191
192
55
14
5.2.3
Évolutions techniques
192
A
AN
NN
NEEX
XEESS
119933
A
ON
ND
DEESS C
CO
ON
NC
CEEPPTTSS
AN
NN
NEEXXEE II––66.. FFO
OR
RM
MA
ALLIISSA
ATTIIO
119955
66
119955
D
DÉÉFFIIN
NIITTIIO
ON
NSS
6.1
Réseau de topiques
6.1.1 Communication entre topiques
6.1.2 Distance entre topiques : D
6.1.3 Chemins entre topiques : PN
6.1.4 Importance des relations entre topiques : W
6.1.5 Degré de relation entre topiques : P
6.1.6 Propriétés de l'information dans les topiques
6.1.6.1 Nouveauté de l'information
6.1.6.2 Pertinence de l'information
6.1.7 Propriétés d’un topique
6.1.7.1 Originalité
6.1.7.2 Connectivité
6.1.7.3 Réputation locale
6.1.7.3.1 Réputation de degré
6.1.7.3.2 Réputation d'Intermédiarité
6.1.7.3.3 Réputation de proximité
6.1.7.3.4 Avantages et inconvénients des réputations
6.1.7.4 Réputation à la PageRank : RankRéputation
6.1.7.5 Redondance entre topiques
6.1.7.6 Réactivité à l’information nouvelle
6.1.7.7 Coût
6.1.7.8 Efficacité
6.1.7.9 Agrégation entre topiques
198
199
200
201
201
202
202
202
203
203
203
204
205
205
205
206
207
208
208
209
209
210
211
6.2
211
211
211
Réseau d'utilisateurs
6.2.1.1 Contacts sources d’information
6.2.1.2 Contacts réputés
A
AN
NN
NEEXXEE IIII––77.. V
VEER
RSSIIO
ON
NSS IIN
NIITTIIA
ALLEESS D
DEE SSO
OM
MEEO
ON
NEE
221133
77
221133
D
DIIV
VEER
RSS A
APPEER
RÇ
ÇU
USS D
DEE SSO
OM
MEEO
ON
NEE
7.1
Aperçu de SoMeONe (version initiale)
7.1.1 Inscription
7.1.2 Page personnelle de l’utilisateur
7.1.3 Gestion des topiques
7.1.3.1 Liste de diffusion
7.1.3.2 Ajouter une information
7.1.4 Se faire connaître
7.1.5 Trouver des contacts
7.1.6 Gestion du réseau de contacts
15
213
213
214
214
215
216
217
218
220
7.2
Webothèque du cartable électronique® de l’Université de Savoie
7.2.1 Créer ou ajouter un topique
7.2.2 Afficher le contenu d'un topique
7.2.3 Éditer un topique
7.2.4 Créer/ajouter un lien
7.2.5 Gestion des topiques reçus
7.2.6 Réseau de Connaissances
7.2.7 Informations utilisateur
7.2.8 Trouver des contacts
7.2.9 Gérer la corbeille
7.2.10 Déposer le lien dans mon cartable
224
225
225
226
226
228
228
229
230
230
230
A
ATTIIO
ON
N
AN
NN
NEEXXEE IIIIII––88.. SSC
CÉÉN
NA
AR
RIIO
OSS D
DEE SSIIM
MU
ULLA
223333
88
223333
C
CO
ON
NSSIID
DÉÉR
RA
ATTIIO
ON
NSS
8.1
Scénario A
233
8.2
Scénario B
235
8.3
Scénario C
236
A
AN
NN
NEEXXEE IIV
V––99.. LLO
OG
GIIC
CIIEELLSS PPO
OU
UR
R LL’’A
AN
NA
ALLYYSSEE D
DEE R
RÉÉSSEEA
AU
UXX SSO
OC
CIIA
AU
UXX
223377
99
LLIISSTTEE D
DEE LLO
OG
GIIC
CIIEELLSS
223377
A
AN
NN
NEEXXEE V
V––1100.. SSU
UR
R LL’’U
UTTIILLIISSA
ATTIIO
ON
ND
D’’U
UN
NA
AN
NN
NU
UA
AIIR
REE
224411
1100 U
UTTIILLIISSA
ATTIIO
ON
ND
DEE LL’’A
AN
NN
NU
UA
AIIR
REE O
OD
DPP PPO
OU
UR
R LLA
AC
CO
ON
NSSTTR
RU
UC
CTTIIO
ON
ND
DEE
224411
TTA
MEEM
MBBR
REESS D
DU
UR
RÉÉSSEEA
AU
UÀ
À SSIIM
MU
ULLEER
R
AX
XO
ON
NO
OM
MIIEESS D
DEESS M
10.1
Structure hiérarchique des catégories ODP
242
10.2
Homogénéisation de la base de données
242
A
AN
NN
NEEXXEE V
VII––1111.. D
DÉÉTTA
AIILL C
CO
ON
NC
CEEPPTTU
UEELL D
DEE SSO
OM
MEEO
ON
NEE
224455
1111 SSO
OM
MEEO
ON
NEE SSEELLO
ON
NN
NO
OSS ÉÉV
VA
ALLU
UA
ATTIIO
ON
NSS
224455
1122 C
CA
AR
RA
AC
CTTÈÈR
REE IIN
NC
CR
RÉÉM
MEEN
NTTA
ALL EETT N
NO
ON
N--IIN
NC
CR
RÉÉM
MEEN
NTTA
ALL D
DEE
LL’’A
ALLG
GO
OR
RIITTH
HM
MEE S
SO
OC
CIIA
ALLR
RA
AN
NK
K
224466
A
NTTEER
RN
NEETT 224477
AN
NN
NEEXXEE V
VIIII––1122.. A
ALLG
GO
OR
RIITTH
HM
MEESS D
DEE R
REEC
CH
HEER
RC
CH
HEE SSU
UR
R IIN
1133 A
ALLG
GO
OR
RIITTH
HM
MEESS TTR
RA
AD
DIITTIIO
ON
NN
NEELLSS D
DEE SSY
YSSTTÈÈM
MEESS D
DEE
R
E
C
O
M
M
A
N
D
A
T
I
O
N
RECOMMANDATION
16
224477
13.1
Algorithme « coefficient de corrélation »
247
13.2
Mesure de cosinus
248
13.3
Théorie probabiliste
249
13.4
Limites des approches
249
1144 H
HIITTSS
14.1.1 Commentaires
225500
252
1155 PPA
AG
GEER
RA
AN
NK
K
225522
15.1 Formellement
15.1.1 Modèle fonctionnel
15.1.2 L’algorithme
254
255
255
15.2
Le promeneur aléatoire
256
15.3
Les liens pendants
257
15.4 Propriétés de convergence
15.4.1 Modèle matriciel
15.4.2 L’algorithme
257
258
259
1166 BBIIBBLLIIO
OG
GR
RA
APPH
HIIEE
226611
16.1
Référencée
261
16.2
Consulté
268
17
18
Première Partie - Les
Systèmes de
Recommandation
sur le Web :
aspects
Informatiques et
Phénomènes
Psychosociaux
Chapitre 1. Introduction Générale
Chapitre 2. État de l’Art
19
20
1 Introduction Générale
os besoins changeants d’information nous emmènent toujours à rechercher sur le
Web. Nous avons le choix entre de nombreux systèmes qui offrent différentes
méthodes de recherche, de communication ou de classification et de filtrage de contenu dit
« adapté ». Certains de ces différents systèmes mettent en oeuvre des idées intéressantes
(Gnutella, Napster, Educadoc, Voilà, etc.). Cependant, nous pourrions déjà poser la question :
pourquoi ne sont-t-ils plus exploités ? Nous pouvons également constater que nos besoins
informationnels sont généralement satisfaits par le fait de « demander à un copain », c’est à
dire, à une personne généralement une connaissance, une référence sur le sujet d’intérêt.
N
En effet, l’être humain a tendance à résoudre ces types de besoins à travers ses relations
avec les autres : à travers ses réseaux de contacts. Les personnes forment donc des coalitions
ou des groupes d’intérêt en vue d’assurer une coopération pour obtenir le bien informationnel
désiré.
Notre travail de recherche est d’abord ancré dans cette conception de réseaux de
contacts avec la finalité de trouver une information désirée. Pour cette raison nous intégrons
des conceptions issues de domaines de la sociologie, de la psychologie et de l’économie.
Cependant, cette information désirée n’est pas toujours la même pour tous. Elle évolue avec
chaque individu et il faut donc que celle-ci soit adaptée et pertinente. Ceci est loin d’être
évident quand il s’agit de la trouver sur le Web. En effet, le Web est fait de paradoxes : on y
trouve tout, on n'y trouve rien.
Par ailleurs, le Web est déséquilibré : par exemple, il y a en effet une minorité très
active de producteurs d'information, et une majorité de consommateurs silencieux. Pouvonsnous vraiment modifier cette forte tendance ?
Nous pensons que c’est possible, pour cela notre travail de recherche est ancré
également sur les nouvelles technologies sur le Web qui prennent en compte la valeur des
relations humaines, afin de pouvoir filtrer l’information suivant l’intérêt des usagers. Cette
information est issue d’une activité courante : stocker (création de répertoires pour classer
l’information obtenue afin de la repérer plus tard) et puis, éventuellement diffuser aux
contacts susceptibles d'être intéressés.
21
Le fait de chercher, filtrer, classer et éventuellement annoter l’information suivant nos
intérêts pendant que nous naviguons sur l’Internet, garantit qu’elle a de la pertinence sur le
sujet de notre intérêt.
De cette façon, les services proposés doivent permettre la gestion d’information
pendant et après la navigation, et en même temps, la gestion de relations (réseau de contacts).
Pour le premier nous proposons la classification de l’information dans des répertoires que
nous appelons des topiques (chapitre 3).
Pour le second, la gestion de ses relations, fonctionnalité la plus importante à nos
yeux, nous proposons :
⋅ Un contrôle sur la visibilité de ses informations personnelles. L’utilisateur est le seul
responsable de la visibilité de ses informations.
⋅ Des recommandations de contacts. Nous intégrons un recommandeur de contacts qui
observe le réseau et les échanges d’information entre ses membres, afin de guider
l’utilisateur vers des personnes qui pourraient lui procurer l’information dont il a besoin.
⋅ Un type de conscience sociale. Il s’agit d’offrir à l’utilisateur la possibilité de suivre l’état
des diffusions d’informations dans le réseau.
Il s’agit d’utiliser d’abord les relations que les personnes ont en réel pour l’exploiter
dans des relations selon notre approche.
Nous introduisons donc notre approche comme un moyen d’exploiter des liens sociaux
en plus des connaissances sur les informations. C’est le moyen de permettre la construction,
voire l’émergence d’un réseau fiable de contacts.
22
1.1 Problématique générale
Le World-Wide-Web facilite l'accès à l'information par la mise en relation des
ressources d'information via des liens hypermédia. Différents dispositifs d'information et de
communication ont été proposés. Aujourd'hui nous trouvons, par exemple :
- Le Web même, où l'on trouve déjà des milliards de pages, qui peuvent être fiables ou non,
utiles ou inutiles, belles ou laides, etc., devient de plus en plus vaste.
- Les forums, espaces publics où l'on discute par écrit sur une thématique.
Malheureusement, ils offrent peu de contrôle des participants et de la modération, ce qui
impose une surcharge informationnelle.
- Les listes de diffusion1 (ou listes de distribution). La masse d'information qu'elles
contiennent, pose des problèmes de classement et de recherche. En outre, elles permettent
d’exploiter des adresses par « courrier massif non sollicité2 » (ou pollupostage).
En plus de ces difficultés, l'existence de ces dispositifs évoque le groupement des
gens autour de sujets d’intérêt. C’est une notion communautaire, c’est à dire, l’existence de
gens qui se rencontrent, qui ont des échanges par l’intermédiaire du Web, et qui partagent
un intérêt commun. Ce phénomène n’est pas nouveau. Sa réussite à des raisons multiples,
citons-en deux principales :
Une reproduction des modèles classiques d’organisation humaine : Internet est à la
fois un outil de communication et un outil de publication des informations. En tant
qu’outil de communication, il permet des échanges et des interactions, il rapproche les
hommes. Les internautes se regroupent selon leurs affinités, leurs goûts et envies, leurs
passions ou encore poussés par des intérêts divers (professionnels, politiques,
religieux,…). Il s'agit de répondre à des besoins de sociabilisation.
Le besoin communautaire sur Internet est exacerbé par le support lui-même : ne vous
êtes-vous jamais senti perdu sur Internet ? Bien sûr, mais comment pourrait-on y
échapper ? Un nouveau support de communication, l’apprentissage d’un nouveau
rapport relationnel (autre que le téléphone ou la visioconférence), des milliers
d’informations de qualité très inégale... Le sentiment de surabondance, d’insécurité et
d’infinité poussent les internautes à se regrouper, plus encore que dans la vie réelle où
nous évoluons à travers un référentiel espace-temps maîtrisé.
Bien entendu, le Web n'est pas un espace déshumanisé. De nos jours, il existe de vastes
possibilités pour former des groupes et pour échanger des avis ou de l’information.
Cependant, le principe même d’échanges dans ces groupes pose encore certains problèmes,
entre autres :
Le contrôle de la diffusion d'informations. Dans les bases d'informations à accès
partagé la définition de règles d'accès à l'information n'est définie que par un
administrateur qui en général donne un accès total à tous les utilisateurs. De plus, la
diffusion incontrôlée de l'information produit parfois des réticences de la part des
utilisateurs pour participer.
1
2
Mailing lists en anglais
Spamming en anglais
23
L'impersonnalité des échanges lorsqu'il y a trop de participants. Le nombre important
de participants fait qu'il est difficile de se souvenir des noms des personnes dont on
apprécie l'information ce qui rend l'information très impersonnelle.
L'information utile noyée dans un flot d'informations trop important. Avec les forums
par exemple, les utilisateurs reçoivent une quantité d'information importante. La
quantité d'information génère un bruit important qui dissimule l'information
intéressante.
Le déséquilibre entre le nombre de producteurs et de consommateurs d'informations.
Un des comportements les plus observé est que les utilisateurs consomment plus
d’informations qu'ils n'en produisent3 (Adar et Huberman, 2000). Ceci produit une
dépendance aux rares utilisateurs qui produisent de l'information. Il suffit que cette
petite partie d'utilisateurs s'absentent ou se désintéressent du système et l'ensemble des
utilisateurs s'en retrouvent pénalisés. Les utilisateurs diffusant leurs informations à de
nombreuses personnes ont alors un grand pouvoir qui peut être utilisé à des fins pas
vraiment appréciables telles que la désinformation, la promotion ou la diffusion de
rumeurs etc. La qualité et l'appréciation du système risquent alors d'être grandement
dégradée.
L'analyse de l’utilisation de quelques systèmes d’échanges d’information nous a
permis de comprendre que ce sont les « recommandations » de ces « producteurs » que les
personnes apprécient, plutôt que celles obtenues à l'aide de logiciels (§3.2 ;§3.3[po01]4 ).
Ceci parce qu’elles peuvent être beaucoup plus personnalisées et adaptées aux besoins des
utilisateurs (Plu et al. 2003 ; Resnick et Varian, 2001 ; Sinha et Swearingen, 2001). En effet :
Comment un logiciel peut-il identifier automatiquement un document contenant de
fausses informations ?
Comment un logiciel peut-il reconnaître qu'un niveau de description d’un document est
approprié à la connaissance de fond de l'utilisateur ou mesurer la clarté du discours ou
les qualités pédagogiques d’une présentation ?
Comment un logiciel peut-il modéliser les sensibilités de l'utilisateur, afin de détecter
des histoires drôles, de belles images, des films dramatiques qu'il appréciera
certainement ?
Toutefois, si un humain a plus confiance dans l’information obtenue par d'autres
humains, il faut aussi, pour qu'un système d'échanges et de recommandations fonctionne, que
le plus grand nombre soit motivé à échanger (voir Chapitre 2, section 2.2.1.2). Pour
pérenniser cette motivation, voir la rendre « contagieuse », le système informatique doit
intégrer des fonctionnalités d’incitation à la motivation, à la participation et aux échanges
d’information.
3
Voir le Chapitre 2 section 2.1.3.7 « Pasagers Clandestins ».
Nous utilisons une notation avec parenthèses carrées pour faire référence à un de nos postulats avec
[po] ou à un de nos principes [p] ou à une de nos hypothèses avec [h] ou à un de nos critères avec [c] ou à un de
nos mécanismes avec [m]. Par exemple notre hypothèse 1 sera référencée par [h01], notre principe 2 sera
référencé par [p02], etc.
4
24
1.2 Objectif
L’objectif principal que nous poursuivons est la construction et l’optimisation d’un
réseau d'échanges d'informations sur le Web. Il s'agit d'offrir à l'utilisateur, qui a par nature
un comportement avant tout individualisé, un enrichissement par des interactions et par des
échanges informationnels. L'outil proposé sera un média social médiatisé intégrant des
mécanismes de motivation et d’incitation à la participation pour l’échange d’information de
façon réciproque, en permettant d’aboutir à la construction d’un Web de confiance, un Web de
personnes (Plu et al., 2003). Un des effets de bord d'un tel système sera la construction d’une
connaissance collective.
L’originalité de notre projet vise à montrer que ce ne sont pas les liens (documentaires)
qui importent : ce sont les individus et leurs caractéristiques, individuelles et communautaires,
qui donnent les traces à suivre pour arriver à adapter le Web au service de l’humain. C'est la
force des liens (relations) construits entre ces individus, au fur et à mesure, qui fait que ces
espaces d'échange et d'entraide fonctionnent. Nous proposons des moyens de les analyser en
introduisant des indicateurs sociaux.
Si le slogan de la société de l’information à la fin du 20eme siècle était « la
connaissance est le pouvoir », celui de la société en réseau sera, peut-être « votre réseau de
relations est le pouvoir ». Notre intention est d'exploiter l’intelligence distribuée des individus
qui ont et construisent de l’information. Nous les aidons à exploiter leur réseau (leur liens
relationnels de confiance et d'appréciations) pour en obtenir l’information la plus adaptée et
pertinente. Avec ceci, nous permettrons le développement d’un nouveau type de réseau où
l’information navigue d’individu à individu en suivant des relations de confiances. Ce n'est
plus l'utilisateur qui accède à une information, c'est l'information qui va à l'utilisateur. Nous
appelons ce réseau « la toile de personnes ». Alors, de même que l'actuel WWW facilite
l'accès à l'information via des liens hypermédia, la « toile des personnes », facilitera la
diffusion de l’information par la mise en relation de personnes. (Plu et al., 2003).
1.3 Originalité
Par ailleurs, dans un média social, l’organisation doit émerger. Une façon d’obtenir des
politiques d’organisation d’une société est la définition de mécanismes intégrant de la
régulation. La régulation concerne tout ce qui a trait à l'organisation du groupe (constitution
et vie des groupes, définition de droits et devoirs au sein du groupe, de règles de
fonctionnement et de comportement ; apprentissage et mise en œuvre de ces règles, droits et
devoirs). Elle donne ainsi un cadre aux interactions potentielles entre les différents membres
d'un groupe.
Nous faisons l’hypothèse que les mécanismes de régulation permettront d’optimiser le
media social que nous cherchons à construire, en améliorant plus particulièrement
l’engagement des participants dans le réseau d’échanges et la crédibilité des informations
échangées (il est ici très compliqué d'imaginer des « recettes » pour que les gens soient bien
ensemble). Pour cela, nous envisageons d’utiliser les résultats de l’analyse de réseaux sociaux
et des domaines autour de notre état de l’art pour définir des principes et critères qui
donneront lieu aux algorithmes en suivant certaines mesures à évaluer.
25
En résumé, l’originalité de notre projet est l'approche informatique des aspects
psychosociaux, privilégiant les échanges d’information entre contacts, optimisant l’équilibre
du réseau et permettant l’expression, la maintenance et le rapprochement d'intérêts
individuels.
1.4 Structure de ce document de thèse
Notre travail de recherche est structuré de manière classique en deux parties. Une
première partie délimite notre réflexion sur les systèmes de recommandation sur le Web et les
phénomènes psychosociaux induits. Une seconde partie présente le Service Web de mise en
relation par dynamiques sociales d’échanges d’informations que nous proposons.
La première partie de la thèse traite notre problématique, nos objectifs, l’originalité de
notre approche et plus particulièrement, elle traite l’influence des nouvelles technologies sur
Internet et leur obligation d’offrir de l’information adaptée aux internautes. Il s’agit d’intégrer
deux points de vue à cette adaptation : le point de vue informatique (§2.1) et le point de vue
social (§2.2). Nous exposons alors l’émergence de groupes d’échanges d’information.
Ainsi, le second chapitre de cette première partie développe le cadre théorique du
contexte informatique et du contexte social. Dans la première section de ce chapitre (§2.1),
nous exposons les systèmes de recommandation comme prometteurs de solutions
intéressantes dans le domaine d’échanges d’information en groupe. Nous présentons donc les
principales techniques de ces systèmes, les approches traditionnelles, leurs faiblesses, des
nouvelles pistes émergeantes pour ce type de systèmes, enfin, nous exposons les intérêts de
ces systèmes pour des analyses sociales inhérentes et d’autres technologies récentes dont ils
peuvent se servir et en particulier, celles révélant le phénomène « Social Networking ». Dans
la seconde section, (§2.2), qui décrit le cadre théorique du contexte social, nous introduisons
les réseaux sociaux virtuels et l’analyse de réseaux sociaux, avec tous leurs concepts
inhérents. Nous les présentons comme un moyen pour obtenir l’information adaptée et pour
influencer la motivation à la participation dans des réseaux sur le Web. De cette façon, nous
exposons ce que les analyses sociales peuvent apporter à des médias sociaux pour donner de
la « qualité » aux échanges informationnels.
Une fois évoquées ces questions théoriques, nous développons notre proposition dans
la seconde partie de la thèse, plus précisément, dans les chapitres 3 et 4.
Le chapitre trois se décompose en 3 sections : une pour décrire le cadre théorique de
notre approche, l’autre pour donner les grandes lignes de notre approche et la dernière pour
décrire le système développé. De cette façon, la première section formalise le cadre
théorique : la définition des concepts clés vis à vis de notre état de l’art et de nos théories. Ces
dernières incluent nos postulats, nos hypothèses et nos principes. Subséquemment, dans la
seconde section nous exposons nos mécanismes : de gestion d’information personnelle avec
des dispositifs intéressants pour aider l’utilisateur à élargir ses informations personnelles et
de recommandation de contacts pour aider l’utilisateur à ouvrir son réseau de contacts et en
conséquence, améliorer ses informations ; avec ces mécanismes, nous exposons aussi la
dynamique inhérente au réseau social proposé par notre approche, tout en s’appuyant sur nos
indicateurs sociaux. Ces derniers, permettent à l’utilisateur de développer des stratégies de
recherche d’information « pertinente », et de maintenir une « conscience sociale » vis à vis
26
des autres membres du réseau. La troisième section développe la description du système avec
sa fonctionnalité et son architecture technique.
Le quatrième chapitre présente deux évaluations afin de valider notre approche : une
avec des utilisateurs réels et l’autre pour simuler sur une même population différents
comportements sociaux. Ce travail a été réalisé avec la collaboration de FranceTélécom R&D
et le cartable électronique® de l’Université de Savoie. Pour les deux types d’évaluation, nous
présentons nos idées techniques, théoriques et fonctionnelles et l’analyse des résultats
obtenus.
Un dernier chapitre est dédié à la conclusion sur le travail développé et testé dans
notre approche et aux perspectives.
27
28
2 État de l’art
Résumé du chapitre
Les nouvelles technologies sur Internet doivent offrir de l’information adaptée aux internautes.
Deux points de vue doivent s’intégrer dans cette adaptation : l’informatique et le social.
Du point de vue informatique, les systèmes de recommandation offrent des solutions intéressantes.
Nous présentons l’état de l’art des systèmes de recommandations, leurs points forts et leurs points
faibles.
Nous présentons ensuite les analyses sociales en mettant en avant les résultats de ces analyses qui
pourraient être utilisés par les systèmes informatiques pour améliorer les échanges d'information.
Enfin, nous montrons comment les analyses de réseaux sociaux s’avèrent prometteuses comme un
moyen pour obtenir l’information adaptée pour influencer la motivation à la participation dans des
réseaux d’échanges sur le Web.
partir de notre connaissance de l’état de l’art sur les problématiques que nous avons
décrites dans le chapitre précédent, nous pensons qu’il est utile d’intégrer dans le
Web des outils nécessaires pour obtenir des informations adaptées aux besoins personnels de
chacun, tout en exploitant le phénomène d’organisation humaine que le Web révèle.
A
Web
W eb
Figure 2-1. Le Web peut devenir un moyen pour faire parvenir aux utilisateurs la
réponse à leurs besoins informationnels grâce à l’exploitation du phénomène d’organisation
humaine qu’y est sous-jacente.
29
Avec cette idée, nous divisons notre état de l’art en deux grandes parties : la première
partie présente les principaux systèmes informatiques actuels et leurs limites; la deuxième
partie montre le côté non informatique, c'est-à-dire, des concepts, des situations et des
problématiques psychosociales et économiques que nous avons étudiées pour apporter des
réponses aux limites des systèmes actuels.
30
2.1 Contexte informatique
D'importantes quantités d'informations sont à la disposition de chacun grâce au
développement des technologies de l'information. Afin d'aider à la découverte de ressources5
intéressantes, des outils comme les systèmes de recommandations (intégrant les systèmes de
filtrage d'informations) se sont développés. Cependant ces systèmes ont des faiblesses. Nous
allons donc à proposer des nouvelles pistes pour améliorer leurs faiblesses.
Nous entendons par « ressources » : de l’information, de la connaissance, de
l’expertise, du savoir, etc.
2.1.1 Les systèmes de recommandation
Les systèmes de recommandations peuvent fournir aux utilisateurs un flot continu de
ressources recommandées, sans qu'ils aient à exprimer explicitement ce qu'ils cherchent,
contrairement aux systèmes de recherche d'information où une requête doit être produite
chaque fois (Resnick et Varian, 1997 ; Schafer et al. 1995). En contrepartie, il faut que le système
connaisse les centres d'intérêt des utilisateurs (profils6) et suive leur évolution au cours du
temps. Cela est possible par exemple, grâce aux retours d'évaluations que l'utilisateur donne
sur les ressources fournies par le système.
Le fait de suivre des bonnes recommandations fait « gagner » du temps. Nous
retrouvons par exemple cette situation avec les personnes avec lesquelles nous interagissons
quotidiennement. Elles connaissent déjà nos préférences ou nos goûts. Nous faisons donc
confiance aux recommandations qu’elles peuvent nous offrir. Ainsi, il est donc naturel de
prendre des décisions en suivant les recommandations de tels tiers de confiance. En essayant
d’imiter ceci, des systèmes de recommandations sont devenus populaires sur le Web, mais
nous indiquent comment ceux-ci manquent encore de « qualités » humaines, qualités que nous
essayerons de développer dans le cadre de ce travail.
Avec ces idées, nous présentons dans cette section les systèmes de recommandation
d’information et leurs méthodes d’évaluation, l’émergence de nouvelles technologies (plus
« humanisées »), telles que le « social networking », les weblogs, leur importance dans le
Web Sémantique, et leur lien avec notre approche.
2.1.1.1
Définition des systèmes de recommandation
A l’origine, les systèmes de recommandations sont apparus pour essayer de résoudre
les problèmes liés à la surcharge informationnelle.
Un système de recommandation intègre un groupe d’utilisateurs
« producteurs7 » et consommateurs de ressources recommandables, un module de « calcul de
5
Nous entendons par ressources : de l’information (documents, résumés, etc.), qu’à travers du temps ou
de sa diffusion, peut possiblement accumuler de la connaissance, de l’expertise, du savoir, etc.
6
Le profil utilisateur est une structure de données qui décrit les centres d'intérêts d'un utilisateur dans
l'espace des ressources à recommander. Celui-ci est utilisée soit pour filtrer les ressources/objets disponibles (on
parle alors de filtrage basé sur le contenu), soit pour recommander à l'utilisateur ce qui a satisfait d'autres
utilisateurs ayant un profil similaire (on parle alors de filtrage collaboratif) (Resnick, 1997).
7
Des utilisateurs ou des petites entités logicielles (agents) fournissant des ressources au système de
recommandation ou qui recommandent directement de telles ressources.
31
recommandations8 » sur de telles ressources, et un groupe d’utilisateurs « consommateurs9 »
de ressources recommandées. La finalité est d'aider les utilisateurs à faire leurs choix dans un
domaine où ils disposent de peu d'informations pour trier et évaluer les alternatives possibles
(Shardanand et Maes, 1995; Resnick et Varian, 1997 ; Konstant, 1997).
Un défi majeur dans le domaine de la conception de systèmes de recommandations est
de produire des recommandations personnalisées et de haute qualité tout en minimisant
l'effort requis de la part des utilisateurs (producteurs et consommateurs).
Pour mieux comprendre ces systèmes, nous développons leurs caractéristiques10
suivantes :
Une technique d’acquisition de connaissances sur les utilisateurs, qui peut être :
Implicite
Avec un monitorage du profil selon l’usage du système : le système observe
l’utilisateur et enregistre son comportement.
Avec des heuristiques pour inférer11 les profils : usage de règles pour déduire de
l’information utile sur les utilisateurs.
Explicite
Avec le feedback de l’utilisateur : l’utilisateur donne de l’information explicite en
retour, par exemple la valeur d’importance d’une ressource, etc.
C’est l’utilisateur qui :
Programme des règles de filtrage : l’utilisateur donne des règles de filtrage au
système.
Crée des groupes ou des catégories dans le système.
Une représentation de profils (intérêts des utilisateurs) qui peut s’appuyer sur :
Des modèles avec vecteurs : le système utilise des vecteurs afin de modéliser les
ressources ou les intérêts des utilisateurs.
Des traces de navigation : le système développe un historique de navigation.
L’utilisation des profils pour sélectionner les ressources à recommander.
Une base de ressources par fois indexée :
Des bases de données internes de ressources : le système recommande à partir d'une
base de données de ressources.
L’« exploration » de pages Web : le système explore (crawle12) le Web afin de
trouver les ressources à recommander.
Une technique d’acquisition de connaissances sur les utilisateurs :
Utilisant le feedback13 de l’utilisateur (acquisition d’avis sur les ressources) :
8
Module qui collecte les recommandations des utilisateurs producteurs de recommandations. Puis il les
agrége et les dissentiment afin que les utilisateurs consommateurs puissent avoir des recommandations.
9
Des utilisateurs ou des petites entités logicielles (agents) qui possiblement suivront des
recommandations venant du système de recommandation.
10
Nous avons adapté ces caractéristiques (Midleton, 2003)
11
Présupposer, induire, déduire.
12
Explore.
13
Des retours ou de commentaires que les utilisateurs apportent sur les ressources.
32
Feedback sur les ressources : cette technique est utilisée par le système afin
d’aider d’autres utilisateurs susceptibles d’avoir des intérêts similaires.
Exemples de ressources : le système conserve des exemples de ressources avec la
finalité de former un stock collectif de ressources évaluées.
Historique de navigation : le système utilise l'historique de navigation enregistré
pour aider d'autres utilisateurs.
Selon le contexte du domaine :
Ressources de groupes / catégorisations : le système partage des groupes ou des
catégories soit définis par le système, soit par d’autres utilisateurs.
Domaine heuristique : le système partage entre tous les utilisateurs, un ensemble
de règles de domaine pour filtrer.
Une technique de recommandation qui peut utiliser :
Des heuristiques : règles utilisées pour trouver les meilleures ressources.
Appariements sur des similarités : fonction de similarité utilisée pour trouver des
ressources similaires à ceux de profils basés sur le contenu.
Le filtrage collaboratif : fonctions statistiques utilisées pour trouver des personnes
avec des profils similaires dont les ressources préférées sont recommandées.
Nous présentons ci-dessous un extrait de Midleton avec des exemples de systèmes de
recommandation en spécifiant la technologie que chacun utilise (Midleton, 2003). Les systèmes
en gras sont des systèmes commerciaux. Le symbole « - » indique que l’information n’est pas
disponible (c’est une stratégie de certains systèmes commerciaux).
33
alapage.fr
Figure 2-2. Classification de certains systèmes de recommandation selon la
technologie14 employée.
Entre autres, nous pouvons introduire trois systèmes représentatifs, que nous décrivons
dans la section suivante.
2.1.1.2 Quelques exemples significatifs de systèmes de recommandation
2-2 :
Nous présentons ici trois systèmes de recommandation représentatifs selon la Figure
CoCoA (Aguzzoli et al., 2001).
Système de recommandation de musique. Au fur et à
mesure qu’un utilisateur ajoute ou efface sa musique préférée, le recommandeur
suggère des recommandations. Le système utilise du raisonnement à partir de cas pour
classer la musique et le coefficient de corrélation de Pearson-r15 pour trouver des gens
ayant des intérêts similaires. La composition de recommandations se fait avec une
mesure de similarité de cosinus16.
Referral Web (Kautz et al.,, 1997b)
modélise un réseau social en analysant les sources de
communications (e-mail, net news, home pages etc.) pour obtenir un modèle du réseau.
OWL (Linton, 1999), ProfBuilder (Wasfi, 1999), SOAP (Voss, 1997), SurfLen (Fu, 2000), Tapestry
(Goldberg, 1992), Entrée (Burke, 2000), PHOAKS (Terveen, 1997), eBay (système commercial), EFOL
(Svensson, 2001), Expertise Recommender (Mcdonald, 2000), Fab (Balabanovic, 1997), GroupLens (Konstan,
1997), ifWeb (Asnicar, 1997), Levis (système commercial), LIBRA (Mooney, 2000), METIOREW (Bueno, 2001),
MIAU (Bauer, 2002), MovieFinder (système commercial).
15
Le coefficient de corrélation de Pearson (r) caractérise le niveau d’association linéaire entre deux
variables aléatoires x et y. Une association entre deux variables signifie qu’elles ne varient pas indépendamment
l’une de l’autre. Le coefficient de corrélation de Pearson est simplement une standardisation de la covariance de
manière à ce que celle-ci soit indépendante des unités de mesure des variables et ne varie qu’entre –1 et 1
(http://mathworld.wolfram.com/CorrelationCoefficient.html).
16
Mesure de distance vectoriel afin de trouver les éléments dont le vecteur de représentation est le plus
colinéaire avec le vecteur de la requête (Baeza-Yates et Berthier Ribiero-Neto, 1999, p.27).
14
34
Filtrage collaboratif
Similarités
Technique de
recommandation
Heuristiques
Événements de
domaine externe
Craw ling de pages Web
Source de
connaissance
Base de données
d’éléments interne
Profils basés sur la
connaissance
Traces de navigation
Modèle vecteur
Représentation
de profils
Domaine d’heuristiques
Élément de
groupes/catégories
Historique de navigation
Feedback des éléments
Groupes/catégories
Crées par l’utilisateur
Filtrage de règles
Feedback de l’utilisateur
Heuristiques pour inférer
l’information
Surveillance de
comportement
Exemple d’éléments
Information
partagée
Technique d’acquisition
de connaissance
Des heuristiques obtiennent les noms de personnes à partir de communications
individuelles et puis elles sont raffinées avec le coefficient de Jaccard17 entre chaque
nom par rapport aux autres. Une fois construit, le réseau social peut être parcouru et des
informations sur des personnes parlant d’un sujet en particulier peuvent être extraites,
par exemple, la liste de documents en rapport avec Michel Smith.
alapage.fr
est un service commercial comme amazon.com (recommandation/vente en
ligne de livres et produits similaires). Les clients peuvent évaluer les livres qu’ils ont
lus, les qualifier et ajouter des commentaires textuels. Cet avis sera partagé et utilisé
afin de recommander de manière collaborative à d’autres possibles clients. Les
recommandations sont faites soit pour les achats les plus vendus soit pour les achats
faits par des gens similaires. En plus au service de recommandation, il intègre un
service de recherche pour trouver des livres en particulier.
De la classification du tableau antérieur, nous constatons que la plupart des systèmes
de recommandations demandent explicitement aux utilisateurs de donner des ressources18
(commentaires, avis, annotations, rangs) et de les partager avec les autres utilisateurs afin
d’offrir une recommandation. : un utilisateur qui ne contribue pas à alimenter le système voit
non seulement les performances baisser pour lui-même, mais fait également baisser les
performances pour les autres ! Cette situation est un frein à une utilisation réelle, efficace et à
long terme des systèmes de filtrage collaboratif, comme le montrent des évaluations de
systèmes faites sur le terrain (Lueg, 1998 ; Resnick et al. 1994 ; Miller et al. 1997).
Afin de mieux comprendre les systèmes de recommandation, nous présentons dans les
sections suivantes les techniques principales de ces systèmes et leurs évolutions à nos jours.
2.1.1.3 Principales techniques des systèmes de recommandation
Les techniques (ou approches) principalement employées pour calculer des
recommandations sont : le filtrage basé sur le contenu et fondé les techniques d’indexation de
contenu, et le filtrage collaboratif fondé sur des techniques statistiques de corrélation de
profils. La première tente de suggérer à l’utilisateur, des ressources semblables à celles
« aimées dans le passé ». Ces ressources sont représentées par des caractéristiques qui
peuvent être automatiquement extraites telles que la fréquence de mots ou d’autres éditées à la
main, telles que le genre pour des films.
Dans l'approche par filtrage collaboratif, le recommandeur demande aux utilisateurs
d'évaluer des ressources, de sorte qu'il sache ce qu’ils aiment le plus. Puis, quand une
recommandation est demandée pour l'utilisateur courant (à recommander), lui seront
proposées des ressources que des utilisateurs semblables à lui ont aimées dans le passé19. Un
point intéressant est qu'un algorithme de filtrage collaboratif utilise les goûts d'une
communauté d’utilisateurs. Les meilleurs systèmes sont des systèmes qui combinent plusieurs
approches (Schein et al. 2002). Plusieurs de ces systèmes ont proliféré au cours du temps. Nous
présentons des exemples de telles évolutions dans la section qui suit.
17
Coefficient de similarité binaire entre ensembles (http://www-rocq.inria.fr/~bnguyen/publi/jft03.pdf).
Afin de se construire une base de données interne de ressources.
19
Avec la technique de filtrage collaboratif, le système peut recueillir les avis des utilisateurs de
manière explicite, en demandant à l'utilisateur d'évaluer quelques ressources, et de manière implicite, en faisant
des inférences sur les goûts des utilisateurs, en analysant ses usages. Par exemple, il suppose que l'utilisateur
aime un livre s’il l'achète.
18
35
2.1.2 Étude des systèmes de recommandations existants
Nous présentons quelques projets développés pendant ces dernières années ; il s’agit
généralement de systèmes de recommandation exploitant les approches de filtrage de
l’information (information filtering), de filtrage collaboratif (collaborative filtering) et la
traditionnelle recherche documentaire (information retrieval en anglais). Les chercheurs ont
décidé de combiner ces approches, afin d’affiner l’acquisition des profils des utilisateurs et de
leur offrir des informations adaptées. Les pistes développées sont : l’analyse de contenu,
l’analyse du contexte et le filtrage d’information. Nous présentons dans ce qui suit une étude
des systèmes existants au travers de ces trois approches.
Dans les sections suivantes, nous présentons l’orientation qu’ils ont prise, les
faiblesses de ce type de systèmes et les nouvelles approches qui commencent à voir le jour.
2.1.2.1 Systèmes de recommandations utilisant l'analyse du contenu
Nathaniel Good et ses collègues du projet de recherche GroupLens, ont intégré le filtrage
collaboratif basé sur des « agents20 personnels » pour trouver les similarités entre utilisateurs
et donner des recommandations adéquates sur des films cinématographiques (Good et al., 1999).
Ils déterminent les intérêts des utilisateurs en se servant de l'analyse syntaxique (sur la
grammaire) et sémantique (sur le sens) du contenu textuel.
Avec une perspective similaire à Delgado et ses collaborateurs, Alexandrin Popescul et
ses collègues, proposent un modèle probabiliste et génératif pour combiner des
recommandations collaboratives et des recommandations basées sur le contenu, de façon
normative (Delgado et al. 2001 ; Popescul et al. 2001). Des calculs statistiques permettent de
sélectionner l’information à recommander. Pour eux, l'incorporation du contenu dans un
système de filtrage collaboratif peut augmenter la qualité des recommandations. Toutefois,
quand les données sont extrêmement « épaisses21 » (peu de liens entre elles) -comme c'est le
cas dans beaucoup d'applications du monde réel- de l’information additionnelle devient
presque nécessaire pour adapter ces modèles globaux probabilistes.
Ainsi, analyser le contenu n’est en général pas suffisant. Par exemple, deux contenus
parlant de la chasse peuvent diverger par rapport aux objectifs poursuivis par leurs créateurs.
Un peut être pro-chasse et l’autre contre. En essayant de résoudre ce problème, une autre piste
a été d’analyser le contexte des ressources.
2.1.2.2 Systèmes de recommandations utilisant l'analyse du contexte
Le programme Autonomy's Kenjin (http://www.kenjin.com), suggère automatiquement le
contenu du Web ou des fichiers locaux, basés sur les documents qu'un utilisateur lit ou écrit.
Nous pouvons mentionner également les agents qui acquièrent les profils d'intérêt de
l'utilisateur (Lauwrence, 2000) pour construire des recommandations des pages Web comme
Letizia (Lieberman, 1995) et WebWatcher (Armstrong et al. 1995).
Après l’analyse du contenu, il s'avère important de « connaître » le contexte de
recherche des utilisateurs (profils) .Alors nous voyons d’autres projets qui exploitent les
profils, par exemple, les moteurs de recherche. A ce sujet Steve Lawrence se pose la question
20
En général, un agent est une entité virtuelle possédant de ressources propres, capable de percevoir son
environnement, d’agir sur lui, de communiquer directement avec d’autres agents et donc les comportements
visent à satisfaire ses propres objectifs.
21
D’autres l’appellent des données « creusées ».
36
: et si le contexte de recherche pouvait être automatiquement déduit (Lawrence 2000) ? Divers
projets ont essayé d’arriver à ce but, comme le projet Watson (Budzik et Hammond, 2000 ; Budzik
et al. 2000 ; Budzik et al. 1998). Dans ce projet, ils se basent sur le contenu de documents édités
dans Microsoft Word ou visualisés avec Internet Explorer. Watson modifie la requête et l'envoie
déjà modifiée aux moteurs de recherche, ajoutant ainsi automatiquement l'information de
contexte à la recherche.
Les systèmes de recommandations partageant avec les moteurs de recherche22 la nécessité de
filtrer l’information à fournir à un utilisateur.
Le mode de fonctionnement de
Watson
est également semblable à l'Agent
Remembrance
(Rodes, 2000a ; Rodes et Starner, 1996), qui indexe des fichiers, des messages électroniques (e-
mails), des papiers de recherche et cherche continuellement des documents liés à celui qu'un
utilisateur édite dans l'éditeur Emacs. D'autres projets similaires existent, comme : Margin
Notes (Rodes, 2000b), qui réécrit des pages Web pour inclure des liens vers des fichiers
personnels; le projet de Haystack (Adar et al., 1999), qui aspire à créer une communauté agissant
réciproquement pour la constitution de dépôts personnels d'informations.
Cependant, nous devons prendre en compte que les utilisateurs sont différents et donc
leurs besoins aussi. Même si les recommandations pour deux personnes visent au même type
de contenu ou de contexte, la pertinence qu’ils peuvent donner à une même recommandation
peut-être différente. Un domaine qui a mis en évidence ce problème est celui des moteurs de
recherche.
2.1.2.3 Systèmes de recommandations utilisant le filtrage d’information
Les systèmes de recommandation (Resnick et Varian, 1997 ; Schafer et al. 1995) ont été
employés principalement pour suggérer des films, des livres, des chansons, des plaisanteries,
etc. Cependant ils sont également importants dans le domaine de la recherche documentaire.
Glover et ses collègues ont travaillé sur l'accablement que les utilisateurs ressentent avec
les milliers de résultats retrouvés par un moteur de recherche, dont peu sont de valeur (Glover
et al. 1999). Les systèmes de recherche documentaire sont concernés tant par la « pertinence »
que par les « contraintes ». La pertinence (au sens de Glover et ses collègues) est binaire : un
document correspond au sujet de la requête de l’utilisateur ou non. Une contrainte (au sens de
Glover et de ses collègues) se réfère à une condition supplémentaire qui doit être satisfaite.
Une des limitations à la recherche documentaire utilisant seulement la pertinence et des
contraintes est que les utilisateurs peuvent avoir des préférences sur les documents qui ne
peuvent pas être exprimées. Donc, il y a aussi une nuance sur la pertinence : la valeur
subjective de l’information. Elle dépend du degré de personnalisation de la recherche.
La personnalisation d’une réponse à une recherche d’information peut se faire en
utilisant toutes les demandes précédentes de l'utilisateur. Ses intérêts et l'usage qu'il fait de
l'information obtenue, peuvent modifier les résultats (voir DirectHit23). Par exemple, les
moteurs de recherche utilisent la sélection de certaines réponses par les utilisateurs (chaque
lien de réponse est un lien vers le moteur pour que celui-ci puisse l’enregistrer).
22
Un moteur (« search engine » en anglais) est un programme qui indexe le contenu de différentes
ressources Internet, plus particulièrement de sites Web, et qui permet, à l’aide d’un navigateur Web, de
rechercher de l’information selon différentes paramètres, en se servant de mots-clés, ou par de requêtes en texte
libre, et d’avoir accès à l’information ainsi trouvée.
23
http://searchenginewatch.com/sereport/article.php/2165041
37
D’autre part, Flake et ses collaborateurs ont récemment montré que la structure des liens
du Web s’organise de telle sorte que les communautés de pages fortement liées peuvent être
efficacement identifiées en se basant uniquement sur leur connectivité (Flake et al. 2000).
Avec l’ensemble de pistes décrites jusqu’ici, nous avons trouvé toute une littérature de
projets développés tout en constatant leurs faiblesses. Nous les synthétisons dans la section
qui suit.
2.1.3 Faiblesses des systèmes de recommandations
Nous nous concentrons sur les faiblesses des systèmes de recommandation basés sur
des technologies de filtrage collaboratif. Nous pouvons essentiellement dire que le filtrage
collaboratif automatise, peut être trop, les processus, ceci en oubliant la dimension sociale de
l'environnement. En particulier, il ne prend pas en compte les opinions (commentaires ou
d’avis positifs ou négatifs des vis à vis d’autres) sur les ressources évaluées par d’autres
utilisateurs. En conséquence, la confiance qu’une personne peut avoir sur telles ressources
recommandées n’est pas considérée. Un système de ce type essaye tout simplement de les
déduire, en calculant la similitude de la façon dont les utilisateurs évaluent des ressources.
De cette façon, nous constatons les caractéristiques des systèmes de recommandation
listées dans les sous sections suivantes.
2.1.3.1 Problème de la collecte des méta-données sur les ressources
[Pb01]Les systèmes de recommandation ont plus de problèmes quand des
ressources ne peuvent pas être analysées par des machines : par exemple, il est impossible ou
très difficile à nos jours d’extraire des caractéristiques significatives telles que le genre,
l'auteur d'une chanson ou d’un film. Dans ce cas, nous avons besoin d'humains pour
étiqueter et classer des ressources. Cela présente beaucoup de problèmes : d'abord, il n'est
pas facile de décider des bonnes caractéristiques à étiqueter (genre, instruments, année...) et
l'étiquetage est cher, ennuyeux, susceptible d'erreurs et subjectif. D'ailleurs, pour certaines
ressources telles que les plaisanteries, il est pratiquement impossible de trouver les bonnes
caractéristiques.
[Pb02]Les systèmes de recommandation exigent des utilisateurs humains d'étiqueter
et de donner leur opinion sur des ressources. Ces types de systèmes essayent de suggérer à
l'utilisateur des ressources semblables à celles qu'il a aimées dans le passé.
2.1.3.2 Problème du démarrage à froid
[Pb03]Un autre problème est le démarrage à froid 24. Il se pose quand un nouvel
utilisateur entre dans un nouveau domaine où clairement, il n'a exprimé aucune opinion. Dans
ce cas, le filtrage collaboratif ne peut pas calculer de similitudes, et donc calculer de
recommandations.
[Pb04]Le calcul de similarité entre utilisateurs nécessite beaucoup de données pour
que les recommandations soient adaptées. Peu de données ne permettent donc pas d’avoir
confiance dans le système. Or, si nous représentons chaque utilisateur par un vecteur des
estimations sur des ressources et que nous les plaçons dans une matrice, la matrice résultante
24
Connu également comme le problème du nouvel utilisateur.
38
(utilisateurs, ressources)25, est très creuse26 (par exemple, l'ensemble de données
d'Eachmovie (McJones, 1997-url) est creuse à 97.4%). Ce qui est totalement normal. En fait, il est
encore nécessaire de filtrer les mauvaises ressources afin de suggérer les plus intéressantes
(ainsi, la taille de la matrice diminuera). Ceci signifie qu'il y a beaucoup de ressources qui ne
seront pas prises en compte et, par conséquent, ne seront pas évaluées non plus. En général, ce
manque de ressources signifie que la similitude de profils entre deux utilisateurs (le nombre
de ressources qu’ils évaluent) est très basse et souvent nulle. Pour trouver une solution, il a été
proposé la décomposition en valeurs singulières, afin de réduire la dimension des matrices
creuses (Sarwar et al. 2000).
2.1.3.3 Problème de sécurité
[Pb05]Les techniques de filtrage collaboratif peuvent être attaquées par des
utilisateurs nuisibles. Malheureusement, ces techniques tiennent compte de chaque individu
de la même manière. Dans ce sens il n'y a aucun moyen de découvrir des individus nuisibles.
Pour cette raison, les utilisateurs nuisibles qui connaissent le fonctionnement de l'algorithme,
peuvent facilement l'exploiter en influençant les recommandations créées. Par exemple,
supposons qu’un utilisateur nuisible veuille que le système recommande PolluRessource à
l’utilisateur VraiAmi : il peut créer FauxMembre, copier le profil de VraiAmi et ajouter une
bonne estimation sur PolluRessource. De cette façon le système trouvera FauxMembre
semblable à VraiAmi et lui recommandera le PolluRessource. Il existe des recherches sur ce
sujet (Levien, 2000-url ; Kamvar et al. 2003). Avec notre approche, qui est basée sur l’identification
de propriété sociale de chaque acteur nous pouvons contribuer ainsi à réduire ce problème.
2.1.3.4 Manque de contrôle sur le comportement du système
[Pb06]Les techniques de filtrage collaboratif ne donnent pas assez le contrôle à
l'utilisateur. Ces systèmes sont des boîtes noires dont les utilisateurs ignorent le processus de
recommandation. Si le système donne des bonnes recommandations, tout est bien, mais quand
il commence à mal recommander, il est très difficile pour l'utilisateur de comprendre pourquoi
et il ne peut pas remédier au problème27. Donc, il abandonne le système (Guernsey, 2003 ;
Zaslow, 2002). Par exemple, Herlocker et ses collaborateurs ont conduit une expérimentation
avec de vrais utilisateurs et ont constaté que les utilisateurs veulent voir comment des
recommandations sont produites et comment les autres membres évaluent des ressources
(Herlocker et al. 2000). En outre, Swearingen et Sinha, qui analysent également les systèmes de
recommandation dans une perspective d'interaction homme-machine, ont trouvé qu’il est
vraiment nécessaire de rendre transparente la logique de ces systèmes (Swearingen et Sinha,
2001).
2.1.3.5 Contrôle des données personnelles : caractère privé et emplacement
[Pb07]De nos jours, la plupart des systèmes de recommandation d’information
stockent les données privées sur des serveurs centralisés; se pose donc la question de la
« confidentialité » de ces données. Des approches centralisées souffrent en général de ces
inconvénients. L'information personnelle (ce que vous aimez, qui vous aimez) stockée dans
25
26
Façon traditionnelle des techniques de filtrage collaboratif.
Une matrice est dite creuse si elle contient de nombreux éléments identiques, habituellement des
zéros.
27
Nous pensons que le calcul de recommandations doit pouvoir se faire sous le contrôle de l'utilisateur.
La solution est déjà sur le Web : chaque utilisateur publie son information sur son site sous son contrôle et
n'importe quel service pourrait l’utiliser afin de fournir des services intelligents (par exemple les weblogs).
Maintenant, ces nouvelles technologies (avec la gestion de favoris, par exemple) permettent l'édition
décentralisée et facile de l'information.
39
un serveur centralisé signifie que le serveur pourra utiliser cette information. Par ailleurs, les
profils d'utilisateurs peuvent aussi se trouver dispersés dans différents serveurs souvent noncoopérants (par exemple, des préférences d'utilisateurs au sujet des livres sont stockées dans
amazon.com, alapage.com, barnesandnobles.com, etc.). Ceci signifie que l'utilisateur ne peut
pas se déplacer d'un système de recommandation vers un autre, sans perdre son profil (et,
avec lui, la possibilité de bonnes recommandations et un gain de temps) : nous constatons
alors une manque de standards d’échange pour récupérer son profil, ou bien un problème
d’architecture du système. Nous pouvons imaginer par exemple, que les données puissent être
hébergées globalement chez un tiers de confiance. Cette situation est essentiellement due à la
concurrence et peut facilement mener au monopole global parce qu'il est presque impossible
qu’un nouveau système de recommandation accède au marché tandis que, pour les systèmes
de recommandation bien consolidés (possédant beaucoup d'information des utilisateurs), il est
même possible d'accéder à de nouveaux marchés corrélés. D'ailleurs, avec une approche
centralisée, c'est le serveur qui contrôle les données personnelles et qui décide des politiques
de confidentialité.
2.1.3.6 Non prise en compte des aspects sociaux
[Pb08]Les systèmes de recommandation restent encore trop inhumains. Pour
devenir plus humanisés on a besoin d’intégrer des analyses des aspects sociaux. La littérature
récente nous montre que l'utilisateur a encore la sensation de ne pas obtenir les résultats
attendus (Lueg et al. 1997 ; Maltz et al. 1995 ; Herlocker et al. 2000 ; Adar et Huberman, 2000 ; Adamic,
2000-url). Pour essayer de comprendre ces défaillances il faut prendre en compte des aspects
sociaux. Nous constatons que divers chercheurs avaient déjà noté ce besoin. Upendra
Shardanand et Pattie Maes (MIT Media-Lab), avaient été déjà sensibilisés par la nécessité
d'inclure des concepts sociaux dans les systèmes sur Internet (Shardanand et Maes, 1995). Dans leur
projet Ringo (système de recommandation de musique), ils avaient déjà construit un système de
filtrage d'information sociale, afin d'automatiser le « bouche-à-oreille ». Les idées résultant de
leurs recherches sont très intéressantes :
Les personnes préfèrent notablement des informations provenant des amis ou des
experts, plutôt que le filtrage automatique.
L’utilisation du filtrage collaboratif.
Les études des équipes de Good et Shardanand montrent l’aspect positif de combiner
une approche humaine et informatique pour obtenir des résultats plus adéquats (Good et al.
1999 ; Shardanand et Maes, 1995). Par contre ces études semblent contraires aux résultats qu'ils
ont obtenus. L’équipe de Good a montré qu’un système de filtrage collaboratif peut arriver à
des recommandations plus précises qu’un ensemble d'opinions d’utilisateurs. Cependant, des
questions supplémentaires se posent :
Est-ce que ce sont les opinions qu’il faut prendre en compte ?
Des opinions de qui, adressées à qui, dans quel contexte et dans quelle situation, … ?
Faut-il vraiment se concentrer uniquement sur des opinions ?
Les systèmes de recommandation n’inspirent pas encore confiance.
[Pb09]Les humains cherchent toujours à savoir qui apporte quoi et si ce quoi est
fiable : ils ont besoin d’avoir une conscience de la réputation et de la confiance.
40
Actuellement, avec l'apparition des communautés en ligne, des weblogs28, des marchés
électroniques29, etc., un nouveau genre d'information est disponible permettant à un individu
d’apprécier l’information apportée par un autre individu. Cette appréciation peut être de deux
types : la « confiance » et la « réputation » (§2.1.3.2 ; (§2.1.3.5).
Plusieurs systèmes commencent à utiliser des métriques de confiance : entre autres,
et Fionna (Labalme et Burton, 2001). Des projets très intéressants sont
NewsMonster (www.newsmonster.org) et BlogNet (peerfear.org/blognet), qui fonctionnement avec des
weblogs et des canaux de nouveautés.
Advogato (Levien, 2000)
En analysant les divers projets qui essaient de résoudre quelques-unes de ces
faiblesses, nous avons constaté que dans la plupart d’entre eux, émergeait un phénomène où
peu de participants cherchait à tirer parti du plus de ressources possibles : « les passagers
clandestins ».
2.1.3.7 Le phénomène du « passager clandestin »
[Pb10]Les internautes préfèrent obtenir de l’information de manière gratuite plutôt
que d’en contribuer. Markoff voit l’Internet comme un environnement où les gens cherchent à
devenir « populaires » (Markoff, 1999) ; un exemple de popularité sont les liens vers d'autres
sites, et l'utilisation que les moteurs de recherche en font. Cette utilisation a montré qu'un petit
nombre de sites draine le trafic d’une large population du Web. À cet effet, Markoff rejoint
Adamic, qui a observé que les internautes préfèrent prendre de l’information de manière
gratuite, que de contribuer à son développement (Adamic, 2000-url). Lada Adamic dans ses
investigations sur Internet s'appuie sur trois lois : lois de « Zipf »30, lois de « Power »31 et loi
de « Pareto »32. Elles permettent de décrire le comportement des utilisateurs sur Internet, et en
particulier leur engagement (Adamic, 2000-url). Elle a prouvé aussi que toutes les trois signifient
que : « les petites occurrences sont très répandues tandis que les grandes sont très rares33 ».
Markoff valide cette affirmation avec la « tragédie » de Napster et les statistiques de Gnutella
(Markoff, 2000). Environ 25% des utilisateurs de Gnutella apportent 98% des fichiers. Le
28
Connus également comme « blogs » ou « blogues » en français. Un blogue est une page Web dit
« évolutive » et non conformiste présentant des informations de toutes sortes, généralement sous forme de courts
textes mis à jour régulièrement, et donc le contenu et la forme, très libres, restent à l’entier discrétion de l’auteur.
29
E-marketplaces en anglais.
30
Dans les années 30, un scientifique de l'université de Harvard, George Kingsley Zipf (1902-1950), a
montré qu'en classant les mots d'un texte par fréquence décroissante, alors, on observe (empiriquement) que la
fréquence d'utilisation d'un mot est inversement proportionnel à son rang. La loi de Zipf stipule que la fréquence
du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent,
son tiers, etc. Cette loi sera généralisée par Benoît Mandelbrot.
31
L'utilisation des lois de puissance pour concevoir des méthodes de recherches efficaces permet
d'approximer les distributions de degrés hétérogènes, et étudient les propriétés des chemins (aléatoires ou
déterministes) dans des graphes aléatoires avec de telles distributions de degrés. Ainsi, en passant par les voisins
de plus forts degrés, une requête trouve sa cible en un temps linéaire (Adamic et al., 2001). Par ailleurs, (Kim et
al., 2002) montre par simulation qu'une recherche passant par les nœuds de plus fort degré est plus efficace qu'un
chemin aléatoire. Elle reste toutefois polynomiale si l'on tient compte des boucles.
32
L'économiste et sociologue italien Vilfredo Pareto (1848-1923) a été le premier à remarquer que la
répartition des revenus dans la société n'était pas équitable. Il a constaté que 20 % de la population concentrait 80
% des revenus. Après lui, d'autres économistes ont vérifié que ce principe de répartition était valable dans
d'autres domaines. « Dans tout groupe de choses contribuant à un effet commun, la majeure partie de l'effet est
attribuable à un nombre relativement faible de ces choses », a confirmé Joseph Juran (voir
http://www.lentreprise.com/article/3.3080.1.373.html).
33
Par exemple, le cas pour les mots anglais : les mots de petite taille sont très utilisés alors que les mots
plus longs sont peu utilisés.
41
problème difficile est de donner envie aux internautes de coopérer dans des communautés en
fournissant de l’information.
De son coté, Patti Hartigan renforce aussi ces affirmations en exposant cette tragédie de
Gnutella (Hartigan, 2000). Un jour « quelqu’un devra développer un stimulant capable
d’encourager les gens à coopérer » affirme-t-elle. Différents projets essaient de relever ce
défi, par exemple, Formula34, mais il reste encore du travail à faire. Formula utilise un
algorithme génétique pour organiser le flux de connaissances qui doit exister dans la
communauté. Ce projet essaie de motiver une personne à résoudre le problème d'une autre, en
prenant en compte les caractéristiques psychologiques humaines.
La question du « passager clandestin »35 a été développée également par Olson dans une
étude sur les mécanismes de mobilisation collective (Olson, 1965/1978). L’auteur y montre que
la prise de conscience de l’intérêt commun ne conduit pas les individus rationnels à passer à
une action commune. Dans la mesure où la mobilisation produit un bien public dont profite
l’ensemble de la collectivité, l’individu a intérêt, en l’absence de contraintes, à se comporter
en passager clandestin.
Cependant, il a été prouvé que dans les contextes où les personnes cherchent à maintenir
leur place dans leur groupe (d’amis par exemple), il n’y a aucune tolérance vis à vis des
passagers clandestins (Dyer et Nobeoka, 2000; Weisband et al. 1995). En effet, la tendance des
personnes dans un groupe qui les observe est de montrer qu’elles peuvent être appréciées
d’une façon ou d’une autre. Pour ceci, il faut que dans le groupe il y ait une conscience de la
réputation et de la confiance des uns et des autres. Nous développons ceci dans la section
suivante.
2.1.4 Un exemple d’application : la gestion de favoris
Plusieurs chercheurs, par exemple, Delgado et ses collaborateurs, Lawlor, Popescul et
ses collaborateurs, Andrews, Kanawati et Malek, etc., s'intéressent aux favoris (Delgado et al.
2001 ; Lawlor, 2000 ; Popescul et al. 2001 ; Andrews, 2000 ; Kanawati et Malek, 2000). Les favoris sont
les liens (URIs) que les utilisateurs stockent afin d’y accéder postérieurement, parce qu’ils les
apprécient. Ils s‘intéressent également aux relations sociales qui créent un phénomène
communautaire (Hall, 2001 ; GMD-FIT, 2000 ; Grather et Prinz, 2001), grâce au stockage des liens
communs.
Joaquin Delgado, Naohiro Ishii, et Tomoki Ura (Department of Intelligence & Computer
Science Nagoya Institute of Technology) nous présentent des études intéressantes de leur
système RAAP (Research Assistant Agent Project) (Delgado et al. 2001) développé pour aider
l'utilisateur à classer des documents (favoris). Ils utilisent des aspects sociaux pour le filtrage
(collaboratif) d’informations et travaillent sur :
L’automatisation du « bouche-à-oreille ».
Un système multi-agent dit social, pour faire des recommandations aux
utilisateurs.
L’apprentissage du profil de l’utilisateur.
L'indexation de termes pour la classification de documents (favoris).
34
SuccesFormula,
http://www.3form.com/formula/whatis.htm, 2001
Le phénomène du "passager clandestin" évoque l'internaute qui prend de l’information de manière
gratuite mais qui n’en produit pas.
35
42
Ils voient le problème de classification comme une combinaison de deux disciplines : la
Catégorisation des Textes (Text Categorization) et le Contrôle de Pertinence (Relevance
Feedback). La « Catégorisation des Textes » peut être définie comme l’affectation de
catégories prédéfinies aux documents de type textes libres. D'autre part, le « Contrôle de
Pertinence » met en œuvre des algorithmes d'apprentissage (machine-learning) dans les
systèmes de recherche pour poursuivre une recherche documentaire basée sur des mots-clés
en la précisant à partir des résultats d'une requête précédente. Précisément, la catégorisation et
la recherche des textes, bien que très connexes, ont été traitées par la communauté IR tout à
fait séparément.
Lawlor de son coté, s’intéresse à lister divers services du Web pour la gestion de favoris
(Lawlor, 2000), afin d'offrir des services pour y accéder, les partager, les trier et les classifier.
Andrews voit ces types de services comme une nouvelle façon de « personnaliser » l’Internet
du fait de la grande quantité de favoris que nous stockons toujours (Andrews, 2000).
Tout le monde a besoin de chercher de l'information et de la classer. Plusieurs services
de gestion de favoris ont donc été créés dernièrement. Ils permettent par exemple de faciliter
l'accès aux informations sans importer les informations de localisation ; ils offrent la
possibilité d'annoter et de partager ces annotations, etc. Par exemple : le projet RelativeWeb qui
est une « Solution libre pour la gestion de Liens » de Reliance (Reliance, 2000-url) ; le projet
Bookmark-Commando36 ; le projet PageTracker « Un outil de favoris portables pour la
notification –fine-grain » (Trevor, 2001), etc.
Kanawati et Malek abordent ce thème avec le concept de collecticiels (groupware) ; ils
introduisent leur système CoWing, un système de gestion collaboratif de favoris (Kanawati et
Malek, 2000). Un favori est composé ici d'une URL, un titre de page, une date de création d’un
favori et une date de dernière visite. Selon eux, « il faut construire des outils de gestion
collaborative des favoris où un groupe de personnes peuvent partager leurs expériences et
résultats ». Assurer que les favoris stockés sont encore valides (éliminer les liens cassés, les
contenus obsolètes, …).
Les problèmes qu’ils ont mis en avant, entre autres sont :
Comment se souvenir ? (Denoue et Vignollet, 2000) Si le nombre de favoris augmente, il
n'est pas facile de se souvenir de l'endroit où les récupérer. L'utilisateur doit les classer,
sinon, il doit rester avec ses favoris désordonnés. Selon des études empiriques,
seulement 23% des utilisateurs classent leurs favoris au moment de leur création, 26%
ne les organise jamais, et l’autre moitié les organise de façon non régulière.
Comment entretenir les favoris ? Les sites Web et les utilisateurs évoluent avec le
temps. Les ensembles de favoris doivent être révisés assez souvent pour :
faire correspondre les favoris avec l’information dont l’utilisateur a besoin,
assurer que les favoris stockés sont encore valides (éliminer les liens cassés, les
contenus obsolètes, …).
l’entretien est un processus consommateur de ressources (et donc de temps). S’il
n'est pas réalisé assez souvent, l’utilité de « bons favoris » qui en résulte sera
annihilée.
36
Bookmark Commando,
http://www.bookmarkcommando.com/ , 2001.
43
Néanmoins, il semble qu'une partie des favoris ne corresponde pas aux intérêts actuels
des utilisateurs. Ainsi, les systèmes qui prennent les sites indexés par les utilisateurs pour
déduire leurs intérêts font des erreurs non négligeables. Kanawati et Malek listent les
problèmes qui se trouvent dans les systèmes de gestion de favoris (Kanawati et Malek, 2000) :
Les outils actuels ne sont pas assez adaptés aux environnements de travail habituels des
utilisateurs. Alors, collaborer implique l'effort d'apprendre à gérer un nouvel outil de
travail. « L’utilisateur doit continuer en utilisant sa propre application même dans un
environnement collaboratif ».
Le problème du démarrage à froid. Dans un environnement de favoris partagés, le
système collaboratif demande à tous les utilisateurs de qualifier l’information pour
donner au système la possibilité de découvrir des similarités entre utilisateurs. Les
opinions partagées sont importantes. Il se pose alors, le problème de masse critique,
parce qu’il faut une grande masse d'utilisateurs, sinon, il n'est pas possible d'obtenir des
recommandations de favoris.
Le problème de la personnalisation. Le système doit permettre à chaque utilisateur
d’adapter l’application en fonction de son point de vue et ses besoins d’information ; le
système doit également donner à l’utilisateur des recommandations pertinentes. Il ne
faudra « jamais imposer des classifications déjà existantes, sinon, l’utilisateur serait
obligé d’avoir deux systèmes de favoris, un pour l’application collaborative, et un
personnel ».
Le problème de la protection des données personnelles (« privacy » ou « domaine
privé ») se concentre dans le contrôle que chaque utilisateur doit avoir pour gérer ce que
les autres peuvent savoir de lui. Le système doit donner à chaque utilisateur la
possibilité de choisir quelle information partager et avec qui.
La possibilité d’avoir ce type de ressources partagées dans un système collaboratif
exige donc de la volonté des utilisateurs, ce qui n’est généralement les cas.
2.1.5 Premières réponses aux problèmes identifiés
A partir de l’observation de ces faiblesses, des constatations et des nouvelles pistes
apparaissent pour répondre aux problèmes posés dans les systèmes de
recommandation[Pb01..Pb10]. Une « découverte » importante est la prise en compte des
phénomènes psyco-sociaux [Pb09]. Avec ces phénomènes, d’autres sujets sous-jacents
apparaissent, par exemple, la diversité des individus et des leurs rôles vis à vis de leur
participation dans de dynamiques d’échange d’information (opportunistes, altruistes, ayant de
la réputation, etc.). Nous développerons ces concepts dans le chapitre suivant qui décrit notre
approche (§chapitre 3). Notre idée est de donner conscience à chacun de leurs rôles et de leurs
contributions dans un réseau d’échanges. Pour le [Pb07] relatif à l’utilisation de données
personnelles nous développons de mécanismes de contrôles de partage de l’information.
Pour les faiblesses de la section 2.1.3.1 [Pb01;Pb02], nous nous dirigeons vers un
« gestionnaire de favoris personnels ». Notre idée est permettre que les ressources à
recommander aient associés de manière implicite, l’appréciation des humains et pas du
système. Le caractère personnel que nous intégrons essaie de combattre les faiblesses décrites
dans la section 2.1.3.4 et de la section 2.1.3.5 [Pb07]: nous voulons que chaque personne
aie le contrôle sur ses informations et en faisant ainsi, chaque personne saura explicitement
pourquoi et comment les recommandations sont faites et également, le caractère privé des
44
informations (centralisée ou non) sera implicitement respecté. Avec ce point de vue, il y a eu
quelques tentatives d’utiliser les systèmes de filtrage collaboratif dans un environnement
distribué. John Canny avec son travail « Collaborative filtering with privacy », critique
l'approche centralisée dans laquelle toutes les données des utilisateurs résident sur un serveur
central (Canny, 2002). Il propose un modèle alternatif dont les utilisateurs contrôlent toutes les
données de leurs journaux (logs). Il décrit également un algorithme par lequel chaque
utilisateur peut calculer ce qu’il appelle un « agrégat » public de ses données, qui n'expose pas
les données d'usage individuel. Donc, d'autres peuvent utiliser cet agrégat pour calculer des
recommandations. Par ailleurs, dans la même perspective distribuée, Hart et collègues ont
proposé un système appelé « iOwl » qui permet d’échanger entre les pairs des meta-données
ayant rapport aux traces de navigation sur le Web (Hart et al., 2000). Ils utilisent des techniques
d'extraction de données particulières aux profils des utilisateurs, par exemple, les modèles
habituels de navigation. Ces meta-données sont échangées avec d'autres et sont utilisées dans
des calculs individuels pour des recommandations possibles d'URLs (favoris).
Nous pensons qu’en utilisant un « gestionnaire de favoris personnels », les personnes y
placeront leurs informations avec la confiance qu’elles seront utilisées que sous leur contrôle
et de cette façon il sera plus encourageant d’intégrer plus. Ceci pourrait nous aider à
combattre les faiblesses décrites dans la section 2.1.3.2 : pas de démarrage à froid car les
personnes gèrent leurs propres informations (obtenues pendant la navigation sur le Web). Le
fait de permettre un gestionnaire de favoris sous leur contrôle, permet qu’elles puissent
décider le type de partage de leurs informations personnelles mais également à qui les
partager (droits de visualisation). Une telle possibilité exige que les personnes connaissant à
qui partager (généralement aux personnes qu’ils connaissent), quoi partager, quoi partager
avec qui, à partir de qui chercher une information (une personne reconnu dans un domaine),
etc. Ceci tout en respectant les décisions sur les droits d’accès. Pour contrôler ces échanges,
les personnes ont besoin d’avoir un type de « conscience sociale » afin d’apprécier les
personnes qui leur apportent les informations les plus pertinentes.
La confiance est le fait de croire à la pertinence de l’information apportée par
quelqu’un. La réputation est le fait d’être avantageusement reconnu pour la valeur de
l’information que l’on a apportée. La confiance sur une personne engendre de la réputation
parce que l’information venant de cette personne aura une valeur vis a vis d’autres. La gestion
de cette confiance37 permet donc de repérer des « passagers clandestins » (§2.1.3.7) et des
polluposteurs (des personnes qui polluent le réseau avec des informations truquées) et ainsi de
permettre une autorégulation assurée par chaque individu en fonction de son comportement
face à ces types d’utilisateurs. La réputation est vue principalement comme la propriété d'un
individu, qui lui a été assignée par son « réseau social38 » et qui a été calculée à travers
plusieurs relations de confiance : « la réputation est la mémoire et le condensé du
comportement des transactions passées » (O’Reilly et associés, 2001). La confiance et la
réputation des personnes dans des groupes sociaux ne peuvent être perçues qu’avec des
moyens subjectifs comme la conscience sociale. Il s’agit de la connaissance immédiate et
réflexive que certains individus ont de leur entourage.
37
Il y a beaucoup de définitions de la confiance due au fait que la confiance est un concept initialement
social. La confiance est une unité dyadique : « elle est une attente subjective qu’un individu a du futur
comportement d’un autre individu » (Mui, 2002). Pour plus de détails, Resnick et ses collaborateurs fournissent
une analyse complète de la plupart des systèmes de réputation existants (Resnick et al. 2000).
38
Un réseau social est une organisation sociale formée de personnes en relation directe ou indirecte
entre elles et obéissant aux mêmes directives.
45
Confiance et réputation sont donc deux concepts qui vont ensemble. Pour avoir
conscience de la réputation des membres d’un réseau, il faut avoir conscience de la confiance
que les membres se donnent les uns aux autres39. A ce sujet, certaines personnes croient que le
monde du futur sera basé sur la réputation : la réputation deviendra la seule « monnaie »
d’échange dans ce qu’elles appellent « une nation virtuelle » (Ghosh, 1998).
Il n’est naturellement pas possible d'établir des relations directes de réputation avec
chaque membre, aussi, il est important de partager des jugements au sujet des autres. Sen et
ses collaborateurs démontrent que les agents coopérants partageant leurs avis sur d'autres
agents, ont une meilleure performance (ils maximisent leur performance individuelle) que
ceux qui ne veulent pas collaborer (Sen et al. 2002).
L’intégration d’analyses sociales (§2.1.3.6) dans notre approche de la régulation d’un
média social a pour but de contribuer au traitement des problèmes listés dans la section
2.1.3.3.
En résumé, notre analyse de l’état de l’art nous a conduit à identifier des besoins du
caractère social et humain d’un média social, puis l’observation de l’intérêt à respecter le
caractère privé de l’information, en dernier, nous exposons la nécessité d’améliorer les
moyens pour la gestion d’information personnelle (gestion de favoris).
2.1.6 Nouvelles technologies pour des médias sociaux plus humains
Pour combattre des principales faiblesses des systèmes de recommandations, des
nouvelles technologies s’avèrent prometteuses. Elles ébauchent une perspective de
développement de médias sociaux plus humains, plus sûres, etc. Elles incluent les systèmes
« pair à pair », les « weblogs » et les phénomènes « social networking ». Nous les décrivons
dans la section suivante.
2.1.6.1 Systèmes pair à pair
Une piste exploitée aussi est l’utilisation de technologies pair à pair ou peer-to-peer.
Peer-to-peer désigne une classe technologie qui tire parti des ressources40 disponibles sur
l'Internet (Shirky, 2000-url). Il est constitué d’une multitude de nœuds, également appelés
« pairs ».
Nous la mentionnons ici mais nous ne considérons pas que cette technologie puisse
être appliquée aux des systèmes de recommandations tels que ceux que nous proposons dans
notre approche.
En effet, il y a un gros débat sur l'utilisation de ce type de systèmes : est-elle positive
ou négative ? Pour répondre à ceci, il y a deux approches opposées, qui peuvent se résumer
dans la théorie de la « tragédie des communs » ou « the tragedy of the commons » (Hardin,
1968) et dans la « cornucopia of the commons » (Briklin, 2001). Les « commons » sont des
"biens" appartenant à toute une communauté et non à quelqu'un en particulier.
Marsh fut le premier à introduire le concept de confiance dans une communauté distribuée (Marsh,
1994). Il y a eu plusieurs autres tentatives pour modéliser les concepts de confiance et de réputation, afin de les
représenter dans les sciences informatiques (Abdul-Rahma et Hailes, 2000 ; Zacharia et al. 1999 ; Ketchpel et
Garcia-Molina, 1999 ; Kamvar et al. 2003 ; Aberer et Despotovic, 2001 ; Mui, 2002) mais il faut noter que cette
recherche est très récente et les approches encore intuitives.
40
Matérielles et/ou humaines.
39
46
Les supporters de la « tragédie des communs » (nous) affirment qu’une ressource
commune est condamnée à la disparition par sur-exploitation, c’est à dire, les biens souffrent
du phénomène du « passager clandestin41 ». Cette situation provoque rapidement une
consommation et une indisponibilité de ressources. Dans la « cornucopia of the commons » il
est affirmé que si « l’effort pour contribuer à la création d'un bien est faible, alors d'autres
biens nouveaux peuvent être créés par des travaux spontanés, venant de tous les utilisateurs
du système ».
2.1.6.2 Les « Weblogs »
Les weblogs (souvent dits « blogs » ou « blogues ») sont un phénomène émergeant sur
le Web. Ils sont une nouvelle piste très intéressant pour les systèmes de recommandation
parce que ce sont des sortes de journaux personnels en ligne : un site Web mis à jour
fréquemment et organisé chronologiquement, très facile à créer et à maintenir, qui n’exige de
connaître ni HTML ni programmation pour éditer notes personnelles. Ainsi beaucoup de
personnes dans le monde maintiennent leurs propres blogs et y publient leurs pensées
quotidiennes. L’intérêt porté sur les blogs est confirmé par les faits suivants :
en février 2003, Google a acheté les laboratoires Pyra-Labs, une des premières
compagnies à créer une partie de la technologie d'écriture des weblogs et son site Web,
Blogger.com
Stanford et Harvard favorisent leur utilisation parmi leurs étudiants comme un moyen
d’édition des idées et des résultats de recherches.
La technologie est incroyablement simple mais a certaines caractéristiques spéciales.
Les outils de Weblogs créent des fichiers HTML standard pour la navigation, mais également
certains fichiers XML bien définis sémantiquement qui ont l’avantage d'être compréhensibles
par une machine. En plus du fichier standard index.htm, ils rajouteront un fichier index.rss (et
souvent le fichier index.xml) ; ces fichiers sont exprimés au format d'échange RSS42 (Rich
Site Summary).
En fournissant un sommaire des articles récemment publiés sur un site Web, ce
format permet la réception de l'information déjà classée. Ceci signifie que la collection est
automatisée et peut être lue, recherchée et suivie à n'importe quelle heure. Tous les weblogs
éditent de l'information en format RSS mais les grands médias traditionnels le font aussi, par
exemple CNN.com. Chaque weblog peut être analysé par des machines et en fait peut être
agrégé par l'intermédiaire de services centralisés (http://daypop.com, http://weblogs.com,
http://blo.gs, etc.).
Les liens entre les blogs et ressources (appelé également blog-rolling en anglais)
permettent la construction décentralisée d'un réseau riche d'informations, appelé blogosphere.
Pour donner une idée du potentiel important de cette technique (pour acquérir des
données sur les utilisateurs et les ressources), il faut visiter http://www.allconsuming.net, un
site où vous pouvez savoir ce que la communauté de blogging lit à l'heure actuelle. Le
fonctionnement du système est simple : un crawler (ou explorateur du Web) obtient la liste de
blogs de http://weblogs.com, les analyse tous, en extrayant chaque URL contenant un ISBN
41
42
Free-rider en anglais.
http://backend.userland.com/rss
47
trouvés dans un des messages des blogs (et un pointeur vers amazon.com ou alapage.com ou un
autre dépôt en ligne de livres). Enfin, il agrège ces données et montre les livres mentionnés
par période, horaire, hebdomadaire ou mensuelle.
Quelques « bloggers » ont commencé à exprimer d'autres genres d'information avec
des dossiers en XML. Il y a des foaf.xml (Friend-Of-A-Friend43) dans lesquels vous pouvez
énoncer qui sont vos amis, personnes en qui vous avez confiance. Il y a des smbmeta.xml44
par lesquels les petites et les moyennes entreprises peuvent annoncer leur localisation, leur
secteur d'activité, leur type d'affaires, etc. Il y a des XFML45, un format simple de XML pour
échanger des meta-données, par exemple, sous forme de taxonomies46.
2.1.6.3 Le phénomène « Social Networking »
Une autre technologie à intégrer dans les systèmes de recommandation pour les rendre
plus humains : les réseaux de relations sociaux ou réseaux sociaux (en anglais « social
networking47 »). Le phénomène de « Social Networking » a débuté pendant la période de
réalisation de notre approche. Différents projets prolifèrent aujourd’hui appliquant le « Social
Networking » que nous appelons réseau social. Ceci confirme la conviction de nos intuitions
sur le système que nous proposons.
Le réseau social représente l'ensemble des relations que deux ou plusieurs individus
peuvent avoir entre eux. Par exemple : les anciens élèves d'une école forment un réseau, deux
personnes natives d'un même village forment un autre réseau, les membres d'un même club de
tennis forment également un réseau... Le principe de réseau social est ainsi pratiquement
infini et concerne réellement tous les types d'individus.
Le Web est donc devenu un moyen facile et rapide d'entretenir son propre réseau de
relations ou de créer de nouvelles branches jusque là inexplorées. La majeure partie des
premiers sites Internet de « Social Networking » a d'ailleurs largement une orientation
« Business » non dissimulée.
43
http://xmlns.com/foaf/0.1/
http://www.trellixtech.com/smbmetaintro.html
45
http://xfml.org
46
Classifications.
47
Voici un extrait intéressant du Journal du Net : « Et si l'on vous disait qu'il n'y a que six
intermédiaires entre vous et votre idole ? Une récente étude réalisée par l'institut américain de recherches en
sociologie de l'Université Columbia confirme la théorie avancée par le psychiatre Stanley Milgram, selon
laquelle il n'y aurait que six degrés de distance entre vous et... n'importe qui d'autre dans le monde. Jusqu'à
présent la théorie du docteur Milgram, "it's a small world", n'avait pas pu être vérifiée faute de moyens
techniques et humains. Mais l'avènement de l'Internet et pas moins de 61 168 internautes originaires de 168
pays sont venus au secours de la science. Leur mission : parvenir à trouver le plus rapidement possible un
illustre inconnu. Lorsqu'on dresse un profil-type du messager (le "sender"), il est le plus souvent nordaméricain, généralement instruit et chrétien. Les armes dont il dispose : un seul e-mail par personne. Les règles
du "jeu" : se servir de sa seule cartouche-mail pour joindre un contact que l'on considère plus proche que soi de
l'objectif, et lui-même devra faire passer ce message jusqu'à ce que l'inconnu soit retrouvé. Les premiers
contacts sont avant tout adressés aux amis (67 %), vient ensuite la famille (10 %) et les collègues (9 %).
Cependant, les personnes contactées ne font pas partie des volontaires et ne font pas toujours l'effort de
chercher un contact, ce qui fausse l'expérience. Ce phénomène est classé par les chercheurs dans le "taux
d'usure de la chaîne". Il se peut également que la chaîne ne trouve pas son but et se brise. En conséquence, les
chercheurs ont dû prendre en compte tous les paramètres et obtiennent une moyenne de 5 à 7 intermédiaires
nécessaires pour joindre un inconnu. Seuls quatre intermédiaires en moyenne étaient nécessaires pour les 384
chaînes soient parvenues à dénicher leur cible. Ce qui laisse penser comme Stanley Milgram, que le monde est
bien petit... » (http://social-networking.joueb.com/news/2.shtml).
44
48
Sites internationaux
LinkedIN
http://www.linkedin.com
Rize
http://www.rize.com
Orkut
http://www.orkut.com
NetFriends
http://www.netfriends.com/
FriendsOfFriends
http://www.friendsoffriends.com/
FriendSter
http://www.friendster.com/
Ecademy
http://www.ecademy.com/
EveryonesConnected http://www.everyonesconnected.com
OpenBC
https://www.openbc.com/
Sites Francophones
Viaduc
http://www.viaduc.com
Friendset
http://www.friendset.com/
DotNode
http://www.dotnode.com/
NetFriends
http://www.netfriends.fr/
Amisdamis
http://www.amisdamis.com
AmidAmi
http://www.amidami.fr
PlanetMoi
http://www.planetmoi.com
CopainsdAvant http://www.copainsdavant.com
Trombi
http://www.trombi.com
Passado
http://www.passado.fr
Figure 2-3. Liste de sites de « Social Networking ». Pour une liste plus complète :
http://socialsoftware.weblogsinc.com/entry/9817137581524458/
Pour les utilisateurs des applications de Social Networking, ces sites peuvent être vus
comme des outils intégrant précisément des filtres comment mécanismes permettant de faire
le tri dans les échanges. Ces outils rendent plus faciles ce que les utilisateurs font déjà
(communiquer par exemple) ou permettent enfin de faire ce qu’ils voulaient faire (trouver des
nouveaux contacts dans un contexte relativement sécurisé par des personnes qu’ils
connaissent déjà).
L’objectif de ces applications est de rapprocher des personnes par affinités,
motivations, goûts ou volonté d’agir solidairement dans un domaine donné. Même les
entreprises s’intéressent au Social Networking. Par exemple pour permettre en interne, grâce
aux Intranets, la mise en commun des carnets d’adresses pour une vente dans un pays à
prospecter, ou pour faire exploiter les réseaux de relations (une forme avancée de knowledge
management). Selon l’institut d’études américain Jupiter Research, un tiers des internautes
américains serait intéressé par ce type de services. Les grandes entreprises de communication
et de logiciels s’intéressent évidemment aux réseaux de relations sociales. Ceux qui
fabriquent des terminaux, bien sûr, mais aussi les entreprises de logiciels ou de services.
Nokia, Cisco avec son WiFi Phone, Intel ou Microsoft sont présents. Mais aussi des start-up
comme Ntags (badges intelligents) ou Spotme (localisation de personnes dans les congrès).
Pourtant avec une telle explosion du Social Networking, la prudence s’impose.
Derrière ce foisonnement des réseaux peuvent se cacher des volontés de traçabilité des
usagers. L’échange et la connexion de groupes à groupes favorisent l’espionnage, les atteintes
à la vie privée. Pour cette raison nous nous intéresserons à appliquer ces concepts dans le
domaine de systèmes de recommandation et de filtrage collaboratif mais avec la finalité de
favoriser l’individu. Nous proposons donc une approche centrée sur l’utilisateur, qui doit lui
permettre le contrôle sur ses données, sur son réseau, tout en mettant à sa disposition une
application utile pour ses usages personnels quotidiens.
Cette approche nécessite la prise en compte de facteurs humains et sociaux qui ne sont
pas forcement liés à l’informatique.
49
2.2 Contexte socio-psychologique
Le Web évolue constamment en permettant la prolifération ou la destruction de
ressources et d’organisations humaines. Pour ces dernières, il offre les conditions pour la
communication et la collaboration via les réseaux informatiques48 (Sproull et Kiesler, 1991). Les
individus utilisent de plus en plus ses contacts pour résoudre des problèmes liés à la
localisation ou à l’obtention des ressources adaptées à une recherche spécifique
d’information.
Par exemple, dans le domaine du CSCW (Computer Supported Cooperative Work),
les chercheurs se sont intéressés au rôle des réseaux sociaux. Citons par exemple Clément
(Clément, 1990), qui a déclaré que les utilisateurs ont développé des réseaux collaboratifs
simples, pour apprendre à utiliser un nouveau logiciel. Plusieurs études ont montré que, pour
rassembler de l'information et de l'expertise dans une organisation, le moyen le plus efficace,
est d’utiliser les réseaux simples de collaborateurs, c’est à dire, des collègues et des amis
(Garton et al. 1997). De tels réseaux sont appelés « Réseaux d'Aide » par Eveland et ses
collaborateurs (Eveland et al. 1994). Par conséquent, nous interprétons ces résultats : les gens
utilisent des relations interpersonnelles dans des activités quotidiennes pour obtenir de
l’information.
Également dans le domaine du CSCL (Computer Supported Collaborative Learning),
« les réseaux informels d’aide par les pairs49 » sont un élément courant pour l’apprentissage
collaboratif. Cette notion est compatible avec les communautés d'étudiants de Wenger
(Wenger, 1996). Ces communautés permettent aux personnes qui partagent des buts
d’apprentissage dans un véritable environnement d'apprentissage, de développer des liens qui
renforcent les bénéfices de l’apprentissage. De ce point de vue, divers systèmes ont été
proposés. Par exemple, Greer et ses collaborateurs ont proposé PHelpS (Peer Help System)
pour assister les ouvriers dans l’exécution de leurs tâches, et trouver aide ou soutien auprès de
leurs collègues si nécessaire (Greer et al. 1998). Il s’agit d’un médiateur à la communication, sur
des sujets spécifiques et des tâches-ciblées.
Plusieurs disciplines convergent ainsi vers la nécessité d’intégrer des analyses sociales afin de
comprendre le fonctionnement des organisations humaines pour obtenir des ressources : la
sociologie, la psychologie, l’économie, entre autres.
Pour mieux comprendre et exploiter ces phénomènes humains, l’analyse des réseaux
sociaux est une technique fort utile50. Nous la détaillerons dans une section suivante. D'un
point de vue sociologique, elle suit une approche structurelle51. L'objectif est l'étude d'une
société ou d'une manière plus générale, l'étude d'un système d'acteurs52.
48
Egalement nommés « réseaux techniques » par Collot (1993).
Informal peer-help networks en anglais.
50
Des outils pour ce type d’analyses peuvent être par exemple, UCINET50 et ses associés graphiques
(Krackplot, Gradap, Multinet et Structure), Negopy, etc. (voir l’Annexe IV-9 des logiciels pour l’analyse de
réseaux sociaux).
51
L'intérêt en est la structure construite à partir de l'ensemble des relations existantes ou non entre les
acteurs. Cela est une opposition à la sociologie classique, dans laquelle l'analyse sociale est conduite à partir de
l'ensemble des acteurs. L'acteur est abordé classiquement (Crozier et Friedberg, 1977) comme étant une entité sociale,
un individu ou un groupe d’individus ayant des intérêts ou des ressources en commun.
52
Il existe deux approches pour étudier les acteurs au sein d'un réseau : l'approche individualiste et
l’approche holiste (Amblard et Ferrand, 1998; Nisbett et al., 2001). Dans la première, l'acteur est identifié comme une
entité stratégique. L'acteur agit alors uniquement par intérêt. Dans l'approche holiste, le réseau social ou
49
50
Il est aussi nécessaire de comprendre les mécanismes psychosociaux qui motivent les
personnes à participer à des réseaux sociaux. Les résultats de ces travails exposés ci-dessous
sont la fondation de nos choix dans la conception de notre système de média social et la
justification des hypothèses faites liées à ces choix.
2.2.1 La participation à des réseaux sociaux virtuels
L’émergence de types d’organisation humaine sur Internet révèle des besoins
informationnels et relationnels des individus. Les personnes s’organisent dans des structures
sociales afin d’interagir les uns avec les autres et de diffuser des informations liées à leurs
centres d’intérêts. Bardini appelle cette nouvelle structure « réseaux socio-techniques »
(Bardini, 1996). Ainsi, Internet donne naissance à des réseaux sociaux, qui sont parfois même
qualifiés de communautés, via les réseaux techniques. De cette façon, deux types de réseaux
se dévoilent :
- Les réseaux sociaux-techniques sont des réseaux humains déjà constitués, qui vont
utiliser des réseaux techniques pour communiquer.
- Les réseaux technico-sociaux, qui vont profiter du développement d'outils techniques
pour tenter de constituer des réseaux sociaux centrés sur une thématique commune.
Nous nous efforçons donc de trouver des pistes pour inciter les personnes à participer
à ces réseaux. Nous dissocions deux niveaux de participation dans de tels réseaux, selon la
finalité de la personne, individualiste ou identitaire :
1. Lorsqu'il a une finalité individualiste, l'individu a une démarche de type économiste. Il
va rechercher un bénéfice individuel au fait de contribuer, participer à un réseau social
virtuel.
2. Lorsqu'il a une finalité identitaire (motivée), l'individu n'utilise plus le réseau comme
un moyen pour parvenir à ses fins. Il est alors guidé par une volonté d'appartenir au
groupe, au travers de relations de confiance, qui lui permettent de développer une
estime positive de lui-même.
2.2.1.1 Participation individualiste
Hazel Hall a étudié la théorie de l’échange (Hall, 2001). Pour lui, les individus évaluent
des chemins alternatifs pour obtenir au plus bas coût la meilleure ressource. En plus, dans une
telle démarche dite économiste, le fait de contribuer au réseau social est considéré comme un
moyen servant une fin individualiste (obtenir un bien, par exemple, de l’information). En
revanche, si la participation paraît trop coûteuse relativement aux avantages que l’individu en
tire, il ne sera pas motivé à participer. Il est donc intéressant de connaître ces contributions
Krep et Wilson, 1982 ; Wilson, 1985 ; Kreps, 1990; Desalles, 2001). Selon la théorie de l'échange, les
individus vont ainsi évaluer les avantages et les coûts associés aux relations qu'ils
entretiennent, et maintenir celles pour lesquelles les avantages dépassent les coûts. Il y aurait
ainsi une règle de proportionnalité selon laquelle plus les investissements de l'individu dans
l'échange seront jugés importants par lui, plus les profits devront être importants.
2.2.1.1.1 Les théories psychosociales de l'échange
La théorie de l'interdépendance sociale (Thibaut et Kelley, 1952/1959), montre deux facteurs
expliquant le maintien des individus dans des réseaux sociaux. Le premier est relatif à la
satisfaction tirée de la relation. L'individu va comparer les coûts et les gains associés à la
structure sociale s'impose à l'acteur par l'intermédiaire de contraintes ou de normes sociales
1977).
51
(Crozier et Friedberg,
relation d'échange avec ce qu'il pensait devoir recevoir. Le deuxième facteur qui explique le
maintien des individus dans des réseaux sociaux est relatif au degré de dépendance à l'égard
de la relation. L'individu va comparer la relation actuelle avec d'autres alternatives. Si les
autres options sont plus avantageuses, l'individu mettra fin à la relation, sinon, il maintiendra
sa participation (Thibault et Kelley, 1952/1959 ; Cook et al. 1983). Ainsi, cette théorie permet de
distinguer les comportements de dépendance (un individu maintient ses contributions dans le
réseau parce qu’il n'a pas d'autres sources alternatives, mais il n’est pas satisfait), et des
comportements de satisfaction (l’individu maintient ses contributions dans le réseau parce
qu’il est tout à fait satisfait du bénéfice qu’il en tire).
De même que pour la théorie développée ci-dessus, dans la théorie de l'équité (Adams,
1965) la motivation des individus à participer à des échanges est fonction du rapport entre
production/consommation d'informations, qui doit être jugé équitable. Les individus
souhaitent retirer d'une relation autant qu'ils y investissent. Lorsqu'ils perçoivent une
infériorité des avantages par rapport à leurs contributions, l'inégalité peut alors provoquer la
rupture complète des relations d'échanges.
53
1983)
1.
2.
3.
Ainsi, Messick et Sentis ont identifié trois profils d'individus dans (Messick et Sentis,
permettant l'évaluation du rapport entre rétribution/contribution :
Le profil des égalitaires stricts. Les individus évaluent le rapport réel entre
rétributions et contributions
Le profil des égocentriques, qui est majoritaire. Les individus perçoivent toujours le
rapport rétribution/contribution à leur avantage, c'est-à-dire qu'ils ont toujours
l'impression de donner plus qu'ils ne reçoivent, ce qui les conduit à diminuer au
maximum leurs contributions.
Le profil des altruistes, qui est minoritaire. Les individus perçoivent toujours le
rapport rétribution/contribution à l'avantage des autres, c'est-à-dire qu'ils ont toujours
l'impression qu'ils n'ont pas assez contribué par rapport à ce qu'ils ont reçu.
Un autre moyen de vérifier ce type de rapports est la collaboration entre individus.
Selon Cronin, il est possible influencer une telle collaboration dans ce qu’il appelle des
marchés de connaissance (Cronin, 1995), grâce à :
- La récompense économique comme ressource d'échange. Peut-être que parmi les
récompenses explicites les plus évidentes pour le partage de connaissance se trouvent
celles qui impliquent des motivations économiques comme l'augmentation de la paie ou le
bonus sous formes d'options de réserve ou d’argent comptant. L'idée est que les individus
sont motivés par l'engagement et la paie est utilisée comme un échange juste.
- L'accès à l'information et à la connaissance comme ressource d'échange. Une autre
récompense tangible pour la participation à la connaissance partagée est l'accès à
l'information des autres participants. Il y a « l'espoir que l'on obtiendra une connaissance
de valeur en retour de sa propre contribution [...] et que l’on a besoin de contribuer à la
connaissance pour faire partie des réseaux de connaissances desquels son propre succès
dépendra » (Cohen, 1998).
- L'avancement/la sécurité de carrière comme ressource d'échange. L'avancement de
carrière peut être lié à divers facteurs, y compris la mesure suivant laquelle les individus
amassent ou partagent leur expertise (Von Krogh, 1998). La performance d'un individu, aussi
bien que l'acte d'aider d'autres collègues pour la mener à bien, doit être bien reconnue.
53
Cité par Mugny et collaborateurs (1995).
52
Alternativement, les personnes peuvent chercher un autre type de « récompense », par
exemple, la satisfaction personnelle d'appartenir à une communauté de connaissance partagée
et prospère (Merali, 2000 ; Héber-Suffrin, 1992/1998 ; C. et M. Héber-Suffrin, 1993; Perriault, 1996). Ces
récompenses peuvent être :
- L'amélioration de la réputation et le statut comme une motivation pour l'échange social.
Ces obsessions se trouvent derrière une récompense importante pour la connaissance
partagée : la reconnaissance par les pairs (Nowak et Sigmund, 2000). Un acteur de statut plus
élevé peut « construire » la réputation d’une autre personne de statut inférieur par l'acte de
collaboration (Beaver et Rosen, 1978). Puisque la progression de carrière dépend dans une
certaine mesure de la réputation, en fournissant la récompense qui promeut, la réputation
pourrait être vue comme une subtilité de la récompense explicite d'avancement de
carrière.
- La satisfaction personnelle comme une ressource pour l'échange social. Quelques
personnes éprouvent du plaisir à échanger, d’où leur comportement altruiste et pro-social
(Rioux, 2000 ; Wasko et Faraj, 2000).
Les environnements connus pour être les plus encourageants sont identifiés comme
ceux qui (Hall, 2001) :
-
font de la connaissance partagée une responsabilité explicite ;
encouragent l'expérimentation ;
estiment toutes les contributions, indépendamment du statut du créateur ;
promeuvent des communautés pour la connaissance partagée ;
fournissent de l'information appropriée.
2.2.1.1.2 La théorie sociologique de la masse critique
Un courant sociologique, celui de la sociologie de l'action collective, a cherché à définir
les facteurs facilitateurs et inhibiteurs de la participation à des réseaux sociaux. Pour Markus
(Markus, 1987), une forte participation à des relations d'échange médiatisées sera fonction :
1. de l'hétérogénéité des intérêts,
2. de l'hétérogénéité des ressources.
Pour cet auteur, l'hétérogénéité devrait accroître les possibilités d'adoption et de
contribution au réseau parce que les différences augmenteraient le nombre d'individus
potentiellement intéressés, ce qui augmenterait la probabilité qu'une partie de ces individus
contribuent, ces contributions permettant alors une progression du nombre de membres, celleci entraînant à son tour une nouvelle croissance des contributions. La condition pour que les
contributions puissent démarrer serait qu'il existe un petit groupe d'individus plus actifs que
les autres, prêts à contribuer même si les autres ne le font pas. Cette hypothèse de la masse
critique impose donc "qu'un petit segment de la population choisisse de faire de grosses
contributions à l'action collective alors que la majorité fait peu ou rien". La masse critique
serait donc nécessaire à la généralisation des comportements de production à tous les
membres du réseau.
Diverses recherches empiriques qui ont étudié cette hypothèse de masse critique ont
bien montré que seule une petite minorité de participants contribuait à la majorité des
échanges. Par exemple, Palme a calculé que la probabilité qu'un message de courrier
électronique suscite une réponse était de 0.05 (Palme, 1995)54. Selon lui, il faudrait donc un
minimum de 21 participants actifs pour qu'en moyenne un message reçoive une réponse. Il
54
Dernière mise à jour le 22 janvier 2005 par Jacob Palme.
53
précise néanmoins que cette probabilité n'est pas fixe, mais qu'elle permet d'établir une
fonction simple de réponse. Smith aussi a étudié le lien entre la croissance de la population des
utilisateurs du forum qu'il étudiait et les contributions (Smith, 1992-url). Il a constaté que
seulement 1% des 7000 utilisateurs généraient 50% de tous les messages échangés, et ce, en
dépit de l'afflux de nouveaux utilisateurs sur la période étudiée (Millen et Patterson, 2002). Rojo et
Ragsdale ont montré que 82% des abonnés d'une liste de diffusion académique n'ont jamais
participé, parce qu'ils n'ont jamais demandé d'informations, fourni d'informations, posé ou
répondu à des questions complexes, fait de courts commentaires ou des commentaires plus
élaborés (Rojo et Ragsdale, 1997).
Dans une visée explicative de ces comportements, Rojo a cherché à rendre compte des
facteurs favorisant et affectant la motivation des utilisateurs à contribuer sur des listes de
diffusion académiques (Rojo, 1995-url).
Les motivations des utilisateurs à participer ont été de :
1. obtenir de l'information et se maintenir à jour dans leur domaine d'intérêt,
2. participer ou écouter les idées circulant dans un domaine qui les intéresse,
3. être en réseau avec des personnes ayant des intérêts similaires et construire et
maintenir des contacts,
4. développer des objectifs comme collaborer sur des buts partagés.
Les facteurs de désabonnement à ces forums ont été :
1. ne pas obtenir les bénéfices attendus,
2. ne pas apprécier le ton du forum et de se sentir incapable de le changer,
3. ne plus partager les objectifs du forum ou le style des échanges parce que les priorités
ont changé,
4. des contraintes techniques qui ont empêché la réception normale ou l'accès aux
messages.
Le facteur majeur de satisfaction éprouvée par les utilisateurs est la pertinence des
contenus !
2.2.1.1.3 Limites des échanges dans des réseaux sociaux virtuels
Les limites des réseaux sociaux virtuels renvoient à la manière dont les individus
considèrent le réseau, c'est-à-dire comme un moyen servant un fin individualiste. De fait, tant
que les utilisateurs contribueront en fonction du rapport calculé entre coûts et bénéfices, se
posera une limite quant au degré maximal de leurs contributions. Il paraît que les utilisateurs
guidés par une logique d'usage économiste considèrent les informations publiques donc
accessibles dans le réseau comme des biens publics (Ardichvili et al. 2002; Gensollen 2003). De fait,
il se met alors en place ce qu'Olson nomme un paradoxe de l'action collective ou phénomène
du passager clandestin (Olson, 1965/1978). De plus, la décision individuelle de ne pas participer
apparaît d'autant plus « normale » qu'elle n'affecte pas le groupe de façon importante, dans la
mesure où les autres et l'individu lui-même n'en ont pas forcément consciente.
Se pose ici le problème posé par Markus selon lequel le réseau n'a alors pas conscience
de ses intérêts (Markus, 1987). Ce n'est qu'à partir du moment où il s'organise pour les exprimer
qu'il devient un groupe manifeste et que les comportements de participation se légitiment.
C'est à ce moment que les réseaux sociaux virtuels deviennent de véritables communautés
virtuelles, non plus guidés par des logiques d'usages économistes, mais identitaires. Nous
développons ci-après ces caractéristiques et le rôle joué par la confiance dans leur émergence
et leur maintien.
54
2.2.1.2 Motivation à la participation
La motivation à la participation, ne compte pas sur la réciprocité directe d'individus
négociant des ressources comme une marchandise privée. Il existe des conditions dans
lesquelles ces ressources peuvent être considérées comme un bien public. Il a été prouvé que
les gens qui sont réticents à contribuer lorsqu’on leur demande d’écrire quelque chose pour
une base de données par exemple, sont désireuses de partager ces ressources quand leurs
collèges leurs demandent de façon informelle (Dixon, 2000). Ce changement de circonstances
est motivé selon l'obligation morale et l'intérêt communautaire, plutôt que l'intérêt personnel
(Wasko et Faraj, 2000). Lorsque l’individu a une finalité identitaire, il est capable de former ou
de s’intégrer dans ce que Lave et Wenger appellent une CoP55 ou communauté de pratique
(Lave et Wenger, 1991). Une CoP est une communauté active, incluant des individus unis dans
l’action et dans la signification que l’action a pour eux et pour la collectivité. Elle est une
entité informelle, permettant des « connexions » de membres les uns avec les autres, par des
intérêts spécifiques partagés56. C’est précisément à ce niveau d’identité des individus vis à vis
de leur groupe, que nous considérons un réseau social virtuel comme une vraie CoP (en
ligne), donc comme un réseau social de confiance. Le terme confiance apparaît donc pour
exprimer l’envie de partager, afin de résoudre des problèmes communs, que tous ont intérêt à
résoudre.
Les membres d’une communauté qui sont pris dans ces types de relations atteignent le
point de partage plus tôt que ceux qui fonctionnent plus indépendamment (Constant et al. 1994 ;
Hansen, 1999). La société fait un type de « pression » : « je donne au fur et à mesure que ma
société me incite à donner ma connaissance » (Snowden, 2000). Nous présentons ci-dessous,
une partie de la classification que Hall fait d’autres moyens de réaliser de l'interaction sociale
dans les organisations (Hall, 2001) mais que nous ne détaillons pas ici.
Les organisations devraient :
Fournir des règles claires sur le
fonctionnement de la communauté.
Prendre des dispositions pour la
connaissance partagée
Encourager des événements
sociaux pour le personnel - quand les
individus aiment les rapports sociaux
avec leurs collègues ils trouvent plus
facile de partager la connaissance sur
des questions sérieuses
Fournir des opportunités à des
collègues de créer un historique
partagé pour développer des histoires
« de rapport antérieur »
Préconisé par :
Dyer et
Nobeoka, 2000,
p. 364
Exemple :
Le réseau de Toyota publie des
règles claires aux participants de la
communauté.
Mettre à disposition une structure de
Nahapiet et
classification d'information et pour
Ghoshal, 1998,
permettre « des unités diverses pour
le paragraphe 10 parler l'un à l'autre plus efficacement de
leurs problèmes d'affaires » (O'Dell et
Jackson Grayson, 1998, p. 165)
L'association de fournisseurs Toyota
a un comité PR/SPORTS pour
encourager des amitiés à se développer
(Dyer et Nobeoka, 2000, p. 353)
Von Krogh,
1998, p. 145
Krackhardt,
1992
Tableau 1 Les moyens de réaliser de l'interaction sociale selon H. Hall. Extrait de
(Hall,2001).
55
Community of Practice, en anglais.
En général, des individus sont motivés à interagir quand (a) il est facile de le faire et (b) l'utilité est
évidente (Snowden, 2000).
56
55
Ce n'est que lorsque l'usage du réseau social virtuel participe à la construction ou au
renforcement d'une identité collective qu'il devient une véritable communauté virtuelle, et que
les contributions de chacun deviennent nécessaires. Les contributions seraient alors de
véritables actions sociales, déterminées par une rationalité en valeur, définie par Weber
comme « une croyance en la valeur inconditionnelle d'un comportement déterminé qui vaut
pour lui-même et indépendamment de son résultat » (Weber, 1968). A ce moment, les bénéfices
individuels que les individus peuvent tirer de la relation d'échange ne guident plus leur degré
de participation57. Il s'agit d'un processus relationnel d'investissement de soi, une transaction
entre des individus cherchant une reconnaissance et un réseau social pourvoyeur de cette
reconnaissance.
Selon la théorie de l'identité sociale (Turner, 1982), à ce moment là, le fait d'appartenir à
un groupe devient une motivation suffisante à s'engager et à participer. La relation de partage
avec d'autres personnes ayant des intérêts en commun va permettre de se mettre en valeur et
de développer une estime de soi positive.
L'utilisation du média devient alors une finalité en soi, et non plus un moyen pour une
finalité individualiste qui se situe en dehors des réseaux sociaux constitués. De cette façon, les
réseaux sociaux constitués intègrent des relations ou la confiance se développe de manière
implicite, mais il faut la maintenir.
2.2.1.2.1 Le rôle de la confiance
Pour certaines approches, la notion de confiance joue un rôle central dans l'émergence
et le maintien de réseaux sociaux. Elle facilite les échanges informationnels dans un contexte
caractérisé par l'incertitude. Elle permet de minimiser l'incertitude qui pèse sur la
transmission, la compréhension et l'utilisation des informations échangées. Deux types de
confiances sont ainsi définis, selon qu'ils renvoient plutôt à des aspects cognitifs ou affectifs
de la relation d'échanges.
Luhmann parle ainsi de « trust » lorsqu'il s'agit de confiance calculée et générée par
des processus à dominante cognitive (Luhmann, 1988). Il s'agit alors de relations de confiance
telles qu'elles se développent dans les contextes professionnels, basées sur des alliances
fructueuses, à l'exclusion de toute dimension affective. Cette dissociation de 2 types de
confiance renvoie plus ou moins à la distinction faite entre participation rationnelle en finalité
et participation rationnelle en valeur.
Le premier type de confiance s'applique aux réseaux sociaux virtuels qui mettent en
rapport des individus qui ne se connaissent pas et qui sont rattachés par une volonté de
rechercher de l'information de qualité. A ce moment, un processus de construction d'une
confiance mutuelle se met en place, élaboré à partir d'impressions stéréotypées du fait de
l'absence d'informations personnelles caractérisant les individus du réseau. Ensuite, quand les
échanges se développent, le niveau de confiance se révèle proportionnel à celui de l'action
exercée par les individus. Il semble donc important de sélectionner les participants de manière
à regrouper des individus compétents et orientés positivement vers les autres. Cette sélection
de départ facilitera l'émergence d'une confiance collective manifestée à priori par les
participants les uns envers les autres. L'entrée d'un nouveau membre dans le réseau devrait
alors être le fait d'une cooptation par chacun de façon à maintenir le climat de confiance établi
et limiter la dispersion des ressources.
57
C’est le cas des participations avec une finalité identitaire.
56
L'individu a deux principales responsabilités : (1) acquérir l'expertise et (2) la
disséminer (Von Krogh, 1998). Le facteur confiance est aussi important. Là où la confiance est
forte, les participants à la construction de la connaissance partagée échangent des relations,
s'exposent et posent plus facilement des questions dans des "marchés de clic" (click market en
anglais) construits sur la confiance.
Les participants comprennent que la viabilité de leur communauté dépend de leur
engagement (Merali, 2000). Si aucune contribution n'est faite, la communauté ne vivra pas.
Cependant, chaque fois que quelqu'un contribue à la connaissance en partageant le résultat,
cela augmente non seulement la connaissance commune basée sur la contribution, mais aussi
la confiance que des futurs membres auront dans la communauté. Comme la confiance
augmente, un plus grand nombre de participants devient désireux de partager et donc de
nouvelles contributions seront faites (Nahapiet et Ghoshal, 1998) : « La confiance occasionne la
coopération, la coopération elle-même élève la confiance ». Le don et la réception de
confiance sont en soi un acte de partage où les individus acceptent de se rendre vulnérables
parce qu'ils croient en « la bonne intention […]» (Nahapiet et Ghoshal, 1998).
Pour certains auteurs, la confiance dans le réseau social virtuel est directement liée à la
crédibilité accordée à l'outil informatique médium de communication entre les membres du
réseau. Selon Jarvenpaa et Leidner, c'est une confiance (cognitive) forte dans les technologies
à disposition qui incite des individus séparés dans le temps et l'espace à s'engager dans des
réseaux sociaux virtuels (Jarvenpaa et Leidner, 1999). Ainsi, la confiance s'exprime d'une part
vis-à-vis des informaticiens concepteurs et d'autre part vis-à-vis de l'outil lui-même :
1. Relativement aux informaticiens, la littérature leur conseille de se rapprocher des
utilisateurs finaux pour faire correspondre les conceptions et logiques de chacune des
parties (Broadbent et Weil, 1997). Il s'agit notamment de parvenir à un équilibre entre le
désir de « promouvoir l'innovation » et celui consistant à « favoriser le contrôle » (Reix,
1995). Ce rapprochement devrait permettre une compréhension mutuelle des
rationalités entre utilisateurs finaux et informaticiens
2. Vis-à-vis de l'outil technologique, une voie pertinente consiste à favoriser
l'apprentissage par l'utilisateur, et, dans cette optique, à en simplifier les
fonctionnalités. La bonne compréhension des fonctionnalités de l'outil est censée
permettre à l'individu d'accroître son implication et de développer ainsi ses modes
d'utilisation en climat de confiance.
La confiance peut donc rapprocher utilisateurs finaux et informaticiens. Elle est
l’élément clé au maintien des réseaux sociaux. Pour qu’elle puisse se produire, il est très
important que l’échange et le partage de ressources puissent avoir lieu sans inconvénients.
2.2.1.2.2 Le succès de l’échange et du partage
Le succès de l’échange et du partage dépend également des attributs technologiques et
sociaux de l’environnement58 offert aux individus (Ardichvili et al. 2002). Il a été prouvé qu’il y a
plusieurs raisons qui font que les individus veuillent partager leurs ressources personnelles
dans un réseau identitaire. De tels résultats permettent de répondre aux questions du type :
1) Quelles sont les raisons qui susciteraient l’envie de partager ?
2) Quels sont les obstacles au partage ?
58
Le système.
57
3) Pour quelles raisons des réseaux sociaux virtuels seraient utilisés pour trouver et échanger
l’information ?
4) Quels sont les obstacles à l’utilisation de ce type de réseaux virtuels ?
Pour répondre à ces questions Ardichvili et ses collaborateurs (Ardichvili et al. 2002) ont
fait diverses recherches. Leurs conclusions sont listées ci-après.
Pour la première question, relative à susciter l’envie de partager, il est indispensable
que l’environnement du réseau fasse sentir les biens échangés comme des biens publics
appartenant au réseau dans sa totalité. Ensuite, il est confirmé ce que Wasko et Faraj (Wasko et
Faraj, 2000) avaient déjà trouvé : l’échange est motivé par une obligation morale et par un
intérêt communautaire. Les membres nécessitent de s’établir eux-mêmes comme des experts.
Une fois qu’un membre s’estime expert, il sentira qu’il a abouti à une étape dans sa vie, et
qu’est arrivé le moment de donner en retour : partager son expertise, servir de mentor, etc.
Pour la deuxième question, relative aux obstacles au partage, il a été trouvé que
généralement les personnes, ont peur que ce qu’elles peuvent échanger puisse être perçu par
les autres comme « non pertinent ». Il se met en place l’élément « peur de perdre la face59 » et
de ne pas répondre aux attentes de ses collègues. Les individus n’ont pas toujours clairement
les types d’information à placer dans le réseau. Ils demandent toujours les moyens de savoir
ou de distinguer l’acceptabilité des leurs. De plus, les nouveaux arrivants se sentent toujours
intimidés à partager, par un sentiment de « n’avoir encore obtenu le droit » de placer ses
informations dans le réseau. Ils ont peur de la critique et du ridicule. Il est indispensable de
« répondre » à ces contributions en soulignant l’importance de leurs contributions !
Pour la troisième question, relative à trouver les raisons menant à l’utilisation des
réseaux sociaux virtuels pour trouver et échanger de l’information, il ressort l’importance des
« bénéfices aperçus » : le réseau doit servir comme « encyclopédie » qui doit rester toujours
disponible et qui peut être consulté si besoin. Il est important de trouver des solutions aux
informations demandées venant des autres membres du réseau. Il est vital également, de
maintenir informés les membres de tout ce qu’il s'y passe. Les bénéfices les plus évoqués ont
été : (i) que les nouveaux membres trouvant de l’aide à s’intégrer rapidement deviennent très
vite productifs et, (ii) qu’il est plus facile de travailler ensemble (géographiquement
distribués) et de communiquer mieux. D’autres bénéfices importants sont :
- Trouver « les meilleures pratiques60 » et « les expériences acquises61 ».
- Obtenir les mêmes ressources qu’on peut obtenir à partir d’autres sources, mais beaucoup
plus rapidement.
- Avoir un chemin d’accès vers d'autres communautés d’intérêt. C’est à dire, ne pas rester
dans le même domaine et ouvrir ses relations62.
- Obtenir d'autres bénéfices au-delà des solutions immédiates aux problèmes spécifiques.
- Avoir un environnement pour générer conjointement de nouvelles ressources (nouvelles
connaissances) et pas seulement utiliser celles qui existent déjà.
Pour la quatrième question, relative aux obstacles à l’utilisation de ce type de
réseaux virtuels, deux principaux ont été trouvés (Ardichvili et al. 2002) :
59
« Fear to lose face », en anglais.
« Access to best practices » en anglais.
61
« Access to lessons learned databases » en anglais.
62
Ce qui est très important, parce qu’il permet d’élargir les connaissances personnelles.
60
58
-
Appartenir à un groupe où tous les membres sont étroitement liés, génère la redondance
de ressources.
- Les individus qui ont des besoins spécifiques et urgents obtiennent trop de réponses.
Nous venons de décrire des aspects sociaux que nous considérons importantes pour la
construction des réseaux sociaux virtuels, cependant il est nécessaire de les formaliser grâce à
la théorie d’analyse de réseaux sociaux. Cette formalisation va nous aider dans la construction
de notre approche.
2.2.2 Analyse de réseaux sociaux
Les réseaux sociaux nous aident à comprendre le rôle de l'ensemble des acteurs (ou
points ou nœuds ou agents) et leurs relations63. L’analyse de ces réseaux se fait avec un
vocabulaire plutôt formel et abstrait emprunté également à la théorie mathématique des
graphes. Nous présentons dans cette section des concepts et problématiques au cœur de notre
approche.
Les réseaux sociaux sont analysés par diverses disciplines. L’origine de ces analyses
n’est pas nouvelle. Il est possible de dater le moment où les sciences sociales s’en emparent,
pour désigner ce qu’elles connaissaient jusque là sous le nom de structures, systèmes, cercles,
groupe : la notion de « réseau social » (social network), qui fait sa première apparition dans
un article de l’anthropologue britannique John A. Barnes (Barnes, 1954). Cependant, le
précurseur le plus évoqué par les tenants de l’analyse des réseaux sociaux, est le philosophe et
sociologue allemand Georg Simmel (1858-1918) 64. Pour Wasserman et Faust (Wasserman et
Faust, 1994) comme pour de nombreux auteurs (Forsé, 2002), l’histoire de l’analyse des réseaux
sociaux débute non pas avec Simmel, mais avec Moreno, aux Etats-Unis, au début des années
1930. Jacob Lévy Moreno (1889-1974) est en effet le fondateur incontesté de la sociométrie,
dont il expose les principes, les méthodes, les enjeux et les résultats dans « Who Shall Survive
? », publié en 193465.
Deux développements vont être fondamentaux pour la méthodologie de l’analyse des
réseaux sociaux : ceux de la théorie des graphes et de l’application de l’algèbre linéaire aux
données relationnelles.
2.2.2.1 Une modélisation des réseaux de relations sous forme de graphes
L’application de la théorie des graphes, à l’analyse des réseaux s’est véritablement
imposée. Son apport est double : d’une part les graphes permettent une représentation
graphique des réseaux de relations, facilitant leur visualisation, permettant leur exploration et
63
La relation ou lien qui unit deux acteurs correspond à l'ensemble des interactions existantes entre eux.
Au-delà de la simple interaction, elle porte une valeur (amitié, liens de parenté, liens hiérarchiques, contacts
professionnels, liens de voisinage,…) ou un ensemble de valeurs. L’analyse de réseaux peut se compléter
également avec des analyses statistiques (i.e. les logiciels SAS, SPSS, etc.) sur chaque membre du réseau. Une
analyse du point de vue holiste (note dans §2.2) permettra de mieux connaître la structure du réseau (Garton et
al, 1998), et de tester des questions du type : Qui parle avec qui ? A quel sujet ? Comment changent les relations
au fil du temps ?
64
Pour une étude systématique de ce que l’analyse des réseaux sociaux « doit » à la sociologie de
Simmel, on lira avec attention la récente contribution de Michel Forsé (2002), qui figure dans la bibliographie
officielle.
65
Et non en 1943, comme indiqué de façon erronée à la fois dans la bibliographie du thème « Les réseaux sociaux
» publiée dans le Bulletin officiel de l’éducation nationale et dans la bibliographie figurant à la fin de l’ouvrage d’Alain
Degenne et Michel Forsé (1994)…
59
mettant en lumière un certain nombre de leurs propriétés structurelles ; d’autre part, la théorie
des graphes n’est pas seulement une méthode de représentation graphique, mais elle
développe de façon systématique et articulée un corpus extrêmement riche de concepts
formels permettant de qualifier, de distinguer et de classer les structures relationnelles en
fonction d’un certain nombre de propriétés fondamentales de distribution et d’agencement des
relations entre éléments66.
Pour faire bien comprendre ce que la théorie des graphes peut tout d’abord apporter à
la « visualisation » des réseaux de relations, le plus simple est d’en donner un exemple.
Imaginons que nous voulions étudier le réseau des « co-citations » entre cinq chercheurs, à
partir de l’étude de leurs publications et des références bibliographiques qu’elles contiennent.
En examinant la bibliographie figurant à la fin de leurs travaux, nous constatons que : le
chercheur A cite le chercheur B et le chercheur C ; le chercheur B cite les chercheurs A, D et
E ; le chercheur C ne cite personne ; D cite E ; et enfin, E cite C. Sous cette forme, une telle
énumération ne laisse que très difficilement entrevoir les particularités du réseau formé par
ces co-citations, même si l’on peut tout de même apercevoir que B cite un grand nombre de
ces collègues, tandis que C n’en cite aucun. Utilisons maintenant une représentation de ces
relations sous forme de graphe (sociogramme67) :
A
A
B
C
D
E
(1)
B
D
E
C
C
E
A
(2)
D
B
(3)
Figure 2-4 Trois représentations d’un même graphe ou sociogramme : relations de
co-citation entre chercheurs. La Figure (1) évoque un modèle non hiérarchique du type «
cercle social » ou communauté d’égaux ; la Figure (2) ressemble plutôt au modèle
hiérarchique « centre/périphérie » ; et la Figure (3) traduit en revanche un modèle
hiérarchique pyramidal.
Un sociogramme est une représentation de relations sous forme de graphe.
Jusqu’à présent nous avons parlé d’individus et de relations ou de points et de lignes.
Le langage des graphes, qui a sa terminologie propre, utilise le terme de sommet pour
désigner les individus, et ceux d’arcs ou d’arêtes pour désigner les relations : une relation est
représentée par un « arc » (autrement dit, une flèche), quand elle est orientée, c'est-à-dire
quand elle a une direction (comme c’est le cas dans notre exemple, puisqu’une « citation » a
un émetteur, celui qui cite, et un récepteur, celui qui est cité), et par une « arête » quand elle
ne l’est pas (il s’agit alors d’un simple trait).
66
Pour une présentation plus détaillée de la théorie des graphes, on se reportera à Degenne et Forsé (1994),
chapitre III, pp. 77-92 ; sur les graphes et le calcul matriciel, on pourra aussi consulter, en français, Blum (1991), chapitre 3 :
« Vecteurs et matrices », et chapitre 4 : « Les graphes » ; en an anglais, Wasserman et Faust (1994), Part II : « Mathematical
Representations of Social Networks », pp. 67-16.
67
Représentation graphique des relations dans un groupe. L'examen du sociogramme permet de
découvrir des paires d'individus qui se choisissent mutuellement (dyades).
60
Un certain nombre de raffinements auraient pu être apportés à cette représentation
graphique simple, en fonction des propriétés des relations qu’elle sert à représenter. Nous ne
les présentons pas ici68.
Concepts et propriétés des structures
La théorie des graphes offre un arsenal d’outils : de concepts, de théorèmes,
d’algorithmes et de raisonnements propices à l’analyse des réseaux, pour autoriser un
traitement mathématique générateur de connaissances nouvelles. Un certain nombre de ces
outils servent tout d’abord à caractériser les sommets. Le degré d’un sommet correspond au
nombre d’arcs qui en partent ou y arrivent, et constitue donc une mesure de la taille de son
voisinage (composé de l’ensemble des sommets qui lui sont reliés). De ce fait, le degré d’un
sommet est un indicateur de son intégration ou au contraire de son isolement dans le réseau,
ou bien encore comme un indicateur de sa centralité : on mesurera ainsi la centralité (de
degré) d’un sommet par le rapport entre son degré et le nombre de sommets auxquels il
pourrait être relié69. Dans notre exemple B et E sont des sommets de degré 3, alors que A, C
et D sont seulement de degré 2. Il est possible, dans le cas des graphes orientés70, de
distinguer le degré sortant d’un sommet, qui correspond au nombre d’arcs qui en partent, et
son degré entrant, qui correspond au nombre d’arcs qui y arrivent. Ici, les sommets qui
possèdent le degré entrant le plus élevé sont les sommets C et E, ce qui peut être pris comme
un indicateur de leur « popularité » parmi leurs collègues, ou bien de la visibilité et de la
reconnaissance de leurs travaux. On constate aussi, que B et E, de degré identique, se
distinguent par le rapport entre leur degré entrant et leur degré sortant : B « s’intègre » par sa
disposition à citer un grand nombre de ses collègues, tandis que E « est intégré » par le grand
nombre de citations dont il fait l’objet.
2.2.2.2
La distinction qui précède peut être détaillée. Cette fois, les propriétés relatives aux
sommets. Deux sommets sont dits adjacents s’il existe un arc entre eux : dans notre exemple
précédent, A et C sont adjacents, A étant le prédécesseur de C, et C le successeur de A. S’ils
sont adjacents, la distance71 (ou longueur) entre eux est égale à 1 ; s’ils ne le sont pas, il faut
déterminer s’il existe entre eux un chemin, c'est-à-dire s’ils sont reliés indirectement par une
suite d’arcs telle que l’extrémité finale de l’un, soit attachée à l’extrémité initiale de l’arc
suivant, et que cette suite permette d’aller d’un des sommets à l’autre. Dans notre exemple, B
et C ne sont pas adjacents, mais il existe trois chemins entre eux de longueurs différentes :
l’un de longueur 2 qui passe par A, un autre de longueur 2 aussi qui passe par E, et enfin le
dernier de longueur 3 qui passe par D et E. On dira alors que la distance géodésique de B à C
est de 2 (elle correspond à la longueur du plus court des chemins entre eux). Des sommets
68
Les graphes peuvent par exemple, être « signés », en fonction de la nature des relations : la
sociométrie a fait un grand usage de cette possibilité. Dans notre cas, au lieu de s’en tenir à la simple présence ou
absence d’une citation, nous aurions pu, essayer de déterminer cas par cas si la citation est amicale (+) ou au
contraire inamicale (-). Nous aurions pu aussi élaborer un graphe « valué » en affectant une valeur à chaque
relation : la théorie des graphes se donne ainsi les moyens de prendre en compte l’intensité des relations, ou la
quantité de biens (matériels ou immatériels, comme l’information) qu’elles véhiculent. Dans notre exemple, nous
aurions ainsi pu compter le nombre de citations de chacun par chacun, au lieu de nous en tenir à enregistrer la
présence d’au moins une citation de tel ou tel collègue.
69
Peut-être il est pertinent de différencier entre un « multi-graphe » et un « graphe simple ». Un multigraphe permet deux sommets reliés par plusieurs arcs tandis que dans un graphe simple, ces deux sommets ne
sont liés que par un seul arc. Dans notre contexte, nous parlons de « graphes simples ».
70
Ayant une direction, c’est à dire un sommet de départ et un sommet d’arrivée. Représenté avec des
flèches entre sommets.
71
Au sens, nombre d’arcs à parcourir d’un sommet à un autre.
61
peuvent donc être reliés entre eux directement (s’ils sont adjacents) ou indirectement : on dira
alors qu’un sommet x est un ascendant du sommet y s’il existe un chemin de longueur
quelconque reliant x à y, qui est alors un descendant de x. On voit ici que A est ascendant de
tous les autres sommets du graphe, comme B d’ailleurs : A et B sont ce qu’on appelle alors
des racines du graphe ; inversement C est un descendant de tous les autres sommets, c'est-àdire ce qu’on appelle une anti-racine (ou co-racine). La notion de chemin est donc
fondamentale en théorie des graphes. Elle permet d’examiner des liaisons indirectes entre les
sommets ; donc de passer d’une conception « dyadique » (de l’ordre des relations entre
paires) à une conception structurale plus globale de l’agencement relatif des sommets : dans
notre exemple, nous avons affaire visiblement à un réseau qui s’apparente presque
parfaitement à un graphe hiérarchique, c'est-à-dire à un graphe dans lequel il n’y a aucun
circuit, sachant que nous appelons circuit un chemin dont l’extrémité initiale coïncide avec
l’extrémité finale. En fait, il n’y a dans notre exemple graphe qu’un seul circuit, entre A et B
qui se citent mutuellement ; il suffirait que A ne cite pas B, ou que B ne cite pas A, pour le
transformer en graphe hiérarchique parfait.
Le dernier registre d’outils conceptuels de la théorie des graphes a pour objet la
description de certaines propriétés globales des réseaux, à travers en particulier les notions de
densité et de connexité. Un graphe se caractérise d’abord, très simplement, par son ordre,
c'est-à-dire par son nombre de sommets. Notre réseau de chercheurs constitue ainsi un graphe
d’ordre 5. A partir de cette première indication élémentaire, et du décompte du nombre d’arcs,
il est possible de caractériser précisément la densité d’un réseau : dans le langage de la théorie
des graphes, la densité, par exemple d’un graphe orienté, est le rapport (variant entre 0 et 1)
entre le nombre d’arcs observés dans un réseau et le nombre maximum d’arcs possibles dans
ce réseau. S’il s’agit d’un graphe d’ordre n, alors le nombre maximum d’arcs possible est n(n1). On mesure donc la densité d'un graphe par le rapport entre le nombre d'arcs de ce graphe
et le nombre d'arcs que comporte le graphe complet ayant le même nombre de sommets. Si n
est le nombre de sommets, et k le nombre d'arcs d'un graphe, alors la densité de ce graphe est
égale à :
k
d=
(1)
n(n − 1)
Dans notre exemple, sur 20 arcs possibles, 7 sont réalisés, soit une densité de 0.35.
Quand la densité d’un graphe est de 1, cela veut dire que toutes les relations possibles existent
réellement. Dans le cas d’un graphe non orienté, un graphe dont toutes les arêtes possibles
sont réalisées, est un graphe complet ou une clique. A l’opposé de la clique, on trouve un
réseau dont la densité est nulle (mais peut-on encore parler de réseau, alors ?). Autrement dit
un réseau composé d’éléments parfaitement isolés, n’entretenant entre eux aucune relation.
Un graphe, enfin, se caractérise non seulement par sa densité, mais aussi par sa connexité : on
dira qu’un graphe est connexe si pour chaque couple de sommets, il existe une chaîne
permettant de les relier, ce qui signifie qu’il n’existe aucun sommet isolé des autres. Si un
graphe n’est pas connexe, ses parties qui le sont, seront appelées ses composantes connexes. Il
est facile de voir que densité et connexité sont des notions différentes : un graphe qui n’est
pas connexe, peut être extrêmement dense, par exemple s’il est constitué d’une clique
importante et de quelques sommets isolés ; inversement, une simple ligne, composée de
sommets reliés chacun seulement à deux sommets adjacents, est connexe, mais peu dense.
Notre réseau de chercheurs peut être qualifié de connexe, dans la mesure où aucun chercheur
n’est isolé des autres. Mais on parlera ici de connexité simple, dans la mesure il n’existe pas
pour chaque couple de sommet un chemin permettant d’aller de l’un à l’autre, dans un sens et
62
dans l’autre (dans le cas contraire, on aurait parlé de graphe fortement connexe) : il est
possible d’aller de A à C, mais il n’y a aucun chemin permettant d’aller de C à A.
Reprenons rapidement l’exposé des propriétés structurales du réseau fictif de
chercheurs qui nous a servi d’illustration pour présenter quelques-uns uns (seulement) des
différents concepts analytiques étudiés par la théorie des graphes : s’agit-il d’une communauté
extrêmement soudée, dans laquelle chacun cite chacun ? A-t-on plutôt affaire à deux écoles
nettement séparées l’une de l’autre, au sein desquelles on se cite, mais où l’on ne cite jamais
les chercheurs de « l’autre école » ? Dans notre exemple fictif, c’est plutôt un autre modèle
qui se dessine : le graphe est simplement connexe, il n’y a donc pas deux écoles affrontées ;
mais sa densité est faible, ce qui n’autorise guère à parler d’une communauté intellectuelle
fortement soudée. Surtout, la présence de deux racines et d’une anti-racine rapproche ce
réseau de ce qu’on pourrait appeler une hiérarchie : à un extrême, il y a le chercheur C, que
nombre de ses collègues citent mais qui ne cite aucun d’entre eux, et à l’autre il y a A et B,
qui citent leurs collègues mais qu’on ne cite pas, et qui sont unis toutefois dans l’adversité par
le jeu de citations réciproques qu’ils entretiennent. Comment pourrait-on expliquer cette
hiérarchie ? La nature de la relation étudiée (la citation) invite à quelques hypothèses, l’une
diachronique et l’autre synchronique : peut-être C est-il plus âgé que les autres, peut-être
appartient il à une génération de chercheurs plus ancienne, tandis que A et B sont des
nouveaux entrants dans la discipline : C ne les cite pas parce qu’au moment où il a écrit, il ne
connaissait pas les travaux de ses collègues plus jeunes, qui eux se doivent de citer leurs
prédécesseurs. Si au contraire ces cinq chercheurs appartiennent à la même génération, alors
peut-être C est-il un chercheur appartenant à une discipline voisine à son domaine de
recherche, que les chercheurs A et E importent dans le champ en le citant ? Ou bien au
contraire C occupe-t-il une position dominante dans ce champ, qui oblige les autres à le citer
sans que lui ait à citer les autres ?
2.2.2.3
Représentation matricielle d’un graphe
Notre exemple de la Figure 2-4 peut servir aussi à montrer que de l’association entre
les deux apports de la théorie des graphes, et ses concepts, sont en réalité fragiles : dans un
graphe d’ordre 5, il est encore relativement facile, de trouver les racines, les circuits, … ou
encore de dire s’il est simplement ou fortement connexe. Imaginons maintenant que l’on
décide d’étudier le réseau des spécialistes de l’analyse des réseaux à partir des références
bibliographiques figurant à la fin de leurs ouvrages. La bibliographie de Wasserman et Faust
(Wasserman et Faust, 1994) fait plus de 40 pages et comporte plus de 900 références… Le
graphe qui en résulterait, risquerait fort d’être parfaitement illisible. C’est un autre domaine
des mathématiques qui va aider à surmonter cet obstacle : il s’agit de l’algèbre linéaire et du
calcul matriciel. Quelques applications des matrices aux données relationnelles sont
présentées ici de façon très rapide. C’est à Harvard, en particulier sous l’impulsion de
Harrison White et de ses associés, que se produit l’avancée qui conduit à l’élaboration des
principes, des concepts et des outils de l’analyse des réseaux telle que nous la connaissons
aujourd’hui, à partir du recours systématique à la représentation matricielle des données
relationnelles72.
L’idée fondamentale consiste à représenter un graphe, c’est-à-dire un ensemble de
sommets et de relations (orientées ou non) entre ces sommets, par une matrice carrée, appelée
« matrice d’adjacence ». Cette matrice est un tableau de chiffres qui dans le cas qui nous
72
Sur Harrison White et le groupe de Harvard, voir Mullins (1973).
63
intéresse, comporte autant de colonnes que de lignes. Dans cette matrice, notée M, chaque
ligne correspond à un sommet du graphe, de même que chaque colonne, dans le même ordre
que celui qui a été choisi pour les lignes. On dit que la matrice M est de terme général me f , ce
qui signifie qu’on y trouve le nombre me f à l’intersection de la ligne e et de la colonne f Par
convention, dans une matrice d’adjacence, me f = 1 si le sommet e est un prédécesseur du
sommet f, c'est-à-dire s’il y a une relation de e vers f ; dans le cas contraire, me f = 0. Dans
l’exemple que nous avons utilisé, le 1 à l’intersection de la ligne A et de la ligne C traduit le
fait que A cite C. Complétons un peu cet exemple pour le rendre plus « réaliste », en
ajoutant que chacun des cinq chercheurs se cite lui-même, ce qui fait que dans la matrice
d’adjacence correspondante, qui est une matrice carrée binaire d’ordre 5, la diagonale ne
contient que des 1 :
Figure 2-5 Matrice d’adjacence d’un graphe orienté non valué d’ordre 5.
Tous les types de graphes peuvent être traduits sous forme de matrices d’adjacence : si
le graphe n’est pas orienté, la matrice est symétrique, c'est-à-dire que la valeur figurant dans
la cellule (e, f) est identique à la valeur (f, e); si le graphe est valué, la valeur figurant dans
chaque cellule correspondra à la valeur de chaque arc ; si le graphe est signé73, il est possible,
soit de figurer les rejets par la valeur -1, soit de produire deux matrices binaires différentes,
l’une pour les choix et l’autre pour les rejets.
(1)
(2)
(3)
Figure 2-6. Représentation d’une même matrice.
L’ordre des lignes et des colonnes est conventionnel, comme l’est la disposition des
sommets dans un sociogramme. Il est possible de le modifier en procédant à des permutations
de la matrice initiale. Dans la Figure 2-6(1), nous avons mis le sommet C en dernière
position, pour refléter l’ordre hiérarchique que nous avions cru percevoir dans le
sociogramme. Cette hiérarchie, il est possible de la vérifier dans la matrice d’adjacence : on
peut tout d’abord constituer un bloc formé des cellules de la matrice correspondant aux
73
Une matrice signée peut contenir des valeurs négatifs ou positifs selon ce qu’elle doit représenter
(accepter/refuser, aimer/ne pas aimer, …). Nous ne les utilisons pas dans notre contexte.
64
relations entre les sommets A et B, dont nous avons vu qu’ils formaient une clique, ce qui est
confirmé par le fait que dans le bloc correspondant, il n’y a que des 1 (Figure 2-6(2)). A
partir de la matrice initiale d’ordre 5, il est ensuite possible de constituer une matrice «
bloquée » d’ordre 4, en parce que A et B ne forme qu’un seul « sommet ». Plusieurs «
recodages » sont possibles : ici, nous avons choisi de coder 0 les blocs nuls (ne comportant
que des 0) et de coder 1 tous les autres blocs. Dans le cas des relations entre le bloc (A,B) et
les autres sommets, cela signifie que nous considérons que le couple formé par ces deux
chercheurs fait référence à l’un de ses collègues si au moins l’un d’entre eux le cite. La
matrice bloquée ainsi obtenue (Figure 2-6(3)) est dite triangulaire, ce qui signifie que l’un
de ses triangles est nul - en l’occurrence celui qui est situé en dessous de la diagonale. Une
telle matrice triangulaire correspond à un graphe hiérarchique. Nous retrouvons sous forme
d’image matricielle la hiérarchie dans laquelle, à un extrême, le couple (A,B) cite tout le
monde sans être cité par personne, et à l’autre extrême le chercheur C est cité par presque
tous, sans citer personne en retour.
Nous n'avons fait que reproduire, sous forme matricielle, des résultats déjà obtenus à
partir du sociogramme. Cependant, on devine aisément que la matrice facilitera grandement
ce travail dans le cas de graphes d’ordre élevé, et grâce aux nombreux logiciels qui permettent
d’automatiser les procédures de permutation des sommets et de modelage des blocs (par
exemple, UCINET). De la même façon, il sera très facile de calculer le degré d’un sommet
(qui correspond à la somme des valeurs figurant dans la ligne et dans la colonne qui lui
correspondent), ou la densité d’un graphe (somme de toutes les valeurs contenues dans la
matrice, rapportée au nombre de cellules, moins celles de la diagonale si on considère que les
relations correspondantes n’ont aucun sens). L’avantage est encore plus décisif, et visible
même avec un graphe d’ordre réduit comme celui de notre exemple, dès lors que l’on
s’intéresse non plus seulement à l’adjacence des sommets, mais aux chemins indirects entre
sommets, à leur présence ou à leur absence, à leur longueur. Sans entrer dans les détails,
contentons-nous de poser ici que pour savoir s’il existe un chemin de longueur n entre deux
sommets, il suffit d’élever la matrice d’adjacence à la puissance n : si la valeur de la cellule
est 0, cela signifie qu’il n’y a pas de chemin entre les deux sommets correspondant. Ainsi, à
partir de la matrice d’adjacence d’un graphe d’ordre k jusqu’à la puissance k, il est possible de
savoir si les sommets sont reliés entre eux par un ou plusieurs chemins de longueur
quelconque, quelles sont les distances géodésiques entre chaque paire de sommets, quels sont
les sommets isolés, ou encore d’identifier les différentes composantes connexes du graphe74.
Autrement dit, la représentation d’un graphe d’ordre élevé par une matrice
d’adjacence, en permettant d’effectuer un grand nombre de transformations et de calculs,
offre un moyen moins intuitif mais beaucoup plus puissant que la simple représentation
graphique pour dégager certaines propriétés structurales des réseaux. Comme nous avons
commencé de le voir dans ce qui précède, des expressions comme : réseau de relations,
densité, clique, popularité, isolement, prestige, etc., en reçoivent une définition mathématique
opératoire, qui permet d’en construire des indicateurs, de les mesurer empiriquement et donc
de tester des hypothèses ou vérifier des propositions auparavant infalsifiables du fait de leur
contenu largement métaphorique.
74
Le propos n’est pas ici, d’entrer dans les détails des principes du calcul matriciel et de l’algèbre linéaire.
65
2.3 Conclusion
Nous avons présenté le contexte de notre approche. Nous en résumons les concepts
clés sur la Figure 2-7. Les mots en italique indiquent des possibles « effets de bord » sur
des domaines connexes.
Figure 2-7. Mots-clefs de notre approche.
Nous voyons l’importance d’appliquer dans la conception de réseaux sociaux
médiatisés les concepts psychosociaux et plus spécifiquement, les analyses des réseaux
sociaux. Ceci parque que l’on constate qu’avec le développement des technologies de
l ‘information et de la communication, les réseaux sociaux jouent un rôle l’important dans
l’efficacité et la réactivité de la diffusion de l’information.
De cette façon, nous avons exposé, l’apparition de différents dispositifs sur le Web
permettant le groupement de gens autour de sujets d’intérêt. Cependant, ils posent encore des
problèmes relatifs à la gestion de l’information.
Une réponse à la surcharge informationnelle de tels systèmes a été les systèmes de
recommandation. Nous avons exposé leurs différentes techniques algorithmiques. Nous avons
décrit également les différentes propositions d’hybridation de ces systèmes. L’idée est
toujours de mieux recommander aux utilisateurs. Cependant il reste encore du travail à faire
pour que de telles recommandations soient pertinentes.
Des approches récentes ne cherchent de la pertinence uniquement à partir
d’algorithmes et d’hybridations. Elles commencent à se rendre compte de l’importance des
qualités humaines que des recommandations devraient tenir. Nous sentons donc la nécessité
d’appliquer des nouvelles théories, comme par exemple l’influence des phénomènes
psychosociaux et d’autres sujets inhérents, comme le problème du respect du caractère prive
de l’information. Celles-ci mettent en évidence des besoins en analyses sociales.
Différentes recherches ont constaté que les personnes préfèrent notablement des
recommandations provenant des amis ou d’experts plutôt que le filtrage automatique (Adamic,
2000-url ; Shardanand et Maes, 1995). D‘autres ont constaté qu’une manière d’obtenir de
l’information (ayant un premier avis, même personnel) est à travers de la gestion de favoris
66
(Delgado et al. 2001 ; Lawlor, 2000 ; Andrews, 2000 ; Key, 2000 ; Kanawati et Malek, 2000). Ces projets
ont montré que les gens reconnaissent comme plus fiables des favoris déjà lus par d’autres
personnes ayant les mêmes intérêts, que ceux qu’ils trouvent via les logiciels.
Cependant, dans les types de systèmes décrits antérieurement, il y a d’autres
problèmes. Entre autres, citons les passagers clandestins. Il est très difficile de donner l’envie
de coopérer dans des communautés d’intérêt (Markoff, 2000). Pour cela il est très important de
promouvoir des moyens pour développer la conscience de la réputation et de la confiance. Ils
peuvent permettre que les personnes coopèrent en partageant leurs avis sur d’autres
personnes. Ceci génère une meilleure performance (les personnes maximisent leur
performance individuelle) sur ceux qui ne veulent pas collaborer (Sen et al. 2002).
Un contexte non informatique s’avère importante : le socio-psychologique. Plusieurs
études ont montré que pour rassembler de l’information et de l’expertise dans une
organisation, le moyen le plus efficace est d’utiliser les réseaux simples de collaborateurs,
c’est à dire, des collègues et des amis (Garton et al. 1997).
Nous nous efforçons donc d’appliquer ces travaux pour inciter les personnes à
participer dans ces types d’organisations en réseau. Nous dissocions donc deux niveaux de
participation dans de tels réseaux, selon la finalité de la personne, individualiste ou motivée :
Lorsqu'il a une finalité individualiste, l'individu a une démarche de type
« économiste ». Il va rechercher un bénéfice individuel au fait de contribuer, participer à
un réseau social virtuel.
Lorsqu'il a une finalité motivée ou identitaire, l'individu n'utilise plus le réseau comme
un moyen pour parvenir à ses fins. Il est alors guidé par une volonté d'appartenir au
groupe, au travers de relations de confiance, qui lui permettent de développer une
estime de lui-même positive.
Si avec une participation individualiste les individus évaluent des chemins alternatifs
pour obtenir au plus bas coût la meilleure ressource (Hall, 2001), dans une participation
motivée, où les ressources peuvent être considérées comme un bien public, il a été prouvé que
les personnes qui sont réticentes à contribuer, sont désireuses de partager ses ressources quand
ses collègues leurs demandent de façon informelle (Dixon, 2000). De ce fait, l’échange est
motivé par une obligation morale et par un intérêt communautaire.
Nous appliquerons ces principes à un outil du type gestionnaire de favoris qui doit
permettre la prolifération de relations (à l’intérieur de son réseau social) et qui doit disposer
des meilleurs ressources d’information. Les membres ayant un intérêt communautaire veulent
s’établir eux-mêmes comme des experts (Wasko et Faraj, 2000), pour cela, ils demandent
toujours les moyens de savoir ou de distinguer leur acceptabilité vis à vis des autres. L’outil
doit donc permettre cette conscience et doit rester toujours disponible et consultable. Il doit
permettre également d’avoir des chemins d’accès vers d’autres communautés d’intérêt, et de
générer conjointement des nouvelles ressources.
Nous pensons qu’une manière d’étudier un tel système est d’utiliser les concepts de
l’analyse de réseaux sociaux.
Nous prétendons influencer les topologies des réseaux sociaux médiatisés formées par
les relations entre ses membres, pour permettre aux gens de diffuser efficacement de
l’information, la mieux adaptées aux besoins des membres des réseaux.
67
L’état de l’art de travaux en psychologie sociale nous a permis de dégager différents
résultats sur l’engagement et la motivation d’utilisateurs à partager et à coopérer au sein de
réseaux sociaux. Nous voulons influencer cet ensemble intégré de concepts avec la théorie de
systèmes de filtrage collaboratif afin de proposer des mises en relation entre personnes. Les
résultats de notre état de l’art forment ainsi, la base des hypothèses de notre approche de
régulation d’un média social. Celles-ci sont présentées dans la partie suivante.
68
Deuxième Partie - Un
Service Web de
mise en relation
par dynamiques
sociales
d’échanges
d’informations
Chapitre 3. Notre Approche
Chapitre 4. Validation de Notre Approche
69
70
3 Notre Approche
Résumé du chapitre
Tout d’abord, nous présentons le cadre théorique de notre approche, la définition des concepts clés
vis à vis de notre état de l’art et de nos théories. Ces dernières incluient nos postulats, nos
hypothèses à vérifier, nos principes et nos mécanismes.
Nous introduisons ces grandes lignes de notre approche proposée sous forme d’un système de
partage de références sur un réseau social médiatisé.
Puis nous développons ces lignes avec ces concepts et théories dans les mécanismes proposés.
L’utilisateur a toujours besoin d’informations pertinentes75 et structurées. Nous introduisons notre
mécanisme de gestion d’information personnelle avec des dispositifs intéressants.
L’utilisateur souhaite toujours élargir ses sources d’informations. Nous lui proposons des
« contacts » susceptibles de lui apporter cette diversification enrichissante. Ceci grâce à notre
mécanisme de recommandation de contacts.
Nous développons des indicateurs sociaux pour la dynamique de ces mécanismes. Ils permettent à
l’utilisateur de developper des stratégies d’obtention d’information « pertinente », et de maintenir
une « conscience sociale » vis à vis des autres.
Nous expliquons cette approche comme génératrice de réseaux sociaux, permettant de développer
des objectifs informationnels particuliers en motivant les utilisateurs à participer dans une
dynamique d’échanges d’information.
Nous présentons nos idées techniques, théoriques et fonctionnelles. Dans ces dernières, nous
montrons un aperçu (navigation, gestion d’information personnelle et gestion de contacts) de notre
système76 SoMeONe, ainsi que son architecture.
omme nous l’avons introduit dans la première partie, beaucoup de services sont
développés pour aider l'utilisateur à naviguer dans le dédale d'informations du Web.
Nous proposons de résoudre quelques-unes des problématiques posées par ces services. Nous
nous intéresserons plus particulièrement aux systèmes de recommandations et aux
technologies associées de filtrage collaboratif. Ces systèmes sont reconnus dépendants des
motivations des utilisateurs à fournir des commentaires (Lueg, 1997 ; Maltz et Enhrlich, 1995 ;
C
75
De manière très générale, nous entendons par « information pertinente », celle qui satisfait les attentes
informationnelles d’une personne.
76
Par « système » il faut comprendre notre proposition : un outil développé pour l‘utilisateur selon
l’approche issue de notre travail de recherche.
71
Herlocker et al. 2000) et donc de leurs comportements (Adar et Huberman, 2000). Ces
comportements sont influencés par les « liens » ou relations que les utilisateurs forment entre
eux (amitié, profession, etc.), comme le justifie la théorie des réseaux sociaux détaillée dans la
section 2 de la première partie. Nous pensons qu’en analysant la structure (topologie du
réseau) formée par ces liens, nous pouvons influencer l’efficacité des flux d’information
échangés entre utilisateurs.
⋅
⋅
⋅
Nous présentons ces idées dans ce chapitre, dans trois sections principales :
La première section aborde le cadre théorique de notre approche. Les concepts au cœur de
notre approche et nos théories sous forme de principes, d’hypothèses et de mécanismes.
La deuxième section concerne la description détaillée de ces concepts et de ces théories :
les grandes lignes de notre approche. Il s’agit de mettre en place un gestionnaire
d’information personnelle intéressant, pour motiver à la participation dans des dynamiques
d’échange d’information. Ceci avec l’aide d’un recommandeur de contacts qui s’appuie
sur la dynamique du réseau proposé par notre approche.
La dernière section décrit l’application de cette théorie dans un prototype de service
nommé SoMeONe, conçu comme un service Web de mise en relation à travers l’échange
d’informations. Nous présentons ses fonctionnalités avec un aperçu de la navigation, de la
gestion d’information personnelle, de la gestion de contacts, ainsi que l’architecture du
système.
72
SSeeccttiioonn 11.. C
Caad
drree tthhééoorriiqqu
uee d
dee nnoottrree aapppprroocchhee
Nous avons souhaité construire en premier, un cadre théorique issu de nos analyses de
l’état de l’art, qui permette de rendre compte de l’ensemble de nos hypothèses, de nos
principes et des concepts socio-informatiques qui jouent un rôle important dans la mise en
oeuvre de notre approche.
3.1 Concepts de base
Notre approche utilise la théorie d’analyse des réseaux sociaux présentée dans notre
état de l’art. Cette théorie permet de dépasser l’opposition entre une approche identitaire77 et
une approche individualiste78, et se positionne dans le paradigme de l’analyse structurelle
(Burt, 1982 ; Angot et Josserand, 1999). Elle privilégie les données relationnelles et se focalise sur
la structure ou le cadre constitué par les interactions des gens pour comprendre les
phénomènes sociaux ou comportementaux. Cette perspective considère que les gens font
partie inhérente de réseaux de relations sociales en dehors desquels on ne peut pas
comprendre leur comportement (Granovetter, 2000). La position d’un individu dans ses groupes
d’appartenance se pose comme un facteur influant fortement sur ses comportements (Burt,
1982). D’où l’importance d’intégrer des concepts de régulation sur un réseau social médiatisé.
3.1.1 Réseau social médiatisé
Nous considérons un média social comme le moyen de mettre en relation les
personnes. Ainsi, nous appelons réseau social médiatisé, le réseau social qui se constitue
lors de l’usage d’un media social. Par ailleurs, nous adoptons cette terminologie qui étend la
perspective de J. Preece sur les communautés en ligne : « une communauté en ligne79 est un
groupe de gens partageant des intérêts communs, des idées, des opinions, et des sensations
dans les réseaux collaboratifs » (Preece 2000).
3.1.2 Régulation
Le concept de régulation dans notre approche, concerne tout ce qui a trait à
l'organisation des membres d’un réseau social médiatisé : constitution et vie du réseau,
définition de droits et devoirs au sein du réseau, de règles de fonctionnement et de
comportement ; ainsi que l’apprentissage et la mise en œuvre de ces règles, droits et devoirs80.
De cette façon, elle donne un cadre aux interactions potentielles entre les différents membres
du réseau.
77
Dans une approche identitaire, l'individu n'utilise plus le réseau comme un moyen pour parvenir à ses
fins. Il est alors guidé par une volonté d'appartenir au groupe, au travers de relations de confiance, qui lui
permettent de développer une estime de lui-même positive.
78
Dans une approche individualiste, l'individu a une démarche de type économiste. Il va rechercher un
bénéfice individuel au fait de contribuer, participer à un réseau social virtuel.
79
Egalement appelée communauté virtuelle.
80
Dans cette perspective, le réseau peut apparaître soit fragile, à cause des conflits possibles, soit
paralysé par les stratégies des participants cherchant à défendre leurs positions. Quels dispositifs permettent aux
participants de se coordonner ? Quels sont les mécanismes permettant la construction des relations ? Par ailleurs,
la perception des relations et de la composition de réseaux diffère d’un participant à l’autre (Krackhardt, 1987,
1990 ; Krackhardt et Hanson, 1993).
73
La régulation permet l’organisation, définit les droits, les devoirs et les règles de
fonctionnement dans un réseau social médiatisé.
Il s’agit donc d’établir un guide comportemental dans la dynamique d’interactions
sous-jacentes du réseau et d’analyser les modalités par lesquelles les participants trouvent des
moyens de collaborer, malgré des intérêts généralement divergents.
3.2 Objectifs
Notre objectif est de recommander des contacts plutôt que de l’information. Pour cela
nous nous intéressons fortement à l’analyse de la structure d’un réseau social médiatisé pour
valider l’efficacité de flux d’information. De cette façon nous ne proposerons pas des contacts
par le contenu informationnels qu’ils puissent gérer mais plutôt par leur position dans le
réseau social médiatisé.
De cette façon, parmi les pistes envisageables dans l’état de l’art, nous choisissons
d’aborder les problèmes suivants :
La motivation à échanger. Pour qu’un réseau social puisse fonctionner il faut de la
motivation de la part de ses membres. Nous pensons qu’en permettant une topologie
qui facilite le flux d’information, en minimisant des facteurs négatifs (comme la
prolifération des membres gourous, entre autres) et en maximisant les facteurs
positifs (comme l’obtention de l’information adéquate rapidement) nous pouvons
augmenter cette motivation. Nous analysons la motivation dans notre première
évaluation (§4.1.4.B).
L’engagement à participer. Même avec motivation à participer dans la dynamique
de d’échanges d’information du réseau, sans engagement, cette motivation s’affaiblit.
En effet, il s’agit d’analyser les usages de notre proposition afin de valider l’adoption
et la fidélité au système issu de notre approche. Nous analysons ce critère dans notre
première évaluation (§4.1.4.C).
La pertinence de l’information échangée. Même si la topologie du réseau est
optimale du point de vue du flux d’informations, si l’information obtenue ne
correspond pas aux besoins des utilisateurs alors le réseau social ne survivra pas.
Nous pensons que la mise en relation avec des contacts de qualité, permettra de
reconnaître la pertinence de l'information. En effet, si les utilisateurs suivent des
recommandations et échangent réciproquement des informations, l’information
échangée peut être considérée pertinente. Par contact de qualité il faut entendre
le possesseur d’information adéquate. Bien évidement, il existe beaucoup de moyens
d'analyser la pertinence des informations échangées. Le notre sera validé par le fait
de maintenir une relation ayant été recommandée et le classement des informations
échangées dans sa propre taxonomie. Nous analysons ce critère dans notre première
évaluation (§4.1.4.B).
3.3 Postulats
Dans l’ensemble de nos six postulats, les deux premiers portent sur deux idées liées :
les recommandations humanisées et la confiance. Nous détaillons les six ci-après :
[po01] Les utilisateurs préfèrent être recommandés par un humain, plutôt
que par un logiciel. Plusieurs études ont montré que pour rassembler de
l'information et de l'expertise dans une organisation, le moyen le plus efficace est
d’utiliser simplement des réseaux de collaborateurs, c’est à dire, des collègues et
des amis (Garton et al. 1997 ; Dixon, 2000). Ardichvili confirme cette affirmation : ces
74
réseaux sont « une source d’information privilégiée qui favorise le partage de
ressources » (Ardichvili 2002).
[po02] Si les utilisateurs ont confiance alors ils participent plus. Les sources
d’information sont mieux acceptées venant d’humains suivant des phénomènes
comme « le bouche à oreille » et génèrent la confiance dans l’information
obtenue. Une information (qui est vue comme un bien) est considérée de haute
qualité si elle est d’abord appréciée par une personne « réputée » dans le contexte.
Elle peut être également vue comme un bien d’expérience (Gensollen 2003-url) et
pour cela considérée meilleure qu’une information fournie par un logiciel.
[po03] La nature d’un utilisateur est individualiste. Sa participation est
guidée par l'intérêt individualiste à trouver l’information dont il a besoin. Dans la
démarche économiste relative aux réseaux sociaux virtuels, le fait de contribuer
est considéré comme un moyen servant un fin individualiste, l’obtention
d’information. Ainsi, un utilisateur a des comportements collectifs mais dans le
but d’atteindre ses propres objectifs (Spears et al. 2000).
[po04] La motivation des individus à participer à des échanges est fonction
du rapport entre production / consommation d'informations, qui doit être jugé
équitable. Selon la théorie de l'équité (Adams, 1965), les individus souhaitent retirer
d'une relation autant qu'ils y investissent. Lorsqu'ils perçoivent une infériorité des
avantages par rapport à leurs contributions, l'inégalité peut alors provoquer la
rupture complète des relations d'échange. Dans la théorie de l’échange social, plus
les possibilités d’échanges sont nombreuses, plus la fréquence de coopération (qui
va permettre la motivation), va diminuer avec le temps (Nahapiet et Ghoshal, 1998).
[po05] Les collections d’informations personnelles dans un réseau
aboutissent à la construction d’une connaissance collective. Ceci permet
d’obtenir une information de qualité. Le fait de faciliter un moyen de gestion
d’information personnelle permet à la collectivité (membres du réseau) de stocker
son information (connaissance). Une même information peut être utilisée/perçue
de différentes façons. Le fait de l’échanger et/ou de la partager et de la stocker
provoque une accumulation de connaissances sur cette information, donc la mise
en commun de perceptions, et de délibérations. En ce sens, Jean-Yves Prax,
affirme qu’une « organisation » (notre réseau social) n’est pas tant un moyen de
« traitement de l’information » mais bien de création de connaissance collective
(Prax, 2003).
[po06] Le besoin de reconnaissance inhérente à l’individu l’amène à la
recherche d’une appartenance à un groupe. En conséquence, il est nécessaire
d'insuffler une dose de conscience sociale dans le réseau. Selon la théorie de
l'identité sociale (Turner, 1982), le fait d'appartenir à un groupe devient une
motivation suffisante à s'engager et à participer. Dans cet engagement, il émerge
le concept de réputation. Ceci est non-contractuel et évoque la variation et
l’adaptation du comportement des utilisateurs, selon le comportement d’autres
dans le groupe, pour s'y intégrer et en obtenir bénéfices/satisfactions. De ce fait,
nous offrons une conscience sociale afin de montrer le comportement des autres
dans le réseau. Les utilisateurs l’utilisent pour décider comment ils vont se
comporter afin de conduire des transactions informationnelles et de continuer dans
75
le réseau. Ce sujet est validé par des théories de réseaux sociaux (Granovetter, 1985),
par des théories économistes (Kreps et Wilson, 1982 ; Wilson, 1985 ; Kreps, 1990) et
également pour Desalles (2001). De ce fait, ce type de conscience sociale
permet le monitorage de sa position dans le réseau et son degré de
coopération/intégration vis à vis des autres.
3.4 Hypothèses
Nous avons décidé d’intégrer trois hypothèses afin de les vérifier à travers les
deux évaluations développées au chapitre 4. Nous les détaillons ci-après :
[h01] Les membres d’un réseau social apprécient d’échanger des ressources.
La mise en place d’une dynamique (régulée) d’échanges d’information dans un
réseau social médiatisé, facilite les échanges d’information entre les membres du
réseau.
[h02] L’utilisation des indicateurs sociaux est importante pour la mise en
relation de personnes. Nous avons construit un ensemble d’indicateurs sociaux
pour appuyer la mise en relation de personnes. Ils vont nous permettre
d’influencer des qualités globales d’efficacité d’un réseau social médiatisé.
[h03] La qualité globale d’un réseau social dépend de sa structure. Avec nos
indicateurs sociaux nous pouvons vérifier des qualités globales d’efficacité d’un
réseau social médiatisé. Ces qualités globales dépendent de sa structure.
3.5 Principes
Les hypothèses décrites antérieurement nous ont permit de définir deux
principes importants :
[p01] Pour avoir des recommandations pertinentes nous construisons un
réseau de diffusion entre personnes. Nous ne proposons pas une approche pour
des systèmes purement de diffusion d’information. Il s’agit d’établir une
dynamique où les recommandations sont des contacts susceptibles de gérer
l’information pertinente.
Notre approche ne porte pas sur la recommandation d’information mais de contacts.
[p02] Pour obtenir la confiance nous permettons le contrôle de la diffusion
d’information. Il est fort nécessaire de donner le contrôle sur les droits de
visualisation sur l’information personnelle vis à vis des autres membres du réseau.
En respectant le désir de diffusion contrôlée, les membres d’un réseau social
médiatisé auront confiance au média proposé81.
[p02bis] Les personnes ont confiance dans les personnes plutôt que dans un
système. Il est nécessaire de faciliter l’échange entre personnes avec le média
proposé[po01; po02].
81
Le média social dont nous parlons fait référence au système où se développe le réseau social
médiatisé.
76
[p03] Pour motiver, il faut diffuser pour se maintenir dans le réseau. Pour se
maintenir dans le réseau, il faut diffuser ou échanger une partie de son information
personnelle. Les utilisateurs ne recevront des recommandations que s’ils en
diffusent. Il est prouvé qu’il doit exister un équilibre des échanges sinon les
producteurs vont cesser de participer : il n’y aura aucune tolérance vis à vis des
passagers clandestins (Dyer et Nobeoka, 2000; Weisband et al. 1995). Les utilisateurs
qui ne veuillent pas diffuser seront isolés jusqu’à disparaître du réseau. Dans un
réseau où les échanges sont équilibrés, les membres sont motivés à participer
[h01].
[p04] Pour recevoir de l’information de « qualité » il faut être en relation
avec des personnes de « qualité ». Pour avoir des recommandations de contacts de
« qualité » il faut avoir une information personnelle de « qualité ». Dans la théorie
de l’échange social et des relations réciproques (Thibault et Kelley, 1952/1959 ; Cook et
al. 1983), diverses recherches ont mené à l’idée de « connaissance potentielle ».
Tout le monde sait quelque chose d'utile et est donc un partageur potentiel de
connaissance (Merali, 2000 ; Héber-Suffrin, 1992/1998 ; Héber-Suffrin, 1993; Perriault, 1996).
Cela signifie qu’un utilisateur possède de l’information potentiellement de bonne
qualité. Cependant, s’il diffuse une information de mauvaise qualité, le principe
énoncé signifie qu’il devrait voir ses échanges se réduire. Il conviendra donc
d’informer largement les utilisateurs de ce principe sous-jacent. D’après
Hargadon, Wasko et Faraj (Hargadon, 1998; Wasko et Faraj, 2000) cela devrait aussi
motiver les plus timides à prendre confiance et à échanger leur information.
[p05] En choisissant les contacts à recommander on peut influencer la
topologie du réseau social et sa qualité globale. Il est possible de choisir les
contacts à recommander selon leur position dans le réseau social. Le chois peut
avoir un impact sur la topologie du réseau et selon [h02] aussi sur sa qualité
globale.
77
78
SSeeccttiioonn 22.. L
Leess ggrraannd
deess lliiggnneess d
dee nnoottrree aapppprroocchhee
L’analyse par les réseaux se concentre sur des données qui concernent les relations
(liens) plutôt que les attributs des membres (leurs profils). Les liens entre membres ne sont
pas assimilables à un attribut individuel, ils sont une propriété du réseau social (Burt, 1982).
Nous considérons qu’ils participent à la définition du profil social des individus.
Nous avons l’intention de constituer une approche facilitant la mise en place d’un
réseau social médiatisé et « régulable ». L’idée est de permettre la gestion d’information
personnelle en intégrant des « dispositifs efficaces82 » de classification pendant la navigation.
Il s’agit aussi de favoriser la création d’une dynamique en réseau, qui motive à la participation
aux échanges d’information, de manière contrôlée par l’utilisateur : c’est lui qui décide de ses
contacts et les moyens83 pour influencer le flux d’information vers lui.
Figure 3-1. Les outils contrôlés par les utilisateurs du réseau social médiatisé. Les
membres du réseau participent à une dynamique d’échanges d’information.
Nous venons de présenter des concepts de notre approche qui vont nous servir à la
construction d’un tel système. L’utilisateur aura deux gestionnaires : le gestionnaire
d’information personnelle et le gestionnaire de contacts. Ce dernier sera influencé par le
recommandeur de contacts, voir Figure 3-1 ci-dessus. Ce recommandeur de contacts
influencera la dynamique d’échanges d’information dans un réseau social médiatisé. Cette
mécanique est valisée par la mise en place de nos mécanismes de régulation.
De cette façon, nous avons construit en premier, six postulats selon notre état de l’art
afin de prendre en compte la nature, les préférences et les motivations des utilisateurs quand il
s’agit de participer dans une dynamique en réseau. Puis, à partir de ces postulats et des
objectifs de notre approche sur la recommandation des contacts plutôt que de l’information,
82
Par « dispositifs efficaces » nous entendons les outils offerts à l’utilisateur, qu’il doit trouver utiles et
faciles d’adopter dans son usage quotidien.
83
Nous appelons stratégies d’obtention d’information aux moyens qu’un utilisateur a pour influencer le
flux d’information vers lui.
79
nous avons introduit trois hypothèses de base afin de les vérifier dans le contexte des
évaluations de notre approche ; ces hypothèses doivent nous aider à évaluer les facteurs qui
motivent les utilisateurs à échanger de l’information personnelle. Finalement, l’ensemble de
postulats et des hypothèses nous a permis d’établir les six principes de base de notre
approche. A travers ces principes nous pouvons expliquer les mécanismes de régulation que
nous introduisons et pour lesquels nous avons développé une série d’algorithmes de
recommandation de contacts ; ces principes nous permettent également de valider nos
hypothèses.
Donc, nous allons développer ces propositions théoriques (postulats, hypothèses et
principes) sur notre proposition d’un système de partage de références sur un réseau social
médiatisé, qui concentre les deux gestionnaires que nous avons déjà introduit (gestionnaire
d’information personnelle et gestionnaire de contacts).
3.6 Système de partage de références sur un réseau social
médiatisé
Avant toute chose, notre approche permet la gestion d’informations personnelles, tel
que les outils du type gestion des favoris. Les internautes produisent quotidiennement de
l’information (personnelle) : des photos, des loisirs, des documents de travail ou de recherche,
etc. Nous voulons permettre l’organisation de cette information (dans des éléments similaires
aux classeurs) et éventuellement de l’annoter pendant ou après la navigation.
Une approche développant un type de gestionnaire de favoris qui permet de classer et
d’annoter des informations personnelles.
Nous complétons ce type de gestion d’information personnelle en introduisant des
listes de diffusion84 (Andrews, 2000-url ; Kanawati et Malek, 2000 ; Trevor, 2001). L’idée est que
chaque individu puisse contrôler à tout moment, qui peut accéder à ses informations. Nous
considérons ces informations personnelles comme constituant le profil individuel de
l’utilisateur. De cette manière, notre concept de liste de diffusion diffère de celui des systèmes
de listes de diffusion qui se trouvent sur le Web. Pour nous, une liste de diffusion est le
moyen de permettre à des personnes choisies par l’utilisateur de visualiser ses informations.
Avec ces listes, nous aidons les individus à exploiter leurs réseaux de relations85 afin de
trouver et/ou de filtrer l’information dont ils ont besoin. Le moyen dont chacun exploit son
réseau de relations, définit le profil social86 de l’individu. Ainsi, le profil social représente la
position des individus vis à vis des autres, dans le but d’obtenir de l’information adaptée à
leurs intérêts.
Notre approche permet à l’utilisateur de contrôler à tout moment, qui peut visualiser
lesquelles de ses informations : contrôle du réseau de relations.
Dans l’exemple de la Figure 3-2 ci-dessous, le réseau de relations de Carlo est Michel
et Laurence. Il leur a donné le droit de visualisation de son information, en ajoutant leurs
84
Appelés également listes de distribution.
Les personnes avec lesquelles un utilisateur échange des informations.
86
Nous entendons par profil social, la position d’un utilisateur dans le réseau vis à vis des autres, par
exemple, si l’utilisateur est altruiste (parque qu’il permet que les autres visualisent ses informations
personnelles), passager clandestin (les autres lui ont donné la permission de visualisation mais il ne le fait pas en
retour), etc.
85
80
identifiants87 à la liste de diffusion de « Mon Projet ». « Mon Projet » correspond au nom
assigné à un des éléments qui constituent sa classification personnelle d’information (ou
favoris). Nous l’appelons topique chaque élément de cette classification. De cette façon,
Michel et Laurence deviennent les contacts de Carlo pour son topique « Mon Projet ». Dans
cet exemple, les listes de diffusion pour les autres topiques de la classification de Carlo, sont
vides.
Figure 3-2. Les informations personnelles sont classées dans une classification
construite par l’utilisateur. Chaque élément de la classification, que nous appelons topique,
peut avoir une liste de diffusion associée, contenant les noms de contacts pouvant visualiser
l’information contenue. Cette dernière contient des « liens » ou des documents accessibles
sur le Web.
Les listes de diffusion visent à utiliser l’intelligence distribuée des gens producteurs
d'informations en leur permettant de la mettre à disposition de leurs « contacts88 ». Elles
permettront la gestion de contacts ciblés.
Nous développons un type de réseau où l'information navigue d’un utilisateur à un
autre, plutôt que d'avoir un utilisateur naviguant d'information en information. Nous appelons
ce réseau « Toile de Personnes » (Plu et al. 2003). Nous proposons donc un nouveau type de
réseau social : le réseau social médiatisé (§3.1 ; §3.6 ; §3.11).
Ce réseau social médiatisé doit se construire entre utilisateurs dans une dynamique que
permet la mise en relation de membres du réseau pour échanger une information de qualité89
adaptée à chaque membre[po05]90. Cette mise en relation sera faite grâce au
recommandeur de contacts que nous proposons.
87
Du point de vue du système, l’utilisateur ajoute des identificateurs de contacts et non leurs noms.
Nous appelons « contacts » les personnes ayant droit de visualisation de l’information produite, soit
parce qu’il préexiste une relation entre eux (amitié par exemple), soit parce qu'une relation est envisageable.
89
De façon générale, nous comprenons par information de qualité, celle qui grâce à une dynamique
particulière, permet l’accumulation d’avis de personnes. Ces avis ne doivent pas être nécessairement des
annotations des utilisateurs. Il suffit que l’information passe de personne en personne, pour que l’information
soit considérée vis-à-vis des autres.
90
Rappel : la notation entre parenthèses carrée, est une manière de référencer une hypothèse [h] ou un
critère [c] ou un mécanisme [m], décrits dans ce chapitre.
88
81
Notre approche développera un réseau social médiatisé permettant l’échange d’information de
qualité et adaptée à chaque membre du réseau. La mise en relation nécessaire à ces échanges
sera assurée par un recommandeur de contacts.
⋅
⋅
⋅
Ainsi, notre recommandeur de contacts s’intégrera au réseau social médiatisé tout en :
recommandant des contacts au lieu de documents ;
luttant contre les problèmes inhérents aux systèmes actuels de recommandation, par
exemple, la prolifération de passagers clandestins ;
permettant l’ouverture du réseau de relations vers des contacts de qualité.
Pour cela, nous intégrons des analyses de réseaux sociaux. Ensuite, nous nous sommes
donnés comme objectif la construction d’un réseau qui intègre des mécanismes originaux de
motivation aux échanges d’information. Une conséquence d’un tel objectif est l’obtention
d’un réseau de confiance et, un des effets de bord, sera la construction d’une connaissance
collective [po05].
La mise en place d’une dynamique de mise en relation de contacts issue d’analyses de réseaux
sociaux est indispensable pour constituer un réseau avec flux d’information de qualité et peut
contribuer à l’efficacité d’un réseau social médiatisé.
Pour permettre ce que nous venons de mentionner, nous pensons qu’il faut introduire
des moyens pour contrôler et/ou inciter les échanges et la participation dans notre réseau. Une
manière de le faire, est d’intégrer la régulation à travers de mécanismes et d’une dynamique
de réseau social proposés.
Nous allons exploiter les concepts que nous venons d’introduire pour construire une
approche concevant des dynamiques sociales pour la mise en relation, détaillée dans la section
suivante.
82
S
Seeccttiioon
n 33.. C
Coon
ncceep
pttiioon
n
Les concepts91 et théories que nous venons de décrire sont les bases de la conception
de notre système SoMeONe. Nous les décrivons dans cette partie, en présentant d’abord les
mécanismes de notre approche qui mettent en oeuvre les différents principes de notre cadre
théorique. Puis nous détaillons la dynamique du réseau social, notre mécanisme de
recommandation de contacts (divisé en deux étapes, une selon le filtrage collaboratif et l’autre
selon nos algorithmes issus de nos analyses sociales) et en dernier, le réseau personnel de
l’utilisateur.
3.7 Mécanisme de gestion de l’information
Nous avons l’intuition que c’est la diversité des informations personnelles qui
permettra l’ouverture du réseau social de l’utilisateur [p03 ; p04]. La mise en place d’un
moyen approprié à la gestion de son information peut permettre la diffusion et l’échange
d’information de façon simple et contrôlée [p02]. Pour cela nous proposons :
[m01] Mécanisme de gestion et diffusion de l’information : la gestion de
l’information doit permettre une maintenance facile de l’information personnelle
et une transparence des échanges. Notre approche, influencée par le concept de
listes de diffusion et de gestionnaires de favoris personnels, doit faciliter la
gestion d’informations personnelles (Herlocker et al. 2004 ; Sinha et Swearingen, 2001) :
l’utilisateur doit avoir des outils dédiés92. Il est donc d’une part indispensable de
simplifier les tâches de classification, de stockage et de récupération de
l’information quotidienne de l’utilisateur. D’autre part, la diffusion d’information
doit être automatisée, sous le contrôle de l’utilisateur : il diffuse l’information
désirée vers ses contacts désirés [p02].
L’utilisateur doit avoir le contrôle sur l’information personnelle et sur sa diffusion.
Nous allons décrire dans ce qui suit le détail de notre mécanisme de gestion
d’information.
3.7.1 Construction d’une taxonomie personnelle
Le moyen suivi pour gérer des informations est la construction des taxonomies. Afin
d’avoir une taxonomie personnelle, nous proposons à l’utilisateur :
De maintenir son vocabulaire personnel pour organiser l’information suivant ses
intérêts. Ainsi, un document Web parlant du Mexique peut être vu par deux personnes,
soit comme un lien de vacances, soit comme un site historique.
Avec son propre vocabulaire, l’utilisateur peut regrouper un même type de choses, à
l’aide des topiques.
91
La formalisation mathématique de ces concepts est développée dans l’Annexe I-6.
Par outils dédiés nous désignons les dispositifs intéressants permettant aux utilisateurs, de simplifier
les tâches importantes dans la dynamique d’échanges. Par exemple, la gestion facile pendant la navigation, pour
classer et/ou diffuser automatiquement l’information.
92
83
Chaque topique peut être une spécialisation (sous-topique) d'un topique plus
général. Par exemple, un topique nommé « cuisine française » peut être classé à
l’intérieur d’un topique nommé « cuisine mondiale ».
Chaque topique peut être assigné à une structure de données que nous introduisons
avec le nom de référence. Ces structures de données font « références » à des
documents Web ou URIs93. Alors, une référence a associé un URI qui identifie le
document auquel elle fait référence, le(s) nom(s) du topique(s) où elle est classée, sa
provenance (qui peut être directement le Web ou un autre contact) et éventuellement
elle peut contenir des annotations avec les avis, les commentaires ou les résumés
de l’utilisateur qui les crée, par exemple.
Attention, ne pas confondre une référence avec un lien ou un document Web. Une
référence dans notre approche est une structure spéciale groupant des éléments qui
décrivent le point de vue d’un utilisateur sur un document Web (identifié par son URI).
C’est l’unité d’information principale de notre approche, qui permet de qualifier les
informations des membres du réseau social.
Une référence peut être associée à n'importe quel genre de documents
disponibles via l'utilisation du protocole HTTP (Berners-Lee et al. 1996). Les documents
peuvent être des documents mono ou multimédias. Ils peuvent émaner du WWW ou
d’un Intranet d'entreprise, d’un serveur de courrier du Web ou de n'importe quel
genre de dossier personnel. C’est leur URI qui les identifie.
Quand un topique est assigné à une référence, nous disons que le topique indexe
cette référence. Ainsi, quand l’on veut afficher le contenu d’un topique, on affiche
l’aperçu de l’ensemble de références qu’il indexe.
Attention, ne pas considérer que le contenu de topiques sont les références. Dans
l’affichage du contenu d’un topique, l’utilisateur voit les références qu’il indexe !
Ainsi, un topique a :
Un « contenu » qui montre les références que le topique indexe, c’est à dire, des
liens sur les références qu’il indexe.
Une liste de diffusion [p01]. Elle va contenir les identificateurs94 de contacts.
Un identificateur est le nom ou le surnom d’un contact. Les contacts sont des
utilisateurs qui vont éventuellement avoir droit de visualisation du contenu du
topique ou sous-topique.
Un type de visibilité [p02]. Le contenu des topiques est diffusé directement ou
indirectement. La diffusion directe se fait quand un propriétaire de topique place
directement un ou plusieurs identificateurs de ses contacts dans la liste de
diffusion de son topique. Cependant, un topique peut être déclarée public par son
propriétaire, si son intérêt est de permettre à tous les membres du réseau la
visualisation du contenu de son topique. Une diffusion indirecte s’établit si un
membre déclare son topique « public », et qu’un autre utilisateur, intéressé par ce
topique, ajoute lui-même son identificateur à la liste de diffusion correspondante.
93
Les objets dans le Web ont besoin de noms ou adresses pour leurs identifier. L’URI (Universal
Resource Identifier) est un membre de cet ensemble universel de noms qui permet d’identifier un objet de
manière unique. Un URL (Uniform Resource Locator) est une forme d’URI qui exprime une adresse sur un
algorithme d’accès en utilisant protocoles de réseau (http//www.w3.org/Addressing/URL/uri-spec.html). Notez
que dans le contexte de notre approche, URL et URI sont utilisés de manière similaire.
94
Un identificateur est unique par personne.
84
De cette façon, et grâce à son vocabulaire personnel, chaque utilisateur peut créer sa
taxonomie (nomenclature personnelle) et gérer sa sémantique personnelle associée, afin de
classer ses informations. Chaque élément d’une taxonomie est un topique. Un topique peut
être ainsi vue comme un mot-clé ou une étiquette associée à un document Web.
L’information personnelle se classe dans une taxonomie personnelle utilisant le vocabulaire
propre à l’utilisateur. La taxonomie est intégrée par topiques définis par l’utilisateur. Les
topiques indexent des références aux documents sur le Web.
Nous appelons étiquetage le fait de classer des références dans des topiques. Ainsi,
une référence pointant au document « http//crepes.fr » peut être étiquetée par exemple avec le
topique « cuisine française ».
Les références sont étiquetées avec les noms des topiques où elles sont classées.
Figure 3-3. Il y a trois personnes. Chacune a sa taxonomie personnelle (carrés gris).
Dans chacune, les personnes utilisent leur propre vocabulaire pour nommer leurs topiques
et sous-topiques. Les flèches montrent les références aux documents sur le Web. Notons
que la Personne 1 étiquette Vacances/Caraïbe, tandis que la Personne 2 l’étiquette Voyages/Mer. De
cette façon, il y a deux références pour le document http://A.html.
3.7.1.1 Étiquetage multiple
Une caractéristique très importante de l’étiquetage ou indexation des références et le
fait de qu’une seule référence peut être associée à plusieurs topiques d’un même utilisateur !
Par exemple (voir Figure 3-3), la référence d’un document décrivant la « Péninsule du
Yucatán », www.travelyucatan.com, peut être associée à un topique nommé « Vacances » et à un
autre topique nommé « Pyramides » sans avoir besoin de stocker le document deux fois (ou
plusieurs fois)95 ! Grâce à cette caractéristique de multi association/classification, le
propriétaire de la référence, peut associer un seul document à plusieurs contextes (étiquettes
de ses topiques).
95
Procédure typique dans une structure de dossiers quand il s’agit d’associer un même fichier dans un
ou plusieurs dossiers. Par exemple, « l’explorateur windows » de Microsoft, évoqué avant, impose, si l’on veut
partager un fichier commun, de stocker un document plusieurs fois ou de créer des raccourcis (un raccourci ne
montre pas une trace d’avis) entre dossiers.
85
L’étiquetage multiple pourrait poser de question sur la facilité de gestion de listes de
diffusion de topiques. Nous expliquons dans la section suivante un simple moyen pour le
faire.
3.7.1.2 Spécialisation de listes de diffusion
Au lieu de gérer autant de listes de diffusion que de topiques, l’utilisateur peut
réutiliser et/ou spécialiser ses listes de diffusion. Un topique, qui est une spécialisation d'un
topique plus général, peut par défaut, hériter (reprendre) de la liste de diffusion de son
ascendant. Par la suite, l’utilisateur peut spécialiser (redéfinir) cette liste, en ajoutant ou en
enlevant des identificateurs de contacts. Si le topique père est public, il peut déclarer privé le
sous-topique, pour que personne n’ait le droit de le visualiser.
Dans cette logique, une fonctionnalité se révèle intéressante : l’utilisateur qui veut diffuser
une référence, devra seulement l’étiqueter dans un de ses topiques diffusés ! Nous savons qu’un
topique a une liste de diffusion associée avec des contacts ciblés et que nous pouvons
étiqueter des références avec plusieurs topiques. De cette façon, il se peut qu’une référence
soit étiquetée intentionnellement pour qu’elle soit diffusée automatiquement à chacun des
contacts des listes de diffusion des topiques. Par exemple, si un topique est un projet, les soustopiques seront des tâches du projet. Chaque tâche est affectée à un groupe de personnes. Le
fait d’ajouter des topiques à une référence, permet, au lieu de préciser des adresses
électroniques physiques, la diffusion automatique du document référencé, grâce aux listes de
diffusion implicites à la référence. Nous appelons ce processus la « diffusion selon un
adressage sémantique ». Selon les topiques qui étiquettent une référence, la liste de diffusion
ne sera pas la même. Par conséquent, ce processus d’adressage sémantique est aussi
contextuel.
Notez que pour chaque référence diffusée, l’utilisateur qui la reçoit, peut créer sa
propre référence sur le même document dans son/ses propre(s) topique(s). Une fois qu’il a
créé la nouvelle référence dans son/ses topique(s), elle sera propagée automatiquement à tous
les contacts dans la liste de diffusion des topiques qui l’étiquètent !
On voit ainsi comment un document se propage dans le réseau et navigue de personne
en personne.
L’étiquetage multiple améliore de manière transparente et automatique la meta-information et
permet l’adressage sémantique (et contextuel).
Ce mécanisme de gestion d’information que nous venons de décrire, nous a permis de
comprendre la gestion et la diffusion d’information entre contacts qui se connaissent.
Cependant, nous voulons mettre en place un outil qui recommande des contacts pertinents aux
besoins informationnels des utilisateurs. Pour cela, il faut intégrer des mécanismes de
recommandation et de régulation, pour les membres du réseau, qui permettent de valider nos
hypothèses. La section suivante développe le mécanisme de recommandation de contacts.
L’ensemble des concepts liés à la gestion de l’information personnelle d’un utilisateur
constitue ce que nous considérons son profil individuel détaillé dans la section suivante.
3.7.1.3 Profil individuel
Le profil de l’utilisateur est constitué de ses informations personnelles, c’est à dire, de
ce qu’il gère (taxonomie) et de ce qu’il produit (nouvelles références vers de documents
86
Web). Nous ne nous basons pas sur la réponse à des questionnaires pour connaître ses
préférences (déclaratif). Nous avons l’intuition que le profil ne peut pas être statique. Le profil
de l’utilisateur a une nature changeante par rapport aux goûts, aux préférences ou aux besoins
informationnels. Ainsi, dans notre approche, le profil individuel de l’utilisateur est constitué
uniquement de ses propres informations contenues dans sa taxonomie : les topiques et leurs
références.
Le profil individuel de l’utilisateur est acquis de manière incrémentale avec l’usage qu’il fait
du système issu de notre approche.
Est-ce qu’il y a
d’autres sources
d’information
sur les
événements
mondiaux?…
Histoire
Vacances
Loisirs
Nouvelles Mondiales
Figure 3-4. Grâce à l'analyse de son profil, le système issu de notre approche pourra
donner à cet utilisateur des recommandations de contacts intéressants (en rapport avec ses
besoins).
Imaginons un utilisateur (voir Figure 3-4, sa taxonomie montrée à droite) qui veut
trouver plus de sources sur des événements mondiaux. Afin d’obtenir des recommandations
de contacts qui peuvent lui fournir cette information, il faut qu’il ait un topique avec des
références (indiquant ainsi son intérêt).
Notez que notre approche n’est pas faite pour servir comme un moyen de recherche
d’information mais comme un moyen complémentaire à la « recherche d’information » car
elle doit apporter à l’utilisateur de l’information de qualité grâce aux avis de contacts
recommandés.
Nous pouvons constater qu’avec cette dynamique, nous validons nos principes [p01;
p02bis;p03;p04] où nous affirmons que l’intérêt de l’utilisateur est d’obtenir de
l’information pertinente issue des humains[po01] (venant de contacts recommandés), afin
de satisfaire un intérêt individuel [po03].
Il faudra effectivement que l’utilisateur de notre exemple place dans son topique, ses
propres sources pour son topique « Nouvelles Mondiales ». De cette façon, le recommandeur
pourra recommander des éventuels contacts, ayant de l’information intéressante96. Ceci
applique nos principes [p03]et [p04], et également le flux d’information dans le réseau
[m01]. Pour que ce dernier mécanisme s’accomplisse, selon [po04], il est nécessaire de
diffuser [p03]. Nous détaillons cette mécanique dans la section 3.10.4.
96
Celle ayant de la pertinence par rapport au type de l’information désirée.
87
De cette façon, l’utilisateur peut gérer son information personnelle[p01], tout en
ayant le contrôle de la visibilité et de la diffusion[p02], tout en conservant sa propre façon
de l’étiqueter (profil individuel) . L’élément important issu des échanges est une information
déjà classée et éventuellement déjà annotée, autrement dit, « ses références ». Nous le
développons dans la section suivante.
3.7.2 La construction d’une connaissance collective
Les références constituent un élément très important dans notre approche parce
qu’elles intègrent des traces d’avis d’utilisateurs du réseau. Et c’est précisément ce que nous
entendons par « avis » qui permettra : (i) les recommandations de contacts grâce à nos
analyses de réseaux sociaux [p05]; (ii) la transformation de l’information dans le réseau, en
connaissance collective[po05;p04].
Commençons par un exemple. Nous avons un document sur le Web identifié par son
URI www.travelyucatan.com. Imaginons un scénario très simple. Quatre personnes utilisant
notre approche peuvent trouver le contenu de ce document intéressant. Les quatre le classent
dans leurs taxonomies personnelles. Chaque fois qu’un document est classé, il lui est créé une
référence. Il y donc quatre références sur le même document.
Figure 3-5. Le document "www.travelyucatan.com" est pointé par quatre références
différentes : de Laura, de Paul, de Alain et de Jean.
Imaginons que ces personnes ne se connaissent pas. La première personne étiquette le
document avec son topique « Mexique » et écrit une petite note pour qu’elle se rappelle que
c’est un endroit touristique ; l’autre l’étiquette avec son topique « Les Mayas » et n’écrit
aucune note ; la troisième l’étiquette avec son topique « Vacances » et écrit un résumé du
climat de la région ; la dernière l’étiquette avec son topique « Pyramides » et n’écrit pas de
commentaire. Il en sort une connaissance collective simplement en associant les références
créées (avant même d’avoir partagé de l’information) :
⋅ Selon sa classification dans les topiques, elle pourrait se traduire par : « le document
www.travelyucatan.com, parle du Mexique, de la région des Mayas où il y a des pyramides
et où les gens peuvent aller en vacances ».
⋅ Les textes/notes/résumés ajoutés ne font qu’affiner cette connaissance initiale. On déduit
également qu’il s’agit d’un endroit touristique et on connaît le résumé du climat de la
région.
88
L’analyse de ces éléments n’entre pas dans le cadre de notre approche. Cependant,
l’ensemble des données inhérentes à un ensemble de références pointant sur un même
document est utilisé par notre approche pour construire ce que nous appelons une trace
d’avis : une collection des étiquettes97 de topiques et de sous-topiques, et une collection des
éventuelles annotations (titres, commentaires). La Figure 3-5 ci-dessus, illustre que
l’approche peut (si les utilisateurs le permettent) accumuler l’ensemble de traces de leurs avis
sur le document « www.travelyucatan.com ».
L’ensemble de références créées sur un même document par différentes personnes accumule
une meilleure connaissance sur le document référencé.
Nous appelons meta-information l’accumulation de traces d’avis et d’étiquettes des
références pointant vers un document Web, qui sont donnés par les membres d’un réseau sur
le même document. Cette meta-information qui circule aussi dans le réseau peut être utilisée
pour donner de la pertinence à l’information elle-même.
Ainsi, chaque fois que le propriétaire d’une référence la voit, elle aura associée la trace
d’avis et les étiquettes (voir Figure 3-6, ci-dessous).
L’information qui circule dans le réseau a associée de la meta-information : trace d’avis de
membres du réseau.
Si nous reprenons l’exemple de la Figure 3-6, le sens que l'utilisateur veut
probablement donner au contenu du document, est « à Yucatán, je peux passer des vacances,
et je peux y trouver des pyramides ». Notez que cet utilisateur pourrait également classer son
document dans son sous-topique « Caraïbe ».
97
Une étiquette dans une référence est le nom du topique où elle a été classée. Une référence peut
contenir plusieurs étiquettes, c'est-à-dire, qu’elle peut être associé/classé dans plusieurs topiques. Ceci est
explique de suite.
89
Figure 3-6. Une personne crée une référence sur le document www.travelyucatan.com
associée à deux topiques de sa taxonomie personnelle : Pyramides et Vacances.
Nous appelons étiquetage multiple de références l’option d'association multiple
d’une référence (à plusieurs topiques). Une fois associée à plusieurs topiques, elle peut donc
être accédée par chaque topique. Donc, au fur et à mesure que des références sur un même
document s’accumulent, les avis s’accumulent également (ceux liés aux références et/ou ceux
liés aux topiques qui étiquettent ces références). Beaucoup de gestionnaires de favoris ne
permettent pas cet accès multiple ayant associée une connaissance sur le document référencé.
De cette façon, l’étiquetage multiple et les annotations constituent un ensemble très
riche de « meta-information », c’est à dire, d’information sur l'information. Cette valeur
ajoutée, fait de notre réseau social, un média pour le Web Sémantique98 (Berners Lee, 2001).
L’étiquetage multiple enrichit la meta-information et facilite la gestion de l’information
personnelle.
L’ensemble d’avis que les références peuvent contenir ne peut sortir que des échanges
que les membres du réseau social font sur un même document référencé. Nous les expliquons
dans la section suivante.
3.7.3 Diffusion d’information et profil social
Les diffusions d’informations qu’un utilisateur fait lui donnent une position dans le
réseau social vis à vis des autres membres. Cette position lui donne un profil social. Par
exemple, si l’utilisateur est altruiste (parque qu’il permet que les autres visualisent ses
informations personnelles), passager clandestin (les autres lui ont donné la permission de
visualisation mais il ne le fait pas en retour), etc. Grâce à ces diffusions, un utilisateur peut
avoir des recommandations de contacts. Plus un utilisateur diffuse ses informations, plus
recommandations de contacts lui seront offertes [p01;p03].
98
« The Semantic Web is an extension of the current Web in which information is given well-defined
meaning, better enable computers and people to work in cooperation » Tim Beers-Lee, James Hendler, Ora
Lassila, The Semantic Web, Scientific American, May 2001.
90
Ainsi, pour que les personnes puissent avoir des recommandations de contacts pour
qu’elles puissent visualiser le contenu des topiques des autres, il faut :
soit que le(s) topique(s) en question soi(en)t déclaré(s) public(s) ;
soit que la personne ait le droit de visualisation. Dans l’exemple précèdent, notre
utilisateur pourrait, s’il le veut, déclarer son topique « Nouvelles Mondiales » comme
public (le fait de déclarer un topique public, permet à d’autres personnes de s’ajouter
librement à la liste de diffusion du topique correspondant). De cette façon, le
recommandeur de contacts pourrait proposer ce topique à d’autres personnes qui
pourraient s’intéresser à son contenu et, dans le meilleur des cas, leur donner envie
d’ajouter leurs identificateurs à la liste de diffusion du topique « Nouvelles Mondiales ».
Mais ceci n’est qu’un cas particulier. D’autres situations intéressantes peuvent arriver.
Pour les traiter, nous utilisons notre concept de liste de diffusion. Il s’agit de donner des
autorisations de visualisation du contenu de topiques aux utilisateurs susceptibles de
créer un flux d’information vers un utilisateur.
Nota : Un topique public n’implique pas qu’il sera diffusé à toutes les personnes ! Le système
issu de notre approche permet à d’autres personnes de s’ajouter à la liste de diffusion du
topique public (§3.7.3 ; §3.12.5.1 ; m01) pour visualiser son contenu. Ces personnes
découvrent un tel topique grâce à nos mécanismes de conscience sociale et de
recommandations (§3.8 et 3.9).
Ainsi, il y a une liste de diffusion pour chaque topique. Par défaut, un topique est
privé, c’est à dire que sa liste de diffusion n’a pas d’identificateurs d’utilisateurs associés.
C'est son propriétaire qui contrôle le droit de visualisation. Pour donner ce droit, un utilisateur
place dans la liste de diffusion de ses topiques personnels, les identificateurs des autres
utilisateurs de son choix. L’idée est de diffuser l’information contenue dans le(s) topique(s),
c’est à dire ses références personnelles. Les utilisateurs listés (leur identificateur) dans des
listes de diffusion du topique, sont ses contacts pour ce topique. Les contacts peuvent être des
amis, des collègues, des membres d’un groupe d’un projet, des membres de la famille ou
d’autres…
De cette façon, grâce à la gestion des listes de diffusion, un topique peut être :
(i)
public et diffuser de l’information ou
(ii)
privé et éventuellement diffuser de l’information si son propriétaire déclare
explicitement les identificateurs des contacts à qui il souhaite permettre de
recevoir l’information contenue.
Le premier cas implique que, même si un topique est public, sa liste de diffusion doit
contenir des identificateurs des contacts pour que le contenu du topique leur soit diffusé. Le
but de cette diffusion peut être une stratégie pour obtenir une autre information ou pour se
maintenir dans le réseau ou simplement pour diffuser de l’information, de façon altruiste.
Notez qu’un utilisateur a plusieurs types de stratégies dans son réseau social : stratégies
d’obtention d’information, détaillées dans la section 3.9.2.3 et stratégies pour se maintenir
dans le réseau qui gouvernent son comportement social (altruiste et donc diffuse tout son
information, égocentriste, etc.) et que nous appelons désormais « tactiques
comportementales », détaillées dans la section 3.10.4.
Le deuxième cas veut dire qu’un topique peut être maintenu privé : personne ne pourra
le découvrir (donc valoriser son contenu), mais sa liste de diffusion ne sera pas
91
nécessairement vide. Elle pourra être remplie par son propriétaire pour les mêmes buts listés
auparavant, et diffuser les références de son topique aux contacts ciblés. Notez que la liste de
diffusion d’un topique peut rester totalement privée et ne diffuser son contenu à personne.
Une taxonomie
Carlo
Personnel
Jean-Charles
CV en ligne
Liste de diffusion:
Laurence
Hobbies
Topiques (publique/privé/+diffusé)
Mon projet
Reports
http://www.surfing.com
Équipement
Références
http://www.mountain.org
Figure 3-7. Carlo a créé une taxonomie personnelle de topiques et de sous topiques.
Dans la liste de diffusion de son topique CV en ligne il a ajouté ses amis Jean-Charles et Laurence
(ses contacts). Il a deux références étiquetées avec deux de ses topiques. Ceci veut
probablement dire que les documents associés parlent des loisirs de Carlo et de l’équipement
pour ces loisirs (d’autres données associées aux références ne sont pas montrées dans
l’image).
Comme nous l’avions décrit dans une section précédente, les références peuvent
éventuellement être étiquetées avec plusieurs topiques. Que se passe-t-il avec les références
ayant différents topiques associés avec leurs listes de diffusion différentes ? A qui seront-elles
diffusées ?
Une référence associée à plusieurs topiques regroupe99 les utilisateurs ayant droit de
visualiser le(s) topique(s). Par exemple, de la Figure 3-7, Carlo a ajouté Jean-Charles et
Laurence dans la liste de diffusion de son topique « CV en ligne ».
CV en ligne
[Jean-Charles, Laurence]
Imaginons que pour son topique « Hobbies », Carlo ait dans sa liste de diffusion, Anne,
Marie et Hélène et que pour son topique « Equipement » il ait dans sa liste de diffusion Erwan,
Philip et Hélène.
Comment va être diffusée la référence de Carlo sur le document http://www.surfing.com
? Évidement, elle sera diffusée à tous, mais tous ne recevront pas la même information.
Hobbies
Equipement
[Anne, Marie, Hélène]
[Erwan, Philipe, Hélène]
Anne et Marie ne verront la référence que comme un hobby de Carlo ; Erwan et
Philipe la verront comme un équipement proposé par Carlo ; Hélène verra les deux topiques
associés.
Nota : nous résolvons ici le problème de postage multiple d’information des forums de
diffusion, à savoir qu’elle ne recevra pas deux fois la même information !
99
Union de l’ensemble d’identificateurs contenus dans les listes de diffusion de topiques
correspondantes.
92
Chaque mise à jour du contenu d’un topique va être transmise aux utilisateurs inclus
dans la liste de diffusion associée. Que se passe-t-il si un contact (destinataire de nouvelles
références du topique) a déjà cette référence dans ses propres topiques ? Tout simplement, il
ne verra pas cette référence dans l’ensemble des références reçues ! Mieux encore, chaque
fois qu’il reçoit cette référence dans ses topiques (possiblement à travers d’autres contacts), il
verra la meta-information accumulée (avis, étiquetage, etc.) grâce aux autres utilisateurs ayant
référencé le même document (selon le droit de visualisation).
L’utilisateur qui gère sa propre taxonomie (topiques et sous-topiques), doit-il pour
diffuser son information, gérer une énorme quantité de listes de diffusions ? Pas
nécessairement !
3.8 Dynamique du réseau
Une dynamique du réseau se crée par le biais de règles (Reynaud, 1989) et de
conventions (Boltanski et Thévenot, 1987) permettant de concilier échanges d’informations,
transferts de compétences et comportements concurrentiels. Les règles sont synonymes de
règlements, de manières de faire, de normes.
L’analyse en termes de réseaux et la mise en oeuvre de la régulation (§3.1.2)
deviennent des clés essentielles pour l’étude de la motivation à la participation et de
l’engagement à la production et à la diffusion d’information dans le réseau (collaboratif,
coordonné) : elles tiennent compte de la complexité des interactions en réseau. Ceci engendre
la dynamique de réseau. Nous appliquons ainsi des concepts inhérents à la régulation avec
pour finalité de :
⋅ Observer les participants dans le réseau et à partir de cette observation
(conscience sociale),
⋅ Influencer, si possible, leur organisation (régulation).
Nous pouvons débuter la dynamique du réseau à partir du constat que les utilisateurs
ont besoin d'établir de nouvelles relations pour obtenir une information nouvelle de qualité100
selon leurs intérêts. Les utilisateurs motivés peuvent par exemple, déclarer une partie de leurs
topiques comme publics. Donc, n'importe quel autre utilisateur peut ajouter son identificateur
à la liste de diffusion. Si cet utilisateur est intéressé par le contenu, nous pouvons espérer
qu’en retour il ajoutera le propriétaire du topique public à ses listes de diffusion. Par
conséquent, « les utilisateurs sont motivés pour fournir des contenus intéressants dans leurs
topiques publics s'ils savent qu’en retour ils recevront de la information pertinente »[p03 ;
p04]101.
Pour faire naître de tels types d’échanges dans le réseau, nous proposons c’est que
nous nommons la conscience sociale102, c’est à dire, de montrer à l’utilisateur la position
de chaque membre du réseau social. Nous considérons alors la conscience sociale comme un
mécanisme de régulation [m03]. En effet, dans la section 3.10 nous montrons bien notre
intérêt d’afficher à l’utilisateur un type de liste ou « carnet d’adresses » où il pourra choisir un
topique recommandé en fonction du contenu de cette liste, c'est-à-dire, que l’acceptation
100
Par qualité, nous entendons, l’information obtenue avec une connaissance associée, sortie des avis
d’autres humains et non seulement du résultat d’un calcul d’un logiciel.
101
Voici une dynamique qui permet la construction d’un profil social.
102
« Awarness » sur la dynamique des échanges dans le réseau.
93
d’une recommandation peut dépendre de la connaissance (conscience sociale) qu’a
l’utilisateur du propriétaire du topique recommandé. Nous verrons alors, dans cette section
3.10 comment cette connaissance peut être influencée103 par un affichage particulier du
« carnet d’adresses » de l’utilisateur.
Avec une conscience sociale, nous permettons également le contrôle des échanges
d’information afin d’établir des relations de confiance[po05]. Une relation de confiance
s'établit quand les personnes choisissent leurs contacts parce qu'elles les considèrent
pertinents pour le type d'information à échanger ou à partager avec eux.
Pour permettre cette conscience sociale, nous utilisons des résultats de l’ensemble
d’indicateurs sociaux que nous avons développé.
Ces indicateurs ont été développés principalement pour valider nos critères de qualité
du réseau social, indispensables pour l’analyse de la qualité globale du réseau et pour choisir
les bons contacts à recommander.
3.9 Mécanisme de recommandation de contacts
Nous avons déjà indiqué que notre approche cherche à mettre en relation des
personnes afin de leur proposer des contacts de qualité [p02]. Ceci à la différence de la
presque totalité des systèmes issus des approches de recherche/recommandation d'information
sur Internet décrit au chapitre 2. C’est un nouveau moyen d'accès à l'information né de notre
perception que « tout le monde gère de l'information et a besoin d'élargir ses connaissances ».
Pour cela, seuls ceux ayant des compétences ciblées seront intéressants à rencontrer. Si vous
étiez cuisinier, et que vous aviez besoin d'une recette spécifique, ne serait-t-il pas plus rassurant de
trouver une personne (qualifiée comme compétente par les autres), que de chercher une recette
quelconque ? En analysant les personnes du point du vu social, nous reconnaissons que chaque
personne est différente.
Nous avons également expliqué l’influence de la gestion de l’information sur la
diffusion de l’information. Nous devons maintenant proposer des recommandations aux
membres de notre réseau. Nous allons diviser ces recommandations en deux grandes
sélectionnes. Ainsi, le moyen d’obtention de recommandations doit être compris selon :
Pour une première sélection, il s’agit d’obtenir les topiques les plus similaires du point
de vue de références qu’ils indexent. Ainsi, nous parlerons soit de topiques
recommandés soit de contacts recommandés si nous cherchons le propriétaire du
topique choisi à recommander.
Pour une deuxième sélection, il s’agit de recommander contacts propriétaires des
topiques indexant des références qualifiées intéressantes pour l’utilisateur à
recommander.
Ainsi, notre approche se distingue en ajoutant une étape de filtrage et de tri de
recommandations issues d’algorithmes basés sur du filtrage collaboratif (Plu et al. 2003). Il
s’agit d’obtenir une première sélection de recommandations à partir des personnes ayant des
intérêts similaires. Cette première sélection doit encore être passé au crible de nos techniques
d’analyses sur les réseaux sociaux avant d’être validée (nous avons développé nos
103
Accepter une recommandation plutôt qu’une autre.
94
algorithmes SocialRank). Nous faisons ceci dans une deuxième étape. Pour faire ceci nous
proposons notre mécanisme de recommandations :
[m02] Mécanisme de recommandations : utiliser des indicateurs sociaux
comme qualification de contacts ayant d’information pertinente. Nous définissons
un indicateur social comme le moyen d’identifier d’abord une caractéristique
d’une information. Puis, selon la qualification donnée à cette information, le
propriétaire de celle-ci sera alors identifié selon la qualification de son
information. Par exemple, il s’agit de vérifier si l’information est « originale » ou
si elle est « nouvelle » ou très « estimée » par les autres membres du réseau. Si
une information peut être ainsi identifiée, nous pouvons offrir à l’utilisateur des
moyens pour l’obtenir selon le type d’information qu’il recherche à un moment
donné, en lui recommandant le contact propriétaire. Ces indicateurs104, nous les
définissons en détail plus tard. Le point important ici, est qu’ils vont permettre de
recommander de contacts, de manière plus adaptée aux besoins changeants des
utilisateurs. Ces indicateurs sont obtenus à partir de l’analyse d’échanges
d’information entre les membres du réseau.
L’utilisation de ces indicateurs sociaux permettra au système issu de notre
approche d’être proactif105 : offrir de manière anticipée à l’individu, le moyen
pour obtenir de l’information adaptée. Ce moyen est son réseau social médiatisé,
qui se construit en utilisant un recommandeur de contacts106.
Préalablement, nous expliquons ci-dessous notre technique de filtrage collaboratif.
3.9.1 Première étape
A l’instar des techniques de filtrage collaboratif (Resnick et Varian, 1997) notre
algorithme (Plu et al. 2003) identifie les « topiques proches »107 qui permettent de déterminer
des intérêts similaires entre deux utilisateurs. Nous avons décidé de contourner les
algorithmes génétiques typiques ou d’apprentissage ou de raisonnement tels qui ceux utilisées
par les systèmes dont nous avons parlé dans notre état de l’art (§2.1.2). Nous détaillons notre
algorithme dans la section suivante.
3.9.1.1 Algorithme de filtrage collaboratif
Il s’agit d’obtenir d’abord les topiques proches, grâce à l’utilisation d’un annuaire108
(ou de plusieurs), qui contient une énorme quantité d’URIs classifiées (Agosto et al., 2003). Puis
nous pourrons personnaliser nos recommandations grâce à nos algorithmes issus de nos
analyses.
104
Les indicateurs ne sont pas utilisés que pour obtenir des recommandations, ils peuvent être utilisés
également pour « observer » les échanges et avertir sur l’état du réseau (conscience sociale vis à vis des autres).
105
Par proactif nous comprenons une démarche anticipant les événements et les mesures à prendre, pour
faire face aux problèmes de manière positive, par opposition à une démarche dans laquelle on ne fait que réagir
aux situations qui se présentent.
106
Ce recommandeur commence par obtenir un premier jet de recommandations issu d’idées des
technologies de filtrage collaboratif (Plu et al. 2003). Puis, grâce à l’utilisation de nos indicateurs sociaux, nous
raffinons les recommandations finales.
107
Par « topiques proches » il faut entendre des topiques indexant des références vers des informations
similaires. La similarité est mesurée selon notre algorithme détaillé dans la section (§3.9.1.1) suivante.
108
En anglais « directory ». Un directory peut être vu comme un dépôt, un annuaire ou un répertoire,
contenant une classification de catégories (topiques).
95
Nous utilisons, la co-citation des URLs (Kessler, 1963 ; Kautz et al. 1997) pour obtenir les
topiques proches. Une co-citation se produit quand deux utilisateurs créent des références
personnelles sur le même document109 ou sur le même type de documents. Notre algorithme
de filtrage collaboratif calcule donc la similarité entre topiques d'utilisateurs différents.
Il est évident que le WWW est énorme et contient des milliards d’URIs. Par
conséquent l'intersection entre l’ensemble des URIs référencés dans les topiques pourrait être
presque toujours vide (Popescul et al. 2001). Mais si nous utilisons seulement la co-citation
d’URIs entre des topiques des utilisateurs, la possibilité d’avoir des topiques avec des
intersections non-vides serait très faible compte tenu de la taille du Web et du nombre
d’URIs. Pour résoudre ce problème nous utilisons un ou plusieurs annuaires d’URIs.
On peut considérer un annuaire comme une classification d'un ensemble de topiques,
une taxonomie stable, qualifiée « pertinente » par les propriétaires des annuaires, construite
grâce à la collaboration de plusieurs personnes « altruistes ». Elles y placent les URIs du Web.
Il faut alors comparer leurs références à des documents, qui s’identifient avec un URI, aux
URIs existantes dans un ou plusieurs annuaires, par exemple « Open Directory Project » :
ODP (http://dmoz.org/). L’algorithme est également influencé par des idées présentées par Molm
(Molm, 2001).
Figure 3-8. Processus de "crawling" effectué par le moteur de recherche qui utilise la
technique de filtrage collaboratif.
Pour détecter si deux topiques partagent sont susceptibles d’être recommandés, nous
calculons une mesure de similarité entre topiques d’utilisateurs différents : il faut trouver un
topique u1 d'un utilisateur u, qui soit similaire à un topique v1 d’un utilisateur v. La finalité
est d’associer l'utilisateur u ayant une similarité d’information avec l’utilisateur v selon le
contenu de son topique u1. Une telle similarité aurait donné une recommandation du type
« recommander à l'utilisateur u d’ajouter l’utilisateur v dans la liste de diffusion de son
topique u1 » ou « recommander à v d’ajouter u à v1 ».
109
Il ne faut pas oublier qu’un document est reconnu par son URI.
96
Deux topiques sont similaires si ils ont des URIs dans une même catégorie dans un
annuaire. Pour comparer les URIs d’un topique et celles d’une catégorie, nous définissons une
mesure de similarité sij :
Si les URIs i et j sont les mêmes, alors sij = 1
Autrement, si les URIs se dirigent vers le même serveur et ont le même
répertoire alors sij = 0.5
Autrement s'ils ont que le même serveur, alors sij = 0.25
Autrement sij = 0
Évidemment cette mesure est très limitée. Cependant, elle est vraiment simple à
calculer. Comme nous l’avons déjà introduit, pour trouver des ensembles d’URIs couvrant un
grand nombre d'URIs, un annuaire est utilisé (ou plusieurs). Donc, la similarité entre topiques
dépende d’une similarité entre topique et catégorie. Cette similarité se calcule selon la
formule :
S1(t , c) =
∑ max( s
i∈t
j∈c
n×m
i, j
)
où
(1)
t est un ensemble d’URIs pointés par les références d’un topique.
c est un ensemble d’URIs dans une catégorie de l’annuaire de référence.
si,j est la mesure de similarité entre les URIs i et j.
n : est le nombre de URIs dans la catégorie c de l’annuaire de référence.
m : est le nombre de URIs dans le topique t.
Afin de prendre en compte la hiérarchie des catégories de l’annuaire de référence ou
des topiques des utilisateurs, un topique ou une catégorie inclut tous les URIs de tous ses
topiques secondaires ou catégories secondaires. Nous pouvons vérifier que la mesure de
similarité S1 a sa valeur plus élevée si :
la catégorie c et le topique t ne sont pas très spécialisés avec pas
beaucoup d’URIs inclus donc, n x m étant petit ;
au contraire :
si c et t ne sont trop généraux avec beaucoup d’URIs, les deux
provenant de leurs topiques ou catégories secondaires, alors ce n’est
pas élevé.
Nous calculons cette mesure S1(t, c) avec c correspondant à chaque catégorie des
annuaires considérés et aussi pour chaque topique d’utilisateurs différents de chaque
propriétaire de t. Ceci permet de prendre en compte d’éventuelles intersections non-vides
entre topiques avec des URIs non référencés dans les annuaires considérés.
Puis, la similitude entre deux topiques t1 et t2 correspond au résultat du calcul suivant :
97
S 2(t1, t 2) =
∑ S1(t1, c) × S1(t 2, c)
c∈AR ∪T 1∪T 2
∑ S (t1, c)
2
∑ S (t 2, c)
×
c∈AR ∪T 1
(2)
2
c∈AR ∪T 2
AR : ensemble des catégories de l’annuaire.
T1 : ensemble des topiques appartenant à un utilisateur différent du propriétaire de t1.
T2 : ensemble des topiques appartenant à un utilisateur différent du propriétaire de t2.
Évidemment, ce calcul est fait pour des topiques qui n’appartiennent pas au même
utilisateur.
3.9.1.2 Exemple
Un exemple très simple pour ces deux calculs précédents, pourrait être le suivant :
nous imaginons que l’annuaire (ODP par exemple) a seulement quatre catégories, A, B, G et
F110.
A ayant des références sur des URIs : {a1, a2}
B ayant une référence sur l’URI : {b5}
G ayant des références sur des URIs : {g1, g2, g3, g4}
F ayant une référence sur l’URI : {f1}.
Dans notre réseau d’échanges nous avons deux utilisateurs u1 et u2. Nous avons aussi
un topique t1 de u1, ayant l’ensemble de références pointant vers les URIs {a2, b5, g1, g2} et
le topique t2 de u2 ayant l’ensemble de références pointant vers les URIs {b5, g1, g2, g3, g4,
f1}. Maintenant, nous voulons savoir quelle est la similarité entre t1 et t2 à travers ODP. En
suivant le calcul (1), nous obtenons S1(t1,A)=1/8, S1(t1,B)=1/4, S1(t1,G)=1/8, S1(t1,F)=0;
S1(t2,A)=0, S1(t2,B)=1/6, S1(t2,G)=1/6 et S1(t2,F)=1/6. Par conséquent, en suivant le calcul
(2), nous obtenons :
S 2(t1, t 2) =
(1 / 8 × 0) + (1 / 4 × 1 / 6) + (1 / 8 × 1 / 6) + (0 × 1 / 6)
1/ 8 +1/ 4 +1/ 8 + 0
2
2
2
2
×
0 +1/ 6 +1/ 6 +1/ 6
2
2
2
2
= 0.726967
Mieux encore, nous pouvons tenter t1 ∩ t2 = {∅}. Nous avons ainsi le topique t1 de
u1, ayant l’ensemble de références pointant vers les URIs {a2, g2} et le topique t2 de u2 ayant
l’ensemble de références pointant vers les URIs {b5, g1, g3, g4, f1} et nous cherchons la
similarité entre t1 et t2 à travers ODP. En suivant le calcul (1), nous obtenons S1(t1,A)=1/4,
S1(t1,B)=0, S1(t1,G)=1/8, S1(t1,F)=0; S1(t2,A)=0, S1(t2,B)=1/6, S1(t2,G)=3/20 et S1(t2,F)=1/5.
Par conséquent, en suivant le calcul (2), nous obtenons :
110
Pour les calculs avec ODP, les classifications et les lettres représentent (fait le 04/09/2003) : -- A :
Top: Computers: Programming: Languages: Java: News and Media (138) ; B : Top: Computers: Programming:
Languages: Java: Resources: Micro (39) ; G : Top: Computers: Software: Internet: Clients: File Sharing (143)
; F : Top: Computers: Programming: Languages: Java: Databases and Persistence: Object Persistence (54);
a1
:
http://www.javapronews.com/;
a2
:
http://www.newsnow.co.uk/newsfeed/?name=Java;
b5
:
http://www.devicetop.com/site/main; g1 : http://www.afternapster.com/; g2 : http://www.reviewmanager.com/;
g3 : http://www.cloneworkz.com/; g4 : http://www.wippit.com/ et f1 : http://db.apache.org/ojb/. --
98
S 2(t1, t 2) =
(1 / 4 × 0) + (0 × 1 / 6) + (1 / 8 × 3 / 20) + (0 × 1 / 5)
1/ 4 + 0 +1/ 8 + 0
2
2
2
2
×
0 + 1 / 6 + 3 / 20 + 1 / 5
2
2
2
2
= 0.0216
Comme prévu, les deux topiques sont similaires, si nous les comparons à la
classification de ODP (voir la Figure 3-9 suivante).
ODP
Figure 3-9. A, B et C sont des catégories de la classification d’ODP. A l’intérieur, il y a
des URIs qui éventuellement sont égaux à ceux pointés par les références dans les topiques
des utilisateurs. A la fin du calcul, nous avons ciblé les topiques « similaires » entre les
utilisateurs à droite et à gauche de la classification ODP : dans ce cas, le topique « A ».
Les résultats de cet algorithme collaboratif doivent encore être filtrés, afin de
« personnaliser » les recommandations de contacts. Par « personnalisation » il faut
comprendre le fait d’adapter les recommandations de contacts selon les profils et les besoins
des utilisateurs. Pour cela, nous utilisons nos algorithmes SocialRank de la section 3.9.2 Nous
appelons « algorithmes SocialRank » à l’ensemble de mesures (inspirées des indicateurs
sociaux) qui prennent en compte les échanges d’information dans le réseau.
Ainsi, les recommandations de contacts, étant personnalisées, doivent être conformes
aux objectifs des utilisateurs mais aussi du système issu de notre approche. Ceci ne peut être
possible que grâce à l'établissement d’une dynamique spécifique au réseau social, qui
permette à l’utilisateur d’avoir une conscience de l’information échangée et des gains obtenus
pour sa participation dans une telle dynamique. Nous la détaillons dans la section suivante.
3.9.2 Deuxième étape : SocialRank
Nous nous intéressons maintenant à appliquer nos algorithmes issus de nos analyses
sociales (Plu et al., 2004). Nous cherchons à influencer la « qualité globale »111 du réseau[h03]
tout en garantissant la satisfaction des besoins en information de l’utilisateur du
réseau d’échanges. Une telle topologie optimale est l’un des objectifs de notre approche. Pour
atteindre ces objectifs, nous proposons une dynamique prenant en compte des éléments
suivants :
Critères de qualité. Nous définissons la qualité globale d’un réseau à partir de
différents critères d’efficacité du réseau (pouvant être appelés aussi « critères de
qualité »). Ces critères doivent permettre la bonne circulation de l’information dans le
réseau. Divers facteurs interviennent pour que ceci puisse. Parmi tous ceux
envisageables nous avons retenus :
La réactivité à l’information nouvelle. Nous pensons que si la topologie du réseau a
une structure permettant le flux d’information, alors tous les membres du réseau
111
Noter qu’un réseau ayant de la qualité peut être considéré un réseau optimal.
99
pourront recevoir plus rapidement de l’information correspondant à leurs besoins.
Nous analysons ce critère dans notre deuxième évaluation, appliqué sur la nouveauté
d’une information (§I-6.1.7.6) et la rapidité nécessaire pour qu’elle arrive aux
membres du réseau. Nous introduisons alors une mesure de réactivité à l’information
nouvelle (§I-6.1.7.6). Nous utilisons cette mesure pour vérifier la « vitesse 112de
diffusion de l’information nouvelle ». Il s’agit de valider si les nouveautés
(informations qualifiées d’originales) sont appréciées.
La dépendance aux gourous. Nous considérons comme gourous les membres du
réseau qui centralisent les informations et les diffusent aux autres. Un membre
gourou est dangereux car il rend fragile la topologie du réseau en devenant le
« centre » ou un « passage incontournable » de l’information pour que les autres
puissent obtenir cette information. Notre intérêt vise à diminuer leur influence sur
l’efficacité du réseau en essayant d’homogénéiser la quantité de lien que chaque
membre du réseau peut avoir pour diffuser de l’information. Nous analysons ce
critère dans notre deuxième évaluation (§I-6.1.7.3).
Le coût du réseau. Le coût sert à vérifier le prix pour construire des nouvelles
relations avec d’autres membres du réseau. Nous introduisons la mesure du coût du
réseau (§I-6.1.7.9) pour vérifier le prix à payer pour établir des nouvelles
relations. Le calcul du coût d’un réseau est très important. En effet, nous espérons
obtenir une haute efficacité du réseau s’il y a plus d'échanges (donc plus de
connexions/relations). Cependant, dans tout réseau réel, il y a un prix à payer. Nous
calculons donc le coût nécessaire pour construire ces nouvelles connexions (§I6.1.7.7, Définition I-19).
L’efficacité du réseau. Nous voulons rendre compte du flux efficace d’information
dans le réseau. Nous introduisons ainsi deux mesures d’efficacité. Nous parlerons
d’efficacité locale (§I-6.1.7.8, Définition I-20) pour le calcul de la
diffusion d'un topique aux membres du réseau telle qu’il existe au moins une
possibilité d’établir une relation entre eux. Une telle possibilité d’établir une relation
coûte et alors nous intégrons cette notion dans une formule d'efficacité (§I6.1.7.8, Définition I-21).
Les mesures de qualité du réseau pour chacun de ces critères permettront de suivre la
qualité du réseau et valider notre postulat[po03], afin que son évolution ait une
topologie moins coûteuse. Nous montrerons ceci dans la section 4.2.
Mécanisme de régulation. Nous allons appliquer le principe[p06]selon le postulat
[po03]et les principes[p03;p04]pour choisir la recommandation de contacts. Ceci
doit permettre d’améliorer la qualité globale du réseau, la qualité des informations
reçues[p04]et l’engagement de participants[p03]. Le recommandeur de contacts va
être donc notre mécanisme de régulation pour appliquer nos principes et postulats.
Ainsi, ce mécanisme va permettre :
d’observer les échanges (donc les relations entre les membres) et d'analyser ainsi
l'accomplissement des objectifs des utilisateurs et du système113 ;
de garantir que les « règles de jeu » soient suivies, c’est à dire, que les utilisateurs
injectent des informations personnelles de qualité, qu’ils suivent des
112
Noter que le terme « vitesse » est utilisé pour décrire une facilité à la distribution de nouveautés dû à
la typologie du réseau et à l’acceptation d’indexation de ces nouveautés de la part des autres membres du réseau.
Elle n’est pas donc mesurée en termes de temps mais de ces facilités.
113
Noter que nous appelons aussi « les objectifs du système » « les objectifs de notre approche ».
100
recommandations, pérennisent les échanges avec des contacts (personnels ou
recommandés), qu’ils utilisent les fonctionnalités (gestion d’information, conscience
sociale) de notre proposition à leur profit.
Pour cela nous allons utiliser des indicateurs sociaux pour sélectionner les contacts à
recommander. Ces indicateurs portent sur les topiques des utilisateurs.
Indicateurs sociaux. Un indicateur social permet de rendre compte des tendances
comportementales ou informationnelles que les membres du réseau suivent. Grâce à eux
nous pouvons réaliser nos analyses du réseau et prendre des décisions sur la mise en
relation des utilisateurs et sur l’évolution de la topologie du réseau. Nous développons
nos indicateurs sociaux :
D’originalité. Cet indicateur permet de reconnaître les utilisateurs gérant une
information originale (détenue par eux seuls et donc des possibles « sources »
d’information).
De réputation. Avec cet indicateur nous reconnaissons les membres les plus réputés,
c’est à dire, ceux qui diffusent une information appréciée et adoptée par les autres.
De redondance. Plusieurs membres peuvent avoir des intérêts informationnels
similaires et donc détenir le même type d’information. Dans ce cas, nous disons que
leurs informations sont redondantes.
D’agrégation. Cet indicateur permet de reconnaître les utilisateurs ayant le plus de
fournisseurs ou sources d’informations. Nous nous intéressons alors, à reconnaître
les propriétaires de topiques qui agrègent de l’information. Nous verrons
qu’identifier ces membres est très important pour améliorer la qualité d’un réseau.
Nous utilisons principalement ces trois indicateurs pour définir des stratégies
de recommandations de contacts, détaillées dans la section 3.9.2.3. Bien évidement
d’autres indicateurs peuvent être introduit. Nous développons ces trois dans notre
approche.
Mesures des indicateurs. Pour obtenir les indicateurs sociaux et pour répondre aux
analyses des critères de qualité, il faut bien analyser le réseau, l’information contenue et
les échanges entre ses membres. Ainsi, notre proposition peut être vu comme un
système complexe constitué d’« éléments » interdépendants, nécessitant des modèles
mathématiques pour capturer des propriétés (sociales) importantes (Bar-Yam, 1997 ;
Baranger-url). Ces éléments sont les utilisateurs des réseaux sociaux dont nous voulons
comprendre les propriétés structurelles (propriétés de connectivité) indispensables pour
la compréhension de la dynamique du réseau social. Pour les évaluer, nous définissons
des mesures expliquées dans les sections 3.9.2.2 et formalisées dans l’Annexe I-6 :
Mesure de l’originalité (§I-6.1.7.1). Cette mesure cherche à obtenir l’indice
d’originalité de l’information. L’information originale est l’information dite nouvelle
(§I-6.1.6.1), leur propriétaire en est le premier détenteur dans le réseau. Un
topique ayant de l’information originale acquiert à son tour un degré d’originalité par
rapport aux autres topiques du réseau. Par propagation, on taxera d’original (et non
d'hurluberlu) la personne propriétaire d’un ou de plusieurs topiques originaux (par
rapport aux autres membres du réseau).
Mesure de la réputation (§I-6.1.7.3). Cette mesure permet d'identifier les
pourvoyeurs d’informations indexées114 par un grand nombre de membres.
114
Les pourvoyeurs d’information les plus indexés sont ceux à qui les autres membres du réseau
prennent des références pour les classer dans leurs topiques. Le fait d’indexer une référence est synonyme de
l’étiqueter avec un ou plusieurs topiques.
101
L’information réputée est l’information reçue la plus indexée par les membres du
réseau. Un topique regroupant une information réputée se voit crédité d'un degré de
réputation par rapport aux autres topiques du réseau. Ainsi, le propriétaire d’un ou de
plusieurs topiques réputés incrémente à son tour, sa réputation par rapport aux autres
membres du réseau.
Mesure de la redondance (§I-6.1.7.5). La redondance informationnelle
s’obtient avec la mesure de la Définition I-17. Deux topiques sont considérés
redondants si les deux couvrent un même type d’information car elle leur arrive des
mêmes topiques. Ceci reflète la redondance entre topiques selon leur contenu actuel,
mais aussi selon leur capacité à recevoir des contenus identiques.
Mesure de l’agrégation (§I-6.1.7.10). Les topiques agrégeant de l’information
s’obtiennent avec la mesure de la Définition I-22 pour évaluer l’information
contenue dans les topiques. Deux topiques peuvent être comparés selon leur valeur
d’agrégation. Ceci reflète les topiques qui ont plus de topiques qui leur diffusent de
l’information et leur capacité à agréger des contenus futurs venant des topiques qui
leur diffusent de l’information.
Dans les réseaux sociaux que nous voulons développer avec notre approche, la
dynamique des échanges doit disposer des éléments favorables à l’aboutissement des objectifs
des utilisateurs et du système. Cette dynamique peut être influencée selon les stratégies de
recommandation de contacts. Celle-ci peut être choisie soit pour tous par l’administrateur du
système (§4.2.2.1), soit individuellement par chaque utilisateur.
3.9.2.1 Notre réseau social médiatisé
Le réseau social médiatisé que nous proposons est un graphe orienté contenant : une
série de nœuds avec des arcs orientés entre paires de nœuds. Les nœuds sont les topiques des
utilisateurs et les arcs sont leurs relations. Les relations entre deux topiques sont calculées
selon les références associées à ces deux topiques. Ainsi, il y a un arc i d'un topique v vers un
autre topique u, si le propriétaire du topique u reçoit et « adopte115 » de l'information associée
au topique v. C’est à dire :
le propriétaire du topique u est dans la liste de diffusion du topique v ;
le propriétaire du topique u prend au moins une référence contenu dans le topique v et
crée une nouvelle référence sur le même document avec son topique u.
Par conséquent, la représentation du graphe montrera la relation v → u. Cette relation
montre le flux d'information appréciée à travers le réseau. Elle montre que le propriétaire du
topique u reçoit et apprécie l'information du propriétaire du topique v.
La Figure 3-10 suivante montre une représentation graphique d'un petit exemple
d'un tel réseau. Dans cet exemple, il y a six utilisateurs. Chaque boîte montrée comme un
dossier représente un des topiques de ces utilisateurs. Chaque relation v → u est représentée
par une flèche. Les références originales sont écrites avec une lettre minuscule et un nombre.
Les références échangées dans une relation sont écrites sur l’arc de cette relation. Les
115
« Adopter » une information d’un topique implique que, l’utilisateur qui reçoit cette information (une
référence), va créer une nouvelle référence pour la mettre dans un ou plusieurs de ses topiques personnels.
102
références adoptées sont écrites de façon similaire à la référence source (une lettre minuscule
et un nombre), mais elles commencent avec le symbole « + ».
Figure 3-10. Exemple du réseau social médiatisé.
Nous modélisons ce graphe dirigé comme une matrice d’adjacence. Chaque
élément de la matrice représente la relation entre deux topiques. Comme nous l’avons
introduit préalablement, une relation est établie quand un utilisateur crée de nouvelles
références à partir des références reçues d’autres utilisateurs. Afin de comprendre la
dynamique des relations dans notre réseau, nous utilisons les indicateurs sociaux, que nous
présentons dans la section suivante.
3.9.2.2 Calcul des indicateurs sociaux
Nous avons déjà beaucoup mentionné l’utilisation des indicateurs sociaux afin de
mieux choisir de possibles mises en relation de contacts (Vignollet et al., 2005). Nous présentons
ces stratégies ici et un exemple dans la section 3.9.2.4.
Si un indicateur quelconque est utilisé pour obtenir les caractéristiques importantes des
éléments d’un contexte donné, dans notre contexte (les réseaux sociaux), nous cherchons à
comprendre les propriétés structurelles ou informationnelles des membres du réseau, que
permet la prolifération de connexions entre ses membres. Ainsi, l’utilisation d’un indicateur
social permet de recommander un contact plutôt qu'un autre, pour améliorer la topologie du
réseau de relations. Néanmoins, d’autres indicateurs peuvent exister. Les indicateurs que nous
présentons ici sont issus de ceux que nous avons pu tester et formaliser dans nos
expérimentations. Ils sont détaillés dans l’Annexe I-6. Nous les testons dans la section
4.2.4. Déjà dans le domaine de l’analyse de réseaux sociaux nous trouvons plusieurs
indicateurs (§2.2.2.2), par exemple, un indicateur de centralité pour reconnaître les personnes
qui gèrent la circulation de l’information ou un indicateur de densité pour montrer le degré de
connectivité du graphe, etc., (§2.2.2). Nous nous sommes alors inspiré de ces types
d’indicateurs pour construire les nôtres et ainsi mieux estimer les contacts à recommander et
influencer ainsi la manière dont le réseau peut évoluer. Nous les utilisons alors comme un
moyen de régulation d’échanges dans le réseau.
103
Pour calculer nos indicateurs sociaux (algorithmes SocialRank) il faut analyser les
contributions des utilisateurs au réseau. Puis, les résultats de ces analyses vont nous permettre
de filtrer la première sélection de recommandations obtenues à partir de l’algorithme de
filtrage collaboratif expliqué dans la section 3.9.1.1. Les trois indicateurs sont calculés en
utilisant la matrice adjacente (§2.2.2.3) représentative de notre réseau.
Nous commençons par prendre en compte l'importance de chaque relation. Pour le
faire, nous nous intéressons aux échanges de références entre topiques. Ainsi, chaque sommet
(ou topique ; §2.2.2.1) est pondéré par une mesure W(e, f) défini dans l’Annexe §I-6.1.4.
Cette mesure représente le nombre de documents reçus du topique f et référencés dans un
topique e. Elle peut être vue comme l’importance de ce que le topique f donne au topique e. A
partir d’elle, nous calculons la matrice W (de poids) avec chaque élément W(e, f) dont le
topique e se trouve sur les lignes et le topique f sur les colonnes de la matrice W. Ainsi W(e, f)
est calculé avec (Définition I-5, Annexe I-6) :
W (e, f ) =
Card * (e, f )
avec W(e, f) = 0 si Card(e) = 0
Card (e)
(3)
La Card*(e, f) inclut tous les documents ayant une référence avec le topique e et une
référence avec le topique f ; la référence « source116 » est celle du topique f, adoptée par le
topique e; la Card(e) est le nombre total de références dans le topique e.
L’importance W des relations (3) est très utile pour calculer d’autres indicateurs. Nous
nous intéressons maintenant à l’indicateur de la réputation. La réputation peut être vue
commet la centralité d’un topique par rapport aux autres (introduit dans les premiers
paragraphes du §2.2.2.2 et formalisé dans l’Annexe §I-6.1.7.3 et §I-6.1.7.4).
Ainsi, le concept de « page » réputée (dans notre contexte ce serait un « topique »
réputé) du point de vue de Page et collaborateurs (Page et al., 1998) en introduisant leur
algorithme de réputation PageRank117, est en citant Ridings : “le PageRank d’une page est
simplement une mesure de son vote; il peut distribuer son vote entre un lien ou deux liens ou
plusieurs, mais la totalité de son vote sera toujours la même” (Ridings, 2001-url). Dans notre
contexte, un topique sera réputé si les références qu’il contient sont appréciées par les autres
utilisateurs. Ils lui donnent un vote positif en indexant les références qu’il indexe.
L’indicateur de réputation ou rang de réputation (que nous baptisons RankReputation
ou RR) est un vecteur de valeurs entre 0 et 1 pour chaque topique. Pour calculer ces valeurs,
nous utilisons une mesure de réputation d’un topique. Elle est définie récursivement selon la
réputation des topiques recevant de l'information à partir de lui-même. Chaque élément RR(e)
du vecteur de réputation est défini selon la formule récursive (§I-6.1.7.4, Définition I16) :
RR (e) = ∑ W (h, e)RR (h)
116
(4)
Une référence est « source » d’un document par rapport à une autre, si elle a étiqueté en premier ce
document.
117
Pour plus de détail sur cet algorithme, voir l’Annexe IV §IV.3 sur les algorithmes des moteurs de
recherche.
104
Pour le calcul du vecteur RR, nous utilisons alors l'algorithme nommé PageRank,
utilisé pour les pages de WWW (Brin et Page, 1998). Par contre, la matrice utilisée doit refléter
une relation de réputation (« e donne de la réputation à f », f←e). Nous considérons que cette
relation est l'inverse de la relation modélisée dans notre matrice W, qui reflète le flux
d'information à travers les topiques (f→e). En effet, si un utilisateur fait référence aux
documents reçus d’un topique f par son topique e, alors le topique e donne de la réputation (le
vote) au topique f. Pour cette raison nous utilisons W(h, e) au lieu de W(e, h) pour le calcul de
RR (e).
L'algorithme de PageRank nécessite que les poids de la matrice adjacente W(e, f) soient
modifiés en W*(e, f) afin d'avoir les propriétés de convergence nécessaires (Brin et Page, 1998).
Ceci est partiellement atteint, parce que, une fois que les nouveaux poids W*(e, f) sont
normalisés, ils représentent la probabilité pour qu’un document référencé avec le topique f
soit référencé avec un topique e. Ainsi, notre matrice W correspond à une matrice stochastique.
D’ailleurs, en suivant l'algorithme PageRank, nous complétons également le graphe avec de
nouvelles connexions afin d'avoir tous les nœuds connectés.
Pour calculer les indicateurs de redondance et d'originalité, nous définissons deux
vecteurs. Premièrement le vecteur N(e) étant l’ensemble de tous les topiques n connectés au
topique e (Définition I-4, I-6.1.1). Deuxièmement, nous définissons le vecteur P(e, f). Il
représente la proportion de la relation entre le topique e et le topique f, parmi les relations de
tous les topiques avec le topique e. P(e, f) est calculé avec la formule (Définition I-6,
Annexe I-6) :
W (e, f )
Si f ∈ N (e), alors P(e, f ) =
sinon, P(e, f) = 0
(5)
∑ W (e, g )
n∈N ( e )
Un topique e est « redondant » avec un topique f si les deux obtiennent des références
d’une même source. L'indicateur de redondance identifie donc les topiques redondants, non
seulement selon leur contenu actuel, mais aussi selon leur capacité à agréger les contenus
futurs venant des autres topiques. Explicitement, la redondance entre topique e et le topique f
dépend de :
⋅ Si le topique f est connecté au topique e. Ceci signifie que le topique e a l'information du
topique f.
⋅ Si les topiques connectés au topique e sont aussi connectés au topique f. Ceci signifie que
les topiques qui envoient de l'information au topique e, l'envoient aussi au topique f.
La redondance entre les topiques est calculée avec une matrice RED. Nous calculons
RED(e, f) avec (Définition I-17, Annexe I-6) :
RED (e, f ) = P(e, f ) +
∑ P(e, n)P( f , n)
(6)
n∈N ( e )
Pour calculer l’indicateur d’agrégation nous utilisons le vecteur N(e) pour obtenir le
nombre de fournisseurs ou sources d’information (Définition I-4) de deux topiques :
AGREG(e, f ) =
∑ inN
n f ∈N ( f )
(7)
E
où inNE = 1 ssi nf ∈ N(f) ∧ nf ⊄ N(e) sinon inNE = 0
105
Ainsi la valeur d’agrégation d’un topique f par rapport à un topique e est mesurée avec
la matrice AGREG(e, f).
Finalement, nous calculons le vecteur Original pour représenter les topiques
originaux. L'originalité d'un topique est mesurée suivant la nouveauté des URIs pointées par
les références du topique, comparées avec les URIs des références reçues d’autres topiques.
Un topique e est original, s'il contient plus de références pointant vers des URIs
« découverts » par le propriétaire du topique, que celles reçues d’autres topiques. Il dépend
aussi du nombre de références dans le topique. Nous calculons ce vecteur Original selon la
formule suivante (Définition I-9, Annexe I-6) :
Original (ti ) =
1
1
*
∑
∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri )
(8)
t j ∈T
IR(ti) ⊆ R est l'ensemble références indexées dans ti (§I-6 I-1.k)
ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri
et pointé par ri | ri ∈ RU(lri) ⊆ R (§I-6 I-1.j.a ; §I-6 I-1.i)
ri.li selon (§I-6 I-1.h) : une référence ri a un lien lri assigné, etc.
∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri)
Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par
différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans le
réseau sur un lien indépendamment de ses propriétaires.
Dans la section suivante nous montrons l’utilisation de ces indicateurs, en termes de
stratégies de l’utilisateur pour obtenir de l’information pertinente.
3.9.2.3 Stratégie de recommandations de contacts
Pour trouver des contacts nous utilisons différentes stratégies d’obtention
d’information. Pour cela, nous devons filtrer les recommandations de contacts obtenues à
partir de notre algorithme de filtrage collaboratif grâce aux valeurs des indicateurs sociaux
définis antérieurement.
Pour trouver des contacts de qualité nous devons filtrer les premières recommandations issues
de l’algorithme collaboratif grâce aux valeurs de nos indicateurs sociaux.
Ces stratégies peuvent être choisies globalement par l’administrateur du système
(§4.2.2.1) ou individuellement par chaque utilisateur si nous supposons que les utilisateurs
chercheront à avoir des recommandations de contacts et donc à établir des relations [po01,
p02]. Pour cela les stratégies d’obtention d’information sont importantes. Si l’utilisateur
connaît les stratégies qu’il peut suivre, nous pouvons supposer que certains d’entre eux
adapteront leurs comportements à leur convenance.
106
Grâce à l’utilisation de nos indicateurs pour le filtrage de recommandations, des
utilisateurs ayant des intérêts similaires ne recevront pas forcement les mêmes
recommandations de contacts en choisissant des stratégies différentes ! Ceci simplement
parce que les positions des utilisateurs dans le réseau varient et parce que les stratégies
d’obtention d’information varient d’un utilisateur à l’autre.
Voici l’interprétation de nos stratégies pouvant être proposées à l’utilisateur :
« Recherche de Réputés ». L'utilisateur a seulement confiance en des membres
réputés qui filtrent l'information pour lui.
« Recueillir Tout ». L'utilisateur veut obtenir les informations issues de ceux qui ont
plus de fournisseurs ou sources d’information pour un topique, ainsi il aime rassembler
le plus d'information possible : il aime thésauriser.
« Aller aux Sources ». L'utilisateur veut obtenir rapidement l’information la plus
récente en évitant les utilisateurs qui ne sont que des intermédiaires.
Au début de nos analyses nous avons inclus une autre stratégie que nous baptisons
« Recherche de Redondants », elle sert à garantir le cas où l’utilisateur veut avoir la
couverture la plus large sur un topique. Plutôt qu’une stratégie, la recherche de contacts
redondants sert à filtrer les recommandations de contacts. En effet, cette fausse stratégie n’est
qu’un moyen pour choisir entre topiques qui apportent le même type d’information, un filtre
pour dans le processus de recommandation de contacts.
Afin de détailler l’utilisation de nos stratégies, nous présentons un exemple dans la
section suivante.
3.9.2.4 Exemple de stratégies d’obtention d’information
Notre exemple correspond à la Figure 3-10 dans laquelle il y a six acteurs, sept
topiques montrés comme dossiers, et des références écrites avec une lettre minuscule et un
nombre. Les valeurs ne sont pas ici normalisées. Une telle normalisation est prise en compte
dans le service développé.
Nous devons calculer premièrement la matrice W et la matrice P. Pour faire court,
nous dirons que : le topique « Web Technologies » est équivalent à WT, le topique « New
Technologies » est équivalent à NT, le topique « Online Communities » est équivalent à OC.
De (3) nous calculons le W(WT, NT). Alors, nous avons :
W (WT , NT ) =
Card * (WT , NT ) 3
= = 0.75
Card (WT )
4
(10)
Nous supposons que b5 a été référencé par WT après avoir été référencé par NT. Le
résultat (10) montre que la moyenne de l'information ayant été étiquetée par NT et WT est de
0.75. Noter que nous disons « après avoir été référencé », parce qu’il existe également la
possibilité que WT reçoive directement l’information de NT si la relation entre les deux existe
déjà. Si c’est le cas, W(WT, NT)=0.75 peut être interprété comme l’importance de ce que NT
fournit à WT, c’est à dire, la proportion de références que WT a obtenu de NT.
107
Ci-dessous nous montrons les résultats de la matrice W (Tableau 2) et de la matrice P
(Tableau 3) de notre exemple :
NT
W
WT
NT
WT 0.75
Java
OC
0.2
0.25
0.2
0.25
Tableau 3-1.Résultats de la matrice W.
P NT WT Java OC
NT
WT 0.6
0.5
0.2
0.5
0.2
Tableau 3-2 Résultats de la matrice P.
Avec la matrice P, nous obtenons la proportion de la relation entre WT et NT parmi
toutes les relations avec WT :
W(WT, NT)
W(WT, OC) + W(WT, Java) + W(WT, NT)
3/ 4
=
= 0.6
1/ 4 + 1/ 4 + 3 / 4
P(WT, NT) =
La valeur 0,6 indique une relation importante entre les deux topiques. Elle montre la
proportion de références que WT a obtenu auprès de ou à partir de NT, parmi tous les autres
topiques qui ont étiqueté les mêmes références que WT.
3.9.2.4.1 Résultats de l’indicateur de réputation
Pour obtenir les topiques ayant l’information la plus réputée, nous utilisons le vecteur
RR (4) :
Value RR
Topic
WT
0.095879
NT
0.080576
Java
0.07185
OC
0.07185
Developing
0.062746
Objects
0.062746
Internet
0.0616
Tableau 3-3. Résultats du vecteur RR.
Si nous suivons la stratégie de recherche de réputés, nous obtiendrons RR(WT)
=0.095879, RR(NT) = 0.080576 pour les topiques WT et NT. Ce résultat est interprété comme
suit :
108
⋅
Le topique WT est le plus « réputé ». Nous pouvons noter de la Figure 3-10, que même
s'il n'a pas ses propres références, il a recueilli différentes références à partir de deux
topiques ayant un bon niveau de réputation. Le WT fourni son information à deux autres
topiques : Objets et Developping, ce qui lui donne un genre de crédibilité ou de réputation.
⋅
Le topique NT est au deuxième niveau de réputation. De la Figure 3-10, nous pouvons
observer qu'il a recueilli différentes références de deux topiques avec un bon niveau de
réputation. Cependant, il fournit seulement son information à un topique ! Il faut se
rappeler que le calcul de RR est basé sur une mesure de centralité indiquant un degré de
réputation (Brin et Page, 1998). Par contre, son niveau de réputation est suffisamment haut
pour être gardé comme un candidat à recommander.
3.9.2.4.2 Résultats de l’indicateur de redondance
Comme nous l’avons expliqué antérieurement, la matrice RED aide à connaître la
redondance entre topiques. De (6), RED (WT, NT) peut être calculé comme :
⎡
⎛ P(WT , OC ) P( NT , OC ) + ⎞⎤
⎟⎥
⎜
⎢
RED(WT , NT ) = ⎢ P(WT , NT ) + ⎜ P(WT , Java) P( NT , Java) + ⎟⎥ = 0.8
⎟⎥
⎜ P(WT , NT ) P( NT , NT )
⎢⎣
⎠⎦
⎝
Cette valeur indique la redondance entre WT et NT. Elle révèle que WT pourrait être
une source d'information similaire à NT; par conséquent, il est pertinent de recommander
seulement un des deux mais pas les deux !
RED Developing Objects Internet
Developing
Objects
Internet
NT
WT
Java
OC
NT
1.0
WT
Java
OC
0.5
0.2
0.5
0.2
1.0
1.0
1.0
0.2
0.8
Tableau 3-4. Résultats de la matrice RED.
Un autre calcul similaire donne RED(NT, WT) = 0,2. Noter que RED(WT, NT) >
RED(NT, WT) ! Ceci est un résultat important parce qu'il aide à décider quels topiques
recommander selon la stratégie d’obtention d’information de l'utilisateur.
3.9.2.4.3 Résultats de l’indicateur d’originalité
Pour obtenir les topiques sources d’information nous appliquons la formule (8). Les
valeurs normalisées du vecteur Original sont montrées ci-dessous :
Original (e)
Topique
Internet
1.0
Java
1.0
OC
1.0
109
NT
WT
Developing
Objects
0.6
0.25
0.0
0.0
Tableau 3-5. Résultats du vecteur Original.
Le résultat est interprété comme suit :
Internet est le topique le plus original. L'originalité de ce topique est évidente parce qu'il
est isolé, parce qu’il n'est pas redondant avec les autres et parce qu'il peut apporter une
nouvelle information. Le topique Java et le topique Online Communities sont des topiques
originaux également parce que les URIs pointés par ces références, ont été référencés
avant les autres topiques (voir Figure 3-10).
Cependant, si nous comparons leur position dans le vecteur Original, NT est plus
original que WT.
3.9.2.4.4 Résultats de l’indicateur d’agrégation
Pour obtenir les topiques agrégateurs d’information nous appliquons la formule (7).
Les valeurs différentes de zéro sont : AGREG(NT, WT) =1, AGREG(NT, Objets) =1,
AGREG(NT, Developing) =1, AGREG(Objets, WT) =3, AGREG(Objets, NT) =3,
AGREG(Developing, WT) =3, AGREG(Developing, NT) =3. Cet indicateur permet de réponde à
la stratégie « Recueillir Tout ».
Le résultat est interprété comme suit :
WT, Objects et Developing agrègent information pour NT.
WT et NT agrègent information pour Objects.
WT et NT agrègent information pour Developing.
Nous pouvons alors constater que avec l’indicateur d’agrégation nous sélectionnons
ceux qui ont plus d’information (selon leurs fournisseurs d’information).
3.9.2.4.5 Évaluation de résultats des indicateurs
Les résultats des indicateurs que nous venons d’obtenir nous permettent de répondre
aux stratégies choisies par les utilisateurs (§3.9.2.3). Supposons que Layda veuille obtenir des
recommandations sur son topique Internet. Le calcul de similarités avec notre algorithme de
filtrage collaboratif produira les recommandations suivantes118 :
Internet → New Technologies
Internet → Web Technologies
De notre exemple, nous observons que ces trois topiques ont des références sur des
URIs référencés dans la catégorie G d’ODP (même si leur intersection est vide !). Ces
recommandations initiales vont être analysées par notre algorithme SocialRank. Le dilemme
Une recommandation notée (t1 →t2 ), signifie que le propriétaire du topique t2 doit être dans la liste
de distribution du topique t1, si c’est ne pas déjà le cas.
118
110
d’une telle analyse est de déterminer : quel topique recommander à Layda par rapport à son
topique Internet ? Web Technologies ou New Technologies ? Les deux ?
RED est une matrice importante parce qu'elle aide à décider si deux topiques sont
redondants l’un avec l’autre. Avec elle nous pouvons répondre à la question lequel des deux
est le plus pertinent à recommander, selon la stratégie de l’utilisateur ? Cette décision va être
appliquée au topique Web Technologies (WT) et au topique New Technologies (NT).
Notons que WT et NT ont été identifiés comme ayant une redondance non vide, un seul
sera choisi selon la stratégie choisie. Celle-ci est :
Chercher des Réputés : ceci mène à sélectionner le topique avec le plus haut indicateur
de réputation ; la réponse du recommandeur serait WT.
Recueillir Tout : le topique choisi serait WT, parce que la stratégie donne la priorité à
ceux qui ont plus de fournisseurs ou sources d’information : AGREG(WT, NT) <
AGREG(NT, WT). Cette résultat est renforcé par l’indicateur de redondance RED, par
rapport à la plus haute valeur de redondance nous choisissons WT parce que RED(WT,
NT) > RED(NT, WT) (renforçant l'approbation globale que WT recueille plus que NT).
Aller aux Sources : le topique choisi serait NT, parce que la stratégie donne la priorité
au plus original parmi les topiques avec un niveau suffisant de réputation.
Il est très important de protéger le caractère privé de l’information des utilisateurs. Le
système issu de notre approche ne permet à aucun utilisateur d’ajouter son identificateur aux
listes de diffusion des topiques privés d’autres utilisateurs. Pour répondre à ces
problématiques les recommandations affichées suggèrent uniquement les contacts à qui
envoyer de l’information. Dans notre exemple, le recommandeur de contacts recommandera à
Layda d’ajouter Michel (propriétaire de NT) ou Laurence (propriétaire de WT) à la liste de
diffusion de son topique Internet (Layda ne verra pas les topiques correspondants). Nous
supposons que l’utilisateur recevant la nouvelle information, ajoutera (éventuellement) à son
tour Layda dans la liste de diffusion de son topique (assurant ainsi un retour d’information à
Layda).
Notez qu’afin d’encourager ce type de réciprocité, le recommandeur de contacts
vérifiera à son tour, si le topique de Layda satisfait à la stratégie d’obtention d’information de
Michel et de Laurence pour son topique NT et WT.
3.9.2.5 Calcul de toutes les recommandations possibles
Pour calculer les recommandations, le recommandeur de contacts construit deux
tableaux avec tous les topiques et leurs possibles relations : les topiques intéressants les uns
avec les autres. Les topiques intéressants sont les topiques connectables selon les références
qu’ils indexent. Elles sont obtenues grâce à notre algorithme SocialRank qui procède de la
manière suivante.
Pour chaque topique e il construit un autre tableau contenant tous les possibles
envoyeurs d’information intéressante pour ce topique e. Pour chacun de ces envoyeurs f,
il est associé une valeur correspondante au nombre de références pointant vers le même URI
que topique e et envoyeur f ont en commun.
Également, il existe un autre tableau, contenant tous les possibles récepteurs
d’information intéressante pour un topique envoyeur. A chaque topique récepteur, il lui est
111
associé une valeur correspondante avec le nombre de références pointant vers le même URI
que le topique envoyeur et le topique récepteur ont en commun.
Nombre de références
pointant vers le même
URI que le topique
envoyeur et récepteur ont
en commun
…
Id_du_topique_envoyeur
Id_du_topique_récepteur
…
…
…
Tableau 3-6. Tableau calculé après chaque itération, si il y a eu des échanges entre
topiques. Il permet d’avoir les relations intéressantes à établir entre topiques : pour un
topique récepteur, ses possibles topiques envoyeurs.
Le tableau montré ci-dessus liste les possibles relations qui peuvent s’établir pour des
topiques étant possibles récepteurs. Étant donné que nous testons des scénarios correspondant
aux réseaux thématiques (tous les membres du réseau aiment le même type d’information), ce
tableau sera symétrique au tableau des possibles relations qui peuvent se faire pour des
topiques étant possibles envoyeurs (voir Tableau 3-6). Bien évidemment, le remplissage de
ces tableaux respecte les droits de visualisation par topique (le contenu de leurs listes de
diffusion).
Étant donné que nos simulations utilisent les informations contenues dans ODP, ces
données peuvent être vues comme équivalents à celles obtenues grâce à notre algorithme de
filtrage collaboratif avec le processus de « crawling » sur le Web, que nous avons décrit dans
la section 3.9.1.1.
Id_du_topique_ récepteur
Id_du_topique_envoyeur
…
…
Nombre de références
pointant vers le même
URI que le topique
envoyeur et récepteur ont
en commun
…
…
Tableau 3-7. Tableau calculé après chaque itération, s’il y a eu des échanges entre
topiques. Il permet d’avoir les relations intéressantes à établir entre topiques : pour un
topique envoyeur, ses possibles topiques récepteurs.
Une fois que les topiques intéressants sont mis à jour pour chaque membre du réseau
ou « Contact », des recommandations de contacts sont calculées selon la stratégie saisie à
travers le paramètre « stratégie de personnes » où selon la stratégie associée de manière
aléatoire, si la valeur saisie dans le paramètre « stratégie de personnes » a été -1.
3.9.2.6 Filtrage des recommandations selon la stratégie
Pour filtrer les recommandations calculées, le système119 construit un autre tableau qui
va prendre en compte la valeur de l’information contenue dans chaque topique.
119
Ou le simulateur dans le cas des simulations.
112
Nota : la valeur de l’information dépend du type d’information désirée de l’utilisateur qui la
cherche. C'est-à-dire, si il cherche information réputée, alors sa valeur sera réputée, etc.
Si le topique en cours appartient à un contact cherchant de l’information venant de
contacts/topiques Réputés, le système calcule des possibles recommandations contenant des
contacts/topiques Réputés pour ce topique en cours avec l’indicateur de réputation qui, dans
le cas de nos simulations, utilise la mesure de réputation du degré (§I-6.1.7.3) :
g
RD(ti ) =
g
∑m
j =1
ji
∑m
j =1
ji
T −1
où
implique le degré de sortie ti qui satisfait : ∀ti∈T, ∃tj |W(tj,ti)>0
De manière similaire, le calcul pour les utilisateurs cherchant des informations venant
de contacts/topiques Originaux pour ce topique en cours avec l’indicateur d’originalité qui
utilise le vecteur Original (Définition I-9, Annexe I-6) introduit dans la section
3.9.2.2 avec l’équation (8) :
1
1
Original (ti ) =
*
∑
∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri )
t j ∈T
IR(ti) ⊆ R est l'ensemble références indexées dans ti (§I-6 I-1.k)
ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri
et pointé par ri | ri ∈ RU(lri) ⊆ R (§I-6 I-1.j.a ; §I-6 I-1.i)
ri.li selon (§I-6 I-1.h) : une référence ri a un lien lri assigné, etc.
∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri)
Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par
différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans le
réseau sur un lien indépendamment de ses propriétaires.
Nous calculons la valeur d’Agrégation de deux topiques (§3.9.2.2, formule (7)) pour
répondre à la stratégie des utilisateurs cherchant à thésauriser l’information :
AGREG(e, f ) = ∑ inN E
n f ∈N ( f )
où inNE = 1 ssi nf ∈ N(f) ∧ nf ⊄ N(e) sinon inNE = 0
Également, il ne faut pas oublier de vérifier notre indicateur de Redondance (§3.9.2.2,
formule (6)) qui utilise la mesure RED(e, f) selon la Définition I-17 de l’Annexe I-6 :
RED (e, f ) = P(e, f ) +
∑ P(e, n)P( f , n)
n∈N ( e )
Ainsi, ce tableau qui prend en compte la valeur de l’information contenue dans chaque
topique (voir Tableau 3-8), liste tous les topiques vus comme récepteurs, avec des
recommandations possibles selon la stratégie choisie.
113
De cette manière, à chaque topique récepteur lui est assigné un tableau listant ses
possibles envoyeurs correspondant à sa stratégie choisie. Chaque topique envoyeur a assigné
la valeur de son information selon la stratégie du propriétaire du topique récepteur : valeur de
réputation ou d’originalité ou d’agrégation. Ces topiques envoyeurs sont listés en ordre
décroissant de la valeur de leurs informations.
Valeur de l’information
contenue dans le topique
envoyeur selon la
stratégie du propriétaire
du topique récepteur
…
Id_du_topique_envoyeur
Id_du_topique_ récepteur
…
Id_envoyeur01
id_récepteur02_cherchant_Réputés
…
…
Valeur de réputation du
topique Id_envoyeur01 =
0,3
…
…
Tableau 3-8. Tableau prenant en compte la stratégie du contact/topique récepteur
pour lui assigner de possibles topiques envoyeurs à recommander avec leurs valeurs selon la
stratégie du topique récepteur. Dans la deuxième ligne (en grise), on voit un exemple d’un
topique récepteur cherchant de l’information venant de possibles topiques envoyeurs
réputés (en ordre décroisant de leur réputation).
Le pas suivant consiste à faire un premier « filtrage » de ce tableau. Nous allons
prendre en compte le « pourcentage de liste de topiques recommandés pour diffuser ». En
effet, à chaque topique récepteur, nous lui assignons en vérité, seulement un pourcentage du
tableau listant ses possibles topiques envoyeurs. Nous ne prenons que les premiers listés, c’est
à dire, ceux ayant les valeurs plus élevées d’information selon la stratégie du propriétaire du
topique récepteur (voir l’exemple du Tableau 3-9).
Ce tableau va suivre un deuxième filtrage : cette fois, nous allons transformer le
tableau en la transposant (voir l’exemple du Tableau 3-10). En effet, conformément à nos
principe et mécanisme de la dynamique du système, nous devons faire des recommandations
de diffusion d’information [p01 ; m01]. Alors, tout simplement, il faut lister les envoyeurs
d’information dans le tableau final : le recommandeur de contacts doit faire des
recommandations de diffusion d’information personnelle vers des contacts ciblés !
114
Valeur de
réputation
=0,4
Valeur de
réputation
=0,3
…
Id_envoyeur02
id_récepteur02_cherchant_Réputés
Id_envoyeur01
…
…
première
position dans la
liste
deuxième
position dans la
liste
…
Tableau 3-9. Première filtrage : ne laisser que les possibles topiques envoyeurs ayant les
valeurs plus élevées.
Se transforme en
id_récepteur02_cherchant_Réputés
Id_envoyeur01
…
id_récepteur02_cherchant_Réputés
Id_envoyeur02
…
…
Position dans la liste pour
id_récepteur02_cherchant_Réputés
=2
…
Position dans la liste pour
id_récepteur02_cherchant_Réputés
=1
…
…
Tableau 3-10. Transposition du tableau de recommandation de topiques par
stratégie.
De cette façon, les valeurs associées aux topiques envoyeurs selon les stratégies des
propriétaires des topiques récepteurs ont servi pour leur donner une position cible pour les
topiques récepteurs. Ainsi, pour chaque topique envoyeur, nous listons leurs topiques
récepteurs correspondants avec les positions déjà associées selon les stratégies de
propriétaires de ces topiques récepteurs. Ce tableau transposé résultant (voir l’exemple du
Tableau 3-10) est utilisé pour recommander des contacts.
3.10 Réseau personnel de l’utilisateur : son ego-network
Les indicateurs sociaux décrits antérieurement sont associés aux topiques. En
appliquant notre mécanisme de conscience sociale [m03] décrit dans la section 3.8, nous les
utilisons aussi afin d'aider l’utilisateur à choisir des contacts recommandés. Une fois que la
mise en relation est en place, il est aussi intéressant pour l’utilisateur de « se situer » par
rapport aux autres dans le réseau. Notre mécanisme de conscience sociale assurera cette
fonctionnalité.
3.10.1 Ego-network
Nous montrons la position des utilisateurs, souvent qualifié de « réseau personnel » ou
d’« ego network 120» (Figure 3-11 ; §3.12.3). Pour les analystes de réseaux sociaux, la
120
Un ego-network permet de représenter les personnes (alters) avec qui l’utilisateur (ego) collabore en
qualifiant cette collaboration (Mcdonald, 2000).
115
position des utilisateurs est décrite en fonction de critères de connectivité ou de
centralité121 de l’utilisateur (Freeman, 1979) ; de son statut de membre de sous-groupe du réseau
d’ensemble, ou « clique » ou encore de son rôle de lien (« boundary-spanner » ou « pont » ou
« liaison ») entre différentes cliques. La structure de l’ensemble du réseau est définie comme
la configuration des relations parmi ses membres.
Nous utilisons l’ego network pour montrer ce qu’un utilisateur u reçoit et de qui et
également ce qu’il envoie et à qui (Borgatti, 1998-url). Nous qualifions ces échanges avec notre
indicateur « niveau d’appréciation », qui est calculé dans une matrice nommée
Appréciation. La valeur plus haute de Appréciation (u, v) indique que l’utilisateur v
apprécie hautement l’information offerte par l’utilisateur u. Cette matrice se calcule avec la
formule :
Appréciati on(u , v) = ∑
∑ W (i, j )
(9)
i∈Tv j∈(Tu Ι N ( i ))
Tu = l’ensemble de tous les topiques de u
Tv = l’ensemble de tous les topiques de v
N(te) ⊆ T = l'ensemble de topiques « voisins » du topique te (Annexe I-6, Définition
I-4).
Pour décrire les utilisateurs v appréciant l’information venant de l’utilisateur u, la
description des utilisateurs sera montrée selon l’ordre décroissant de la matrice
Appréciation (u, v) tandis que pour décrire les utilisateurs u appréciant l’information de
l’utilisateur v, la description des utilisateurs sera montrée selon l’ordre décroissant de la
matrice Appréciation (v, u).
3.10.2 Description de contacts
Chaque utilisateur v donnant de l’information à l’utilisateur u est décrit dans l’ego
network de u par la liste des topiques t de v ayant u dans sa liste de diffusion. L’affichage de
chacun des topiques t indique, avec un logotype spécifique, si le topique t est le plus réputé, le
plus original ou s’il a une valeur d’agrégation élevée pour un (ou plusieurs) des topiques de u.
Un topique j est reconnu étant le plus réputé pour un topique i si et seulement si RR(i,
j) est la valeur la plus haute de RR(i, h) pour tous les h appartenant à N(i).
Un topique j est reconnu étant le plus original pour un topique i si et seulement si
Original(i, j) est la valeur la plus haute de Original(i, h) pour toutes les h appartenant à
N(i).
Un topique j est reconnu étant le plus agrégateur pour un topique i si et seulement si
AGREG(i, j) est la valeur la plus haute de AGREG(i, h) pour toutes les h appartenant à N(i).
Nous pouvons également utiliser notre indicateur de redondance dans le cas de besoin de
filtrage entre topiques redondantes : un topique j est reconnu ayant la plus haute redondance
pour un topique i si et seulement si RED(j, h) est supérieur ou égal à RED(h, j) pour tous les h
appartenant à N(i).
121
Pour nous la centralité dans un réseau social médiatisé est un indicateur de réputation.
116
Nous allons illustrer cela sur notre exemple.
3.10.3 Exemple d’ego-network
Supposons que Laurence soit l’utilisateur u. Dans son ego network, Michel, Jean-Charles
et Pascal sont les utilisateurs « sources » d’information. Ils seront listés par ordre décroissant
de la matrice Appréciation(v, Laurence).
La relation avec Michel est décrite par son topique NT, qui est montré étant le plus
réputé pour le topique WT de Laurence et, également, NT apparaît comme ayant la plus haute
valeur d’agrégation pour WT parce que AGREG(WT, NT) < AGREG(NT, WT) et RED(NT,OC) >
RED(OC,NT) et RED(NT, Java) > RED(Java, NT).
La relation avec Jean-Charles est décrite par son topique OC, qui est montré comme le
plus original pour le topique WT de Laurence.
Figure 3-11. Page de l’ego-network d’un utilisateur « X » connecté au système. Les
logotypes à coté des noms de topiques reflètent la qualité d’un topique en tant que :
source(s)-s ou (e) réputé-e ou (c) agrégateur-c, avec des valeurs supérieures à la moyenne
de tous les topiques
Les relations peuvent s’afficher à travers l’interface de l’ego-network de l’utilisateur
(Figure 3-11). La visualisation de l’ego network d’un utilisateur u contient également une
description des appréciations de l’utilisateur v sur l’information qu’il a reçue de u. Ces
descriptions sont affichées selon l’ordre décroissant de Appréciation (u, v). Elles sont
composées des topiques de l’utilisateur u qui sont appréciés par l’utilisateur v. La description
de chacun de ces topiques t montre avec des pictogrammes, si le topique t est le plus réputé, le
plus original ou s’il a la plus haute valeur d’agrégation pour un (ou plusieurs) des topiques de
l’utilisateur v. L’ego-network de l’utilisateur est aussi montré dans la section 3.12.3.
117
3.10.4 Tactiques pour modifier l’ego-network
Obtenir de l’information pertinente ou avoir le moyen de la détecter, incite les
utilisateurs à s’impliquer dans la dynamique du réseau social d’où l’importance de modifier
l’ego-network. Le fait de répondre à leurs objectifs de manière positive ne doit être que le
résultat de plusieurs dynamiques inhérentes au réseau. Une dynamique importante résulte de
la possibilité de lui montrer les rapports productions/consommation d’information dans son
réseau[po04] afin qu’il puisse suivre des tactiques comportementales pour que le
recommandeur de contacts lui apporte des recommandations pertinentes.
Figure 3-12. Extrait de l'interface du réseau de contacts d'un utilisateur. Nous
présentons ici la partie qui lui permet de suivre des tactiques comportementales pour
enrichir ses informations personnelles.
Ces tactiques sont montrées dans la Figure 3-12 et nous les décrivons ci-dessous :
Contrôle de son ego-network. L’utilisateur peut à tout moment connaître la position de
ses contacts. Le système lui affiche ses « fans » et ses « préférés ». Les fans des
utilisateurs sont les personnes qui apprécient le mieux les informations qu’il leur envoie.
Les préférés des utilisateurs sont les contacts dont il apprécie le plus les informations.
Cette tactique lui sert à visualiser les échanges qu’il fait. Il peut suivre
éventuellement122 la trace d’échanges de ses contacts avec d’autres membres du réseau
ou se rendre compte du type d’information échangée entre contacts. Dans la Figure 312, c’est le lien appelé « Afficher Mon Réseau ».
En affichant son réseau social, l’utilisateur va pouvoir par exemple privilégier les
topiques recommandés appartenant aux utilisateurs préférés réputés, originaux ou
agrégateurs par rapport à ses topiques.
Il peut aussi savoir comment il est apprécié original, réputé ou agrégateur par rapport à
d’autres. Il peut aussi connaître ses chances d’être recommandé et accepté par d’autres.
Ceci peut donc influencer son comportement pour chercher à être mieux apprécié plus
original ou expert. Il joue ainsi son engagement, sa motivation. Dans le cadre de cette
thèse nous n’avons pas pu vérifier cette hypothèse.
Recevoir plus d’information. L’utilisateur peut également demander au système de lui
offrir de l’information adaptée à un besoin donné. Le système ne peut que lui offrir des
informations étant déclarées publiques [po03]. Cependant, si les utilisateurs donnent
de la crédibilité à l’information venant des humains [po01], nous lui présentons une
122
Selon le droit de visualisation de l’utilisateur sur les topiques affichés.
118
troisième tactique : diffuser ses informations. En effet, diffuser est une tactique pour
recevoir par réciprocité.
Recevoir plus d’informations d’un topique public d’un nouvel utilisateur permet de se
faire connaître de celui-ci. Mais pour recevoir d’autres topiques il doit se faire
recommander à d’autres. Et pour cela il doit avoir des topiques intéressants et des
bonnes propriétés sociales pour être accepté.
Diffuser ses informations. L’utilisateur doit suivre une dynamique de diffusion[p03,
p04] pour recevoir des recommandations de qualité. Cette dynamique doit suivre ces
pas, du point du vu de l’usager :
Naviguer. C’est le fait de filtrer l’information du Web avec des critères personnels
(humains). Par exemple, en utilisant un moteur de recherche, l’utilisateur ne prend
que les résultats qui répondent au but de sa recherche.
Indexer de l’information préférée. Avoir une taxonomie personnelle pour classer
l’information résultat du filtrage de la navigation.
Diffuser une partie de l’information personnelle à ses amis, à ses collègues, à ses
employées, … aux contacts recommandés.
Pour être reconnu et diffuser son information il doit aussi recevoir des
recommandations et donc comme nous avons dit précédemment, avoir des topiques
intéressants et des bonnes propriétés sociales.
3.10.4.1 Diffuser l’information personnelle
Le fait de lui proposer ces tactiques comportementales pose encore quelques
questions. Cette dynamique permet-elle de recevoir une information intéressante même si
l’information n’est pas publique ? L’usager de notre système développera-t-il l’attitude de
diffuser ? La réponse à ces deux questions sera validée avec nos évaluations (voir chapitre 4),
mais nous pouvons déjà faire certaines intuitions. Voyons par exemple une exemple de
dynamique d’échanges sur le diagramme ci-dessous.
NNNAAAVVVIIIG
G
O
GAAATTTIIIO
ONNN
L’utilisateur
navigue sur
Internet pour
trouver des
documents de
son intérêt.
FILTRAGE
L’utilisateur
découvre
des
documents
intéressants.
IIINNNDDDEEEXXXAAATTTIIIO
O
ONNN
L’utilisateur
indexe les
documents
issus de sa
recherche
dans sa
taxonomie
personnelle
sur notre
système.
RECOMMANDEUR
Le recommandeur
analyse son profil
(sa taxonomie
personnelle) afin de
lui proposer de
possibles contacts
ayant de
l’information qui
puisse enrichir la
sienne.
DDDIIIFFFFFFUUUSSSIIIO
O
ONNN
L’utilisateur veut enrichir son
information et demande au
recommandeur.
RECIPROCITE
Le contact reçoit
l’information de
l’utilisateur. Il visualise
son contenu. Si son
Le recommandeur lui montre les contenu lui semble
personnes ayant l’information de intéressant, il ajoute à
ce contact dans le
son intérêt.
topique
L’usager diffuse son information correspondant.
au contact recommandé en
espérant que celui-ci trouve
intéressante le contenu des
informations reçues
Tableau 3-11. Dynamique de diffusion d'information avec une éventuelle réciprocité.
La dynamique de diffusion d’information décrite dans le tableau ci-dessus est résumée
dans le cas suivant. Un utilisateur navigue sur Internet, comme tout le monde le fait. Il trouve
de l’information qui lui plait par rapport à un sujet donné. L’action typique, est de la garder
dans ses favoris. Pour cette tâche il s’agit, par exemple sur IE123, d’aller au menu Favoris,
choisir « Ajout de Favoris » et cliquer sur « OK » et éventuellement créer un dossier. Dans le cas
123
Internet Explorer.
119
de notre système, l’utilisateur peut auparavant ajouter un bouton-lien appelé « 1 click-Review ».
C'est un lien qu'il suffit de copier/coller dans la barre de liens du navigateur. La fenêtre de
notre système s’ouvre avec la possibilité d’indexer le document désiré dans sa taxonomie
personnelle et d’éventuellement écrire un commentaire. Une fois que cette action est faite, le
système infère deux choses :
Quand l’utilisateur indexe, il donne sens à l’information indexée, il lui construit une
meta-information, une connaissance sur son contenu. Donc, la pertinence du contexte de
l’information est garantie.
L’utilisateur n’indexe pas de choses incohérentes dans sa taxonomie.
D’autre part, l’utilisateur a besoin de trouver une information plus complète124 sur
l’information indexée (celle qui se trouve dans un ou plusieurs de ses topiques). Il demande
alors au recommandeur de lui montrer des contacts susceptibles de l’avoir. Si les contacts ont
cette information publique, le recommander la montre à l’utilisateur, sinon, le recommandeur
lui montre l’identificateur du contact.
A son tour, l’utilisateur diffus l’information de son topique au contact recommandé en
espérant que lui, la trouvera intéressante :
Si le contact trouve l’information intéressante, il peut à son tour, diffuser le topique
ayant la robustesse cherchée par l’utilisateur, induisant une réciprocité aux échanges.
Si l’information ne lui semble pas intéressante, l’utilisateur saura qu’il faut qu’il
continue à indexer de l’information pertinente.
Cependant, même si le contact ne lui diffuse pas l’information (pas de réciprocité aux
échanges), il peut voir le profil de l’utilisateur et découvrir les topiques qu’il publie.
L’utilisateur peut espérer également que le contact trouve une ou plusieurs de ses
informations publiques intéressantes pour qu’en retour puisse s’établir l’échange de son
intérêt.
Avec cet exemple nous exploitons une double finalité :
Faire que les utilisateurs indexent plus d’informations dans ses topiques, afin d’obtenir
de retours informationnels intéressants et pertinents.
Faire que les utilisateurs publient ses informations, pour se faire connaître face aux
autres membres du réseau, afin d’élargir leur ego-net et par conséquent, le moyen
d’accès aux informations.
3.10.4.2 Classement des utilisateurs
Le système peut également montrer l’état des contributions de l’utilisateur au réseau
par rapport à ses fans et à ses préférés. De cette façon il est possible de savoir quels sont les
bénéfices qu’il obtient du media social : Par exemple, reçoit-il du système plus qu’il n'apporte
? Ces informations respectent toujours les droits de visualisation des membres du réseau.
De cette manière, dans le réseau de contacts de chaque utilisateur, les contacts fans et
préférés seront classés selon leur rang de Réputation et d’Originalité de l’information qu’ils
gèrent (voir les vignettes « Topiques de contacts réputés », « Topiques de contacts sources »
et « Topiques de contacts agrégateurs » de la Figure 3-11). La valeur de réputation d’un
124
Selon l’objectif choisi de l’utilisateur.
120
utilisateur u est la somme du vecteur RR(j) pour tout topique j appartenant à u. De façon
similaire, nous calculons l’originalité (source d’information) de l’utilisateur, c’est la somme
du vecteur Original(j) pour tout topique j appartenant à u.
Un utilisateur peut être classé avec un faible rang de réputation si peu d’utilisateurs
apprécient ses informations. Cependant, il pourra être classé avec un haut rang d’originalité
s’il apporte au réseau beaucoup d’informations nouvelles.
Il découle de l’étude de la littérature sur les systèmes de recommandation, des
utilisateurs essayant d’influencer le flux d’information à leur profit avec de la publicité ou du
pollupostage. Nous avons établi les stratégies d’obtention d’information et les tactiques
comportementales des utilisateurs précisément pour éviter ces actions. Les utilisateurs
« pollueurs » ne seront pas aperçus par les autres comme ayant du contenu pertinent et ils
seront discriminés125 et ils se verront bientôt isolés (sans contacts). Cela sera reflété sur
l’interface (monitorage126) du réseau social.
3.11 Revue des concepts de notre approche
Nous avons expliqué dans cette section les grandes lignes utilisées pour constituer le
cadre théorique de notre approche : les postulats, les hypothèses, les principes, les concepts
clés et les mécanismes pour constituer une dynamique d’échanges d’information dans un
réseau social médiatisé.
Le diagramme de classes de la Figure 3-13 ci-dessous montre bien les principaux
composants mis en jeu dans notre proposition et leurs relations.
Figure 3-13. Diagramme UML des principaux composants de notre proposition mis
en jeu et de leurs relations.
125
Un utilisateur peut annuler le flux d’information venant d’une personne donnée.
Le « monitorage » du réseau social est garanti grâce au type de conscience sociale dans le système,
que nous détaillons plus tard.
126
121
La gestion de favoris est l’association entre le Contact et le Gestionnaire d’information
personnelle. Cette association développe la nature individualiste des utilisateurs [po03] et
pour cela nous lui offrons le contrôle sur ses informations [p02].
Cependant, un Contact décide de participer au Réseau Social. Ceci implique d’accepter
la dynamique du réseau et donc, l’association « participe » implique la gestion de favoris
(décrit ci-dessus), la recommandation de contacts et la conscience d’autres membres du réseau
social [po06]. Pour que cette dynamique du réseau se mette en place, il faudra que le
Contact maintienne sa Taxonomie en indexant des Références (avec ses Topiques) pour les
échanger [h01;po04].
Les échanges déclenchent des recommandations selon des analyses sociaux et du
filtrage collaboratif (utilisant des annuaires), des analyses sur les membres [po01;po02] et
des analyses sur la qualité [p04] du réseau (application des indicateurs sociaux [h02]à
travers nos algorithmes SocialRank). Les recommandations générées sont validés du point du
vue objectif du système pour que la structure du réseau social soit de qualité [h03;p04].
Dans cette même dynamique, l’association récursive entre les rôles
« expéditeur »/« récepteur » d’un Contact permet la construction de la connaissance collective,
l’échange de recommandations pertinentes [p01] et donc de qualité [p05].
De cette manière, pour vérifier nos hypothèses nous avons conçu :
un système d’échange de « favoris » basé sur l’échange entre personnes et
un recommandeur de contacts pour influencer la dynamique du réseau.
Nos hypothèses doivent permettre le déploiement des objectifs des utilisateurs et nos
critères de qualité à optimiser le déploiement des objectifs du système. Les moyens pour
atteindre ces objectifs sont les mécanismes de régulation qui utilisent des indicateurs sociaux.
Ces éléments sont synthétisés dans le tableau ci-dessous.
Éléments que
nous voulons
offrir à
l’utilisateur
Critères de qualité globale
du système
Critères de qualité qui vont
permettre de déterminer
l’efficacité du système pour
optimiser le réseau.
Mécanismes de
Régulation
Moyens pour permettre des
relations pour satisfaire les
objectifs des utilisateurs et la
qualité du système.
Indicateurs sociaux
Ensemble de caractéristiques sociales
qui vont permettre de valider nos
hypothèses.
- Originalité. Mesurée avec
I.1.7.1.
- Réputation. Mesurée avec
Vitesse de réactivité à
l’information nouvelle
Pertinence
Motivation
Éviter la prolifération des
Gourous
Engagement
Coût du Réseau
Efficacité du Réseau
Mécanisme de
recommandations
Mécanisme de gestion
et diffusion de
l’information.
Conscience sociale
I.1.7.3
- Agrégation. Mesurée avec
I.1.7.10.
- Redondance. Mesurée avec
I.1.7.5.
D’autres formules qui aident à
valider ces indicateurs sociaux :
- Efficacité du réseau (selon une
calcule d’efficacité locale et le
coût)
- Coût du réseau
- Réactivité à l’information
nouvelle
Tableau 3-12. Éléments de notre approche pour la dynamique des réseaux sociaux.
122
L’objectif du système (et donc de notre approche) est d’appliquer des critères de qualité pour
optimiser la structure d’un réseau social.
De cette façon nous avons construit un support pour une dynamique en réseau, qui
utilise nos mécanismes de régulation et de conscience sociale en tenant compte des critères
que nous considérons importants à développer pour obtenir un réseau ayant une topologie
optimale. Ces critères sont analysés grâce à notre algorithme SocialRank, qui utilise les
mesures de nos indicateurs sociaux.
123
124
SSeeccttiioonn 44.. D
Deessccrriippttiioonn d
du
u SSyyssttèèm
mee rrééaalliisséé
Nous avons développé SoMeONe comme un prototype intégrant des caractéristiques de
gestionnaire d’information et de contacts personnels du réseau.
3.12 Fonctionnalités
Dans cette section nous présentons le fonctionnement général127 du système que nous
avons construit :
La navigation dans l’information avec SoMeONe. Grâce à notre système, l’utilisateur
peut naviguer sur le Web et récupérer facilement de l’information. L’information
récupérée sera indexée dans SoMeONe dans la taxonomie personnelle de chaque
utilisateur, c’est à dire, dans leurs topiques ;
La gestion d’informations. Pour gérer sa taxonomie, chaque utilisateur peut compter
avec une série d’outils que SoMeONe lui offre afin de lui faciliter la tache d’indexation.
Ego-network. L’ego-network ou réseau personnel de contacts de l’utilisateur, se
construit grâce à la dynamique d’échanges d’informations (information reçue et
information envoyée) dans son réseau de contacts. Les personnes qui interviennent dans
un tel réseau sont les personnes qui reçoivent de l'information et les personnes qui
envoient de l'information.
La gestion de contacts. L’indexation d’information se fait sous les topiques de la
taxonomie. Chaque topique est associé à une liste de diffusion. Dans ces listes
l’utilisateur intègre les contacts de son choix. A cette fin, SoMeONe lui offre également
une série d’outils de gestion.
3.12.1 La navigation avec SoMeONe
L’utilisation de SoMeONe peut être vue comme une page personnelle permettant à
l’utilisateur l’accès au Web. Hors cette page personnelle, SoMeONe offre des facilités
d’indexation de « documents128 », c'est-à-dire de références.
3.12.1.1 Une interface personnelle
L’utilisateur a son espace personnelle sous la forme d’une page Web, voir la Figure
3-14 ci-dessous. Le système lui présente sa taxonomie personnelle du coté gauche et le
contenu de ses topiques de coté droit. En haut, ils lui sont présentés les liens pour la gestion
de ses topiques personnels, de ses topiques reçus et de son réseau de contacts.
127
Pour connaître en détail ces fonctionnalités il faudra s’adresser à l’annexe II-7.
Rappelez-vous que dans SoMeONe, quand nous parlons de « documents » nous faisons référence à
l’« information indexée » par l’utilisateur. Notez que l’information indexée par l’utilisateur dans ses topiques est
celle que nous avons définie comme une « référence » à un document mono ou multimédia accessible sur le
Web. Donc, ces références ont le rôle des liens que normalement, l’utilisateur a l’habitude de mettre dans un
répertoire de favoris.
128
125
User-Test
User-Test
Figure 3-14. Page personnelle d'un utilisateur dans SoMeONe129.
Chaque élément de cette page sera décrit dans les sections suivantes.
3.12.1.2 Faciliter la navigation
Pour faciliter le processus d’indexation, nous avons intégré un raccourci qui permet
d’intégrer des nouvelles informations dans la taxonomie des utilisateurs.
De cette façon, l’utilisateur dispose d’un bouton (lien) placé de manière optionnelle
sur la barre de liens de son navigateur. Ce bouton s’appel le « 1 click-Review ».
Lors de prochaines recherches sur Internet, si l’utilisateur trouve un document Web
intéressant, il lui suffit de cliquer sur le lien « SOMEONE ». Une nouvelle fenêtre s'ouvre sur le
formulaire d'ajout d'information. Le titre, l'URI et le texte sélectionné dans la page sont
envoyés automatiquement à ce formulaire. L’utilisateur n'a alors plus qu'à sélectionner un ou
plusieurs de ses topiques et la référence est créée.
3.12.2 Gestion d’informations
Le profil de l’utilisateur (§3.7.1.3) est constitué de ses informations personnelles.
Celui-ci est géré sur forme de sa taxonomie personnelle, qui est composée de topiques et
sous-topiques et que nécessite également la gestion des listes de diffusion associées.
3.12.2.1 Profil de l’utilisateur
L’utilisateur contrôle l’information sur son profil tel que son identificateur (le nom
avec lequel les autres membres du réseau le reconnaîtront), son mot de passe, son courrier
électronique (public ou privé selon sa préférence) et éventuellement le lien vers sa page
personnelle.
3.12.2.2 Taxonomie personnelle
Pour la gestion de sa taxonomie personnelle il doit manipuler diverses actions sur ses
topiques. Les actions possibles sur un topique sont proposées dans la fenêtre de gauche de la
page « Mes Topiques ». On peut créer, modifier, diffuser, déplacer ou supprimer un topique en
129
Chaque symbole « V » à coté d’une étiquette montre à l’utilisateur, au passage du pointeur de la
souris, une description de l’action ou l’affichage liée à l’étiquette (par exemple, au passage sur le ? de « mon
réseau », la liste des contacts du réseau de l’utilisateur et les actions possibles sur les contacts seront affichées).
126
cochant le topique concerné dans la fenêtre de gauche de la page « Mes Topiques » et en
sélectionnant l’action (voir Figure 3-14 à gauche).
3.12.2.2.1 Code de couleurs de topiques
Le système offre un code de couleurs afin de visualiser l’état des topiques : le rouge
indique que le topique est privé. Si tous les topiques sont privés, l’utilisateur n’est même pas
considéré comme possible contact à recommander dans SoMeONe ! Exemple dans la Figure
3-14 : « A Étiqueter ». Le vert indique que le topique est public, visible de l’extérieur (voir
Figure 3-14 : « essai de dépôt » et « Dico »). La couleur orange indique que le topique n’est
diffusé qu’à certaines personnes (voir Figure 3-14 : « A Regarder »). Le surlignage en jaune
identifie le topique dont l’utilisateur peut voir les références en partie droite (voir Figure 314 : « Dico »).
3.12.2.2.2 Documents reçus
Chaque fois qu’un membre du réseau indexe des références dans ses topiques, tous les
contacts dans les listes de diffusion correspondantes recevront automatiquement l’information
indexée. Pour visualiser cette information reçue, chaque utilisateur a un lien appelé « Docs
Reçus ».
Il est possible donc que l’utilisateur puisse consulter à tout moment, les références
qu’il reçoit et également celles qu’il envoie.
Pour que de tels échanges se produisent, il faut d’abord que chaque utilisateur puisse
contrôler à qui il veut diffuser ses informations personnelles, c’est à dire, les références
contenues dans leurs topiques. A ces fins, le système permet la gestion de listes de diffusion,
comme décrit ci-dessous.
3.12.2.2.3 Listes de diffusion
La gestion de listes de diffusion par topique permet de diffuser un topique désiré et ne
le rendre visible qu’aux personnes choisies inscrites à SoMeONe. Ceci peut se faire soit en
sélectionnant des contacts préexistants, soit en indiquant :
le login visible en première page de SoMeONe
l’adresse mail déclarée lors de l’inscription à SoMeONe (visible en rentrant chez
l’utilisateur souhaité et en cliquant sur « Informations » dans le bandeau supérieur de
SoMeONe).
La gestion de listes de diffusion par topique implique la possibilité d’échanger de
l’information, comme nous l’expliquons dans la section ci-dessous.
3.12.2.3 Échange de l’information
Grâce aux listes de diffusion, SoMeONe permet l’échange des informations indexées.
Avec SoMeONe l’utilisateur peut donc envoyer ou recevoir des références et diffuser des
topiques.
127
Le partage d’une référence dépend du degré de confidentialité du topique dans lequel
il est classé130. De cette manière, l’utilisateur peut connaître ses :
« Topiques reçus » : les topiques auquel l’utilisateur s’est inscrit et donc desquels il va
recevoir de l’information.
« Topiques envoyés » : les topiques que l’utilisateur diffuse ou auxquels des utilisateurs
se sont inscrits.
Le partage d’information, issu de la gestion de listes de diffusion par topique implique
la gestion de contacts que nous détaillons ci-dessous.
3.12.3 Ego-network de l’utilisateur
L’ego-network de l’utilisateur se construit grâce à la dynamique d’échanges
d’informations (information reçue et information envoyée) dans son réseau de contacts.
Les personnes qui interviennent dans un tel réseau sont :
Les contacts qui reçoivent de l'information. Ces personnes peuvent au même moment
se diviser-en :
Ceux qui reçoivent de l'information et se l'approprient en l’indexant dans leurs
propres topiques.
Ceux qui reçoivent information mais la lisent sans l'indexer.
Ceux qui reçoivent de l'information et décident de ne pas continuer à la recevoir,
simplement parce que l'information n'est pas pertinente.
Les contacts qui envoient de l'information. Pour ces contacts, l'information qu'ils
produisent peut provoquer l'intérêt d'autres contacts qui sont :
Ceux qui aiment cette information et l’indexent dans leurs propres topiques.
Ceux qui simplement reçoivent de l'information, la lisent sans l'indexer.
Ceux qui reçoivent information et décident de ne pas continuer à la recevoir,
simplement parce que l'information n'est pas pertinente pour eux.
De cette manière, selon le type de contacts, il est possible d’identifier pour un
utilisateur131 :
Les préférés de l’utilisateur. « Les préférés de l’utilisateur sont les contacts propriétaires
de topiques que l’utilisateur apprécie ». L'appréciation que l’utilisateur fait sur le contenu
des topiques de ses préférés est calculée si l’utilisateur crée une référence sur les
références contenues dans les topiques qu’il reçoit et l’indexe dans se(s) propre(s)
topique(s). C'est à dire, quand l’utilisateur indexe des références pointant vers les mêmes
documents Web que ses préférés ont déjà indexés132. Bien évidement, pour que
l’utilisateur puisse indexer les références de ses préférés, il faut :
soit que le topique du préféré soit public et que l’utilisateur se soit préalablement
inscrit dans sa liste de diffusion de manière volontaire,
soit que le contact préféré ait ajouté l’identificateur de l’utilisateur dans la liste de
diffusion de son/ses topique(s).
130
Un topique peut être privé, public ou semi-public, c’est-à-dire diffusé qu’à certains utilisateurs.
Pour convention, nous utilisons l’« utilisateur » quand nous faisons référence à l’utilisateur courrant
ou connecté au système. Ses contacts sont les autres personnes avec lesquelles il échange des informations.
132
Processus de co-citation : création de références sur un même document.
131
128
Les fans de l’utilisateur. « Les fans de l’utilisateur sont les contacts ayant créée des
références sur les références que l’utilisateur avait créées ». L'appréciation que font leurs
contacts fans sur un ou plusieurs topiques de l’utilisateur est calculée si ces fans créent
des références sur les références contenues dans les topiques reçus, venant de
l’utilisateur. Bien entendu, pour que leurs fans puissent indexer références sur les
références de l’utilisateur, il faut :
soit que le topique de l’utilisateur soit public et donc ses fans se soient inscrits dans la
liste de diffusion de manière volontaire,
soit que l’utilisateur ait ajouté l’identificateur de ses fans dans la liste de diffusion de
son/ses topique(s).
L’ego-network de l’utilisateur se présente selon l’interface ci-dessous :
Figure 3-15. Interface correspondante à l'ego-network de l'utilisateur, qui liste les
contacts de l’utilisateur connecté selon l’ordre d’appréciation : comment l’utilisateur est
apprécié par ses fans ou l’appréciation que l’utilisateur a de ses préférés (IDEM Figure 3-11).
Pour les autres options de l’interface de « Mon réseau », SoMeONe affiche :
Les topiques de contacts Réputés. Le système affiche les topiques réputés qui sont
accessibles à l’utilisateur. Un topique est dit réputé lorsqu’il contient de l’information
très appréciée par d’autres personnes.
Les topiques Sources. le système affiche les topiques originaux qui sont accessibles à
l’utilisateur. Plus un topique indexe des nouvelles références dans SoMeONe, plus il est
considéré comme « original ». Dans ce cas, une référence est « nouvelle » si elle
n’émane pas d’un topique d’une autre personne.
Les topiques Agrégateurs. Le système affiche les topiques qui agrègent d’autres
topiques. Un topique a une grande valeur d’agrégation lorsqu’il agrège des informations
provenant de nombreux topiques. C’est très utile pour reconnaître un topique qui
contient le plus d’information représentative d’un sujet.
3.12.4 Gestion de Contacts
L’apport de notre approche est l’utilisation de réseaux sociaux afin de trouver des
contacts qui puissent apporter de l’information adaptée à chaque membre du réseau. La
129
gestion de contacts s’avère donc incontournable pour que l’utilisateur contrôle : l’état de sa
position dans le réseau vis à vis des autres, ses diffusions (topiques reçus et topiques
envoyés), les possibilités d’enrichir le contenu de ses informations personnelles et/ou élargir
ses domaines d’intérêt ou compétences.
La gestion du réseau de contacts se fait à partir du lien « Mon réseau » qui présente
l’interface décrite ci-dessous :
Figure 3-16. Interface présentée à partir du lien "Mon réseau". Les liens sont
représentés en gras et couleur bleue.
De cette façon, le réseau de contacts se construit à partir des échanges entre les
membres du système. Pour visualiser son réseau, l’utilisateur a le lien appelé « Mon Réseau ».
Celui lui mène dans une page que lui offre différents choix :
Afficher son réseau personnel (ou ego-network du point de vue de sociologues). Le
réseau personnel de chaque membre est présenté par contacts avec lesquels il échange
de l’information : ceux à qui il envoie et ceux de qui il reçoit.
Recherche d’information à partir du recommandeur de contacts. Dans SoMeONe
l’utilisateur a toujours le contrôle sur le type d’information qu’il souhaite trouver, pour
cela le système met à sa disposition une série de stratégies (§3.9.2.3) et de tactiques
comportementales (§3.10.4). Cependant, l’utilisateur n’obtient pas d’information mais
des contacts susceptibles de l’avoir. Ces contacts sont obtenus grâce à l’utilisation du
recommandeur de contacts du système.
3.12.5 Recommandeur de Contacts
La recherche d’information, à partir du recommandeur de contacts proposé par
SoMeONe est le cœur de notre approche. L’idée est d'influencer le flux d’information adaptée
à chaque membre du réseau. Pour ce faire, SoMeONe offre une page pour trouver des contacts
susceptibles d’offrir de l’information intéressante pour l’utilisateur du système.
Nous considérons que l’utilisateur de notre système connaît la dynamique d’échanges
proposée par le système. Cette dynamique se base sur le principe [p03] à partir duquel nous
spécifions que pour se maintenir dans le réseau, il faut diffuser ou échanger une partie de son
130
information personnelle, et sur [p04] à partir duquel nous pouvons garantir la « qualité » de
l’information qui circule dans le système seulement si l’utilisateur gère une information
personnelle de « qualité ».
De ce fait, un utilisateur peut utiliser le système de recommandation de contact pour :
Recevoir plus. C’est le cas quand l’utilisateur demande au recommandeur de contacts
de lui proposer des nouveaux contacts susceptibles de l’intéresser. Notez qu’avant tout,
SoMeONe doit garantir le caractère privé de l’information, donc, les seules
recommandations pouvant être proposées sont celles correspondantes aux topiques
déclarés publics auxquels l’utilisateur n’accède pas encore.
Figure 3-17. Interface correspondante à « Recevoir Plus ». Dans la partie supérieure
droite, il y a des liens selon la stratégie d’obtention d’information de l’utilisateur, puis le
texte explicatif de l’interface et en bas, une liste de topiques publics qui ne se trouvent pas
dans les recommandations de topiques publiques recommandés. Dans le cas de cet
exemple, il n’y a pas de topiques publics autres dans le système pour cet utilisateur.
Diffuser plus. Dans ce cas quand l’utilisateur, conscient de l’importance de sa
participation aux échanges pour obtenir des recommandations de qualité, décide de
diffuser ses informations personnelles. Mais il ne va pas les diffuser à n’importe qui. Il
utilise le recommandeur de contacts pour que celui-ci lui dise à qui il doit diffuser, en
espérant qu’en retour, l’utilisateur à qui il diffuse lui envoie de l’information
intéressante.
131
Figure 3-18. Interface correspondante à « Diffuser Plus ». Dans la partie supérieure
droite, il y a des liens selon la stratégie d’obtention d’information de contacts de
l’utilisateur, puis le texte explicatif de l’interface. L’utilisateur est également averti que les
contacts qui lui seront recommandés n’ont pas de topiques susceptibles de l’intéresser et
déclarés publics. L’utilisateur ne pourra voir que le profil public des contacts recommandés
pour décider de suivre les recommandations proposées.
3.12.5.1 Recommandation de topiques publics
Les recommandations des topiques publics susceptibles d’intéresser l’utilisateur sont
listées selon les trois stratégies possibles d’obtention d’information que le système offre :
Recommandation de topiques publics de contacts Réputés. Le résultat de
recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés
pour chacun des topiques de l’utilisateur selon l’ordre de leur réputation.
Recommandation de topiques publics de contacts Sources. Le résultat de
recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés
pour chacun des topiques de l’utilisateur selon l’ordre de leur originalité.
Recommandation de topiques publics de contacts avec Agrégation. Le résultat de
recommandations selon cette stratégie montre à l’utilisateur les topiques recommandés
pour chacun des topiques de l’utilisateur selon l’ordre de leur valeur d’agrégation.
Pour l’affichage de recommandations, pour chacune des stratégies listées ci-dessus,
l’utilisateur verra deux colonnes. La première intitulée « Pour votre topique » liste ses topiques
ayant des recommandations. L’autre intitulée « s’ajouter dans le(s) topique(s) » liste pour chacun
de topiques listés dans la première colonne, les recommandations selon l’ordre de leur
réputation. Les topiques recommandés sont affichés selon :
Un lien sur son nom, qui permet l’accès à son contenu.
Un symbole
cliquable, qui affiche sa valeur de réputation.
Un lien sur l’identificateur de son propriétaire, qui montre son profil public.
132
Figure 3-19. Interface correspondante à la « Recommandation de topiques publics
des contacts Réputés ». Une interface similaire est présentée pour les options
« Recommandation de topiques publics Sources » et « Recommandation de topiques publics
avec Agrégation ».
Dans le dernier cas, c'est-à-dire pour l’affichage de topiques publics de contacts avec
Agrégation, la deuxième colonne montre pour chaque topique de l’utilisateur, une liste de
topiques agrégateurs pour le topique de l’utilisateur.
Jusqu’ici nous avons décrit la recommandation de topiques ou plutôt le contenu des
topiques. Cependant, nous nous intéressons aux contacts. La partie la plus intéressante est liée
à la dynamique de recommandation de contacts décrite ci-dessous et qui dépend de la
participation des utilisateurs et de la qualité de leurs informations.
3.12.5.2 Recommandation de contacts
Les recommandations des topiques privés susceptibles d’intéresser un utilisateur sont
interdites. Ceci suit notre volonté de respecter le caractère privé de l’information personnelle
des utilisateurs. Ainsi, nous introduisons une dynamique de participation motivée [po04]
qui doit garantir la satisfaction de recommandations [p02], obtenue grâce aux propres
membres du réseau [p03] vis à vis de tous. Nous appliquons donc les mécanismes [m01 ;
m02] que nous avons défini et la régulation (§3.1.2).
De cette manière, les recommandations de contacts susceptibles de maintenir de
l’information intéressante pour l’utilisateur, sont listées selon les trois stratégies possibles que
le système offre :
Recommandation de contacts avec topiques Réputés. Le résultat de recommandations
selon cette stratégie montre à l’utilisateur les membres du réseau ou contacts possibles,
n’ayant pas de topiques publics susceptibles d’intéresser l’utilisateur mais qui
maintiennent des topiques privés susceptibles de l’intéresser. Ceci se fait pour chacun
des topiques de l’utilisateur, selon l’ordre de réputation du topique (ou des topiques) du
contact recommandé.
Recommandation de contacts avec topiques Sources. Le résultat de recommandations
selon cette stratégie montre à l’utilisateur les contacts susceptibles de l’intéresser pour
chacun des topiques de l’utilisateur selon l’ordre de leur originalité.
Recommandation de contacts avec topiques avec Agrégation. Le résultat de
recommandations selon cette stratégie montre à l’utilisateur les contacts susceptibles de
133
l’intéresser pour chacun des topiques de l’utilisateur selon l’ordre de leur valeur
d’agrégation.
Figure 3-20. Interface correspondante à la « Recommandation de contacts avec
topiques Réputés ». Une interface similaire est présentée pour les options «
Recommandation de contacts avec topiques Sources » et « Recommandation de contacts
avec topiques Agrégateurs ».
Pour l’affichage de recommandations, pour chacune des stratégies listées ci-dessus,
l’utilisateur verra deux colonnes. La première intitulée « Ajouter dans » liste ses topiques ayant
des recommandations de contacts. L’autre intitulée « au(x) contact(s) » liste pour chacun de
topiques listés dans la première colonne, les recommandations de contacts selon l’ordre de
réputation de leurs topiques. Les contacts recommandés sont affichés selon :
Un lien sur son nom, qui permet l’accès à son contenu.
Un symbole
cliquable, qui affiche sa valeur de réputation.
Un lien sur l’identificateur de son propriétaire, qui montre son profil public.
Dans le cas « Recommandation de contacts Agrégateurs », la deuxième colonne
montre pour chaque topique de l’utilisateur, une liste de topiques agrégateurs pour le(s)
topique(s) de l’utilisateur.
Nous avons également la possibilité de montrer le rang de membres (selon droits de
visibilité) du réseau de relation des utilisateurs.
134
de réputation
réputation
de réputation
Figure 3-21. Interface correspondante à « Rang de contacts ».
Pour ceux qui n’appartiennent pas au réseau de relation des utilisateurs, nous
présentons tout simplement les topiques public existants. Dans la figure ci-dessous nous
présentons l’interface qui représente le fait de vouloir connaître d’autres membres du réseau.
A cet effet, le système présente à l’utilisateur une liste avec le nom de personnes ayant de
topiques publics, sur forme d’accès à leurs pages personnelles.
Figure 3-22. Interface correspondante au fait d’aller sur le lien « D’autres contacts ».
Nous pensons qu’en présentant à l’utilisateur les topiques publics hors l’intérêt inhérent
à son profil personnel, il peut éventuellement s’intéresser à des nouveaux sujets et de cette
façon ouvrir son réseau de relations.
3.13 Architecture informatique
L’architecture générale du système présente à l’utilisateur étant connecté sur
SoMeONe (Plu et al. 2003 ) son information personnelle avec des éléments de :
Navigation
Une interface personnelle, son site sur notre système.
Un bouton (lien) placé de manière optionnelle sur la barre de liens de son
navigateur. Ceci afin de lui faciliter la tâche d’indexation d’information pendant la
navigation.
Gestion de ses informations :
L’information sur son profil général.
La gestion de sa taxonomie personnelle.
La gestion de listes de diffusion par topique.
Gestion de Contacts :
Une page pour atteindre ses objectifs de recherche d’information à partir du
recommandeur de contacts.
135
Figure 3-23. Architecture fonctionnelle de SoMeONe.
Nous utilisons Jalios Content Management Suit (www.jalios.com) pour développer le
serveur d’application. Nous avons utilisé la partie «JCMS» afin d’expérimenter notre système.
Bien évidemment, nous sommes conscients que pour placer notre système sur Internet de
manière définitive, il faudra définir une solution plus légère et standardisée.
Dans les sections suivantes nous présentons le serveur JCMS d’application du système
et notre outil de filtrage collaboratif.
3.13.1 Serveur d’application du système : JCMS
Jalios JCMS est une application de gestion de l’information qui fournit au travers d’un
progiciel intégré des services de gestion de contenu et de GED légère, des outils collaboratifs
et de portail documentaire; il fournit un référentiel pour gérer l’ensemble des documents et
des publications, et supporte les processus permettant de maîtriser son contenu. Les contenus
gérés peuvent aussi bien être des publications Web structurées que des documents ou des
fichiers.
JCMS
Figure 3-24. Jalios JCMS s’appuie sur un sous-ensemble de l’architecture J2EE :
JSP/Servlet. Chaque site JCMS est une application gérée par un Serveur d’Applications Web.
Chaque site est autonome et dispose de ses propres données, de ses propriétés, fichiers de
ressources, classes et JSPs.
136
Nous utilisons Jalios parce qu’il nous offre une infrastructure collaborative avec une
architecture basée sur des objets légers qui offre :
Intégrabilité
Serveur Web intégré ou externe : Apache, IIS
Servlet moteur JSP performant : Resin
Base de données relationnelles : JDBC
Annuaire LDAP : JNI
Outils infographisme : JSP
Administrabilité
Interface entièrement Web
Création de canaux, de schémas
3.13.2 Outil de filtrage collaboratif
Notre outil de filtrage collaboratif commence par analyser une « collection d’URIs »
contenue dans un ou plusieurs annuaires de sites. Cette collection est complétée par
l’ensemble de topiques des utilisateurs, c’est à dire, les URIs pointées par les références de
chacun de topiques des utilisateurs. Cette collection sera augmentée avec les URIs du Web
après le processus d’exploration (crawling). L’idée est d’obtenir un stock de pages qualifiées
d’ « similaires133 » à celles correspondantes aux URIs de la collection initiale (profils des
utilisateurs).
Figure 3-25. Module de « filtrage collaboratif » utilise les profils des utilisateurs
venant du module « filtrage SocialRank » pour valider ses résultats dans l’annuaire ODP. Puis
il génère en retour un fichier XML contenant l’ensemble de similarités entre profils selon les
URIs contenues dans les profils des utilisateurs.
Le crawler (§3.9.1.1, Figure 3-8), télécharge périodiquement le contenu des annuaires sur
le Web, afin d'enrichir perpétuellement sa banque de pages HTML.
Crawleur. Le crawler est un utilitaire réseau qui télécharge des fichiers du World Wide
Web, en utilisant le protocole HTTP (Hyper Text Transfer Protocol) et le FTP (File Transfer
Protocol), les deux protocoles Internet les plus utilisés. Il permet à partir d’une collection de pages
initiale, de télécharger toutes les pages qui y sont répertoriées, ainsi que les pages de ces pages
133
La similarité est déduite selon notre algorithme de filtrage collaboratif expliqué dans la section
3.9.1.1.
137
répertoriées, et ainsi de suite. Ce logiciel est donc capable de chercher récursivement dans la
structure HTML des documents et dans les arborescences des répertoires FTP.
Le crawler n’est pas interactif, c’est à dire qu’il peut travailler alors que l’utilisateur n’est pas
connecté. Il fonctionne bien sur les connexions instables, gardant en mémoire l'état d'un
téléchargement jusqu'a ce que la connexion soit rétablie, afin de reprendre où il s'était arrêté.
Les annuaires collectés sont en suite analysés (parsés).
Parseur. Le parseur est un analyseur grammatical de la structure HTML des pages
crawlées. Il a été réalisé par l’équipe d’Hector Molina [Hirai et al] de l’Université de Stanford.
L’algorithme a été modifié pour être adapté à notre approche. Le langage HTML est composé
de balises, entre lesquelles sont donnés tous les éléments de la page. Le parseur reconnaît les
balises et détermine en fonction de cela s'il s'agit d'un lien ou d'autre chose. Le parseur a une
autre fonctionnalité : déterminer pour chaque URL le numéro du chapitre (bloc) dans lequel
elle se trouve. Ce numéro est déterminé en fonction de certaines balises que le parser rencontre
dans son analyse de la page.
Une fois parsés, un index regroupant tous les URIs est créé.
Indexeur. L'indexeur est une partie essentielle au traitement rapide des données.
C’est un dictionnaire géant, qui associe un numéro à une URL. De cette façon les URIs sont
stockées dans un fichier sous une forme compressée pour optimiser la taille des fichiers et du
temps d’accès aux données.
Les résultats du parseur sont stockés dans une structure de données, et les liens entre
les URIs sont analysés selon le principe :
[p04]Considérons deux pages A et B. S'il existe un lien hypertexte dans la page A allant
vers la page B, alors on peut dire que le créateur de la page A recommande la page B.
Les résultats sont répertoriés dans une page HTML et analysés pour donner de la
pertinence (au sens de degré de similarité entre pages) à ses résultats. Le principe de
fonctionnement de cette analyse est inspiré d'un système nommé Parasite (Spertus, 1996). A
partir de la « collection d’URIs » initiale et les résultats accumulés antérieurs (ceux du
crawler, du parseur et de l’indexeur), cet analyseur constitue une structure de données étudiée
selon l’algorithme décrit dans la section 3.9.1.1, capable de fournir une liste d’URIs des pages
pertinentes134 avec une note de « pertinence » entre pages. Puis cette liste élargie d’URIs
pourra se comparer avec la structure de liens d’un annuaire Web (§3.13.2.2).
3.13.2.1 L’annuaire « Open Directory Project »
L'Open Directory est un projet gigantesque. Démarré sous le nom de NewHoo en juillet
1998 par deux programmeurs californiens, repris par Netscape à la fin de la même année,
(sous le nom de Directory Mozilla ou « dmoz »). Il vise à développer l'annuaire135 le plus
complet sur Internet en faisant appel à des d'éditeurs volontaires du monde entier. Il
représente le plus gros annuaire mondial actuel de sites Web, avec plus de 3 millions de sites,
43 000 éditeurs, 445 000 catégories et 62 catégories linguistiques.
134
La pertinence est validée au sens de notre algorithme de filtrage collaboratif : faire des
rapprochements par corrélation entre les utilisateurs. Si par exemple les individus X et Y sont fortement corrélés,
et que X aime un document, alors on recommandera également ce document à Y.
135
Catalogue de fiches descriptives de sites classées en grandes rubriques arborescentes.
138
Avantage principal d’ODP : la très grande réactivité du bataillon de « netsurfeurs »
ainsi constitué. Inconvénient majeur : le risque d'une certaine disparité dans la qualité de
contenu entre les catégories, certains éditeurs ayant plus ou moins de temps à consacrer à la
mise à jour de leur domaine. Le concept est, en tout cas, plus qu'intéressant, à tel point que le
Go Network (ex-Infoseek), a lancé ses « Go Guides », basé exactement sur le même concept. Il
s'agit clairement d'un outil qui se développe à grande vitesse.
Tout le monde peut utiliser les données de l'ODP. Elles sont accessibles au public et
100% gratuites. Toutefois, il faut accepter la licence de l'ODP. L'Open Directory fournit ses
fichiers de données au format « Ressources Description Framework » (RDF), une variante du
format XML (voir http://www.w3.org/RDF/).
3.13.2.2 Intégration d’ODP
La propriété d’ODP d’être constamment maintenu par des « humains » nous intéresse
[h00]. De cette façon, notre outil de filtrage collaboratif, dans son processus
d’automatisation des « similarités » entre d'utilisateurs, est donc complété pour prendre en
compte les URIs dans chacun de profils des utilisateurs par rapport à la gigantesque
classification d’ODP.
De cette manière, notre module « Filtrage SocialRank » doit construire, pour notre
module « Filtrage Collaborative » l’ensemble de profils des utilisateurs sur la forme de
fichiers HTML, voir Figure 3-23. Les données trouvées serviront pour deux sousprocessus, un pour l'analyse du contenu de topiques et l'autre pour l'analyse des profils
utilisateurs.
Figure 3-26. Le module « Filtrage Collaboratif » reçoit les profils des utilisateurs sur
format HTML. Il crawle le Web pour collecter les annuaires utilisés (générer une liste avec le
profil de topiques des utilisateurs) et les analyse pour trouver les plus similaires (selon notre
algorithme de filtrage collaboratif). Il utilise ODP pour vérifier s’il y a de topiques ayant des
liens classés sous des catégories similaires dans la classification ODP.
A la fin de l'analyse, un fichier XML est généré nommé « ResultatODP.xml ». Ce
fichier contient toute l'information nécessaire à notre module « Filtrage SocialRank » pour
139
permettre de proposer des utilisateurs aux membres de SoMeONe. Sa structure XML est la
suivante :
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
<User><userid>c_46</userid></User>
<UTopic><utopicid>c_75</utopicid></UTopic>
<UTopic><utopicid>c_3605</utopicid></UTopic>
<RUser><ruserid>c_32</ruserid></RUser>
<RUTopic><rutopicid>c_98</rutopicid></RUTopic><d:Note>0.110432</d:Note>
<RUser><ruserid>c_53</ruserid></RUser>
<RUTopic><rutopicid>c_70</rutopicid></RUTopic><d:Note>0.13484</d:Note>
<Utopic><utopicid>c_83</utopicid></UTopic>
Id de utilisateur c_46
Id du topique c_75 de l'utilisateur c_46
Id du topique c_3605 de l'utilisateur c_46
Id de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur c_46
Id du topique c_98 de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur c_46 avec une note de 0.110432
Id de l'utilisateur c_53 recommandé au topique c_3605 de l'utilisateur c_46
Id du topique c_70 de l'utilisateur c_32 recommandé au topique c_3605 de l'utilisateur 46 avec une note de 0.13484
Id du topique c_83 de l'utilisateur c_46
Tableau 3-13. Structure du fichier ResultatODP.xml. La première ligne du tableau
présente sa structure XML tandis que la deuxième, sa signification.
Ces balises sont au nombre de 9 :
- <User> et </User> : début et fin des données sur l'utilisateur à qui l'on peut
proposer d'autres utilisateurs.
- <userid> et </userid> : entre ces balises est indiqué l'identifiant (propre à
SoMeONe) de l'utilisateur à qui l'on peut proposer d'autres utilisateurs.
- <UTopic> et </UTopic> : début et fin des données sur le topique de l'utilisateur à
qui l'on peut proposer d'autres utilisateurs.
- <utopicid> et </utopicid> : entre ces balises est indiqué l'identifiant (propre à
SoMeONe) d'un topique de l'utilisateur à qui l'on peut proposer d'autres utilisateurs.
- <RUser> et </RUser> : début et fin des données sur l'utilisateur que l'on veut
proposer à un autre utilisateur.
- <ruserid> et </ruserid> : entre ces balises est indiqué l'identifiant (propre à
SoMeONe) d'un utilisateur que l'on veut proposer à un autre utilisateur.
- <RUTopic> et </RUTopic> : début et fin des données sur le topique de l'utilisateur
que l'on veut proposer à un autre utilisateur.
- <rutopicid> et </rutopicid> : entre ces balises est indiqué l'identifiant (propre à
SoMeONe) d'un topique de l'utilisateur que l'on veut proposer à un autre utilisateur.
- <D:Note> et </D:Note> : entre ces balises est indiquée la note avec laquelle on
recommande les deux utilisateurs. Cette note est celle du bloc représentant
l'utilisateur recommandé.
Nous venons de décrire le cadre théorique de notre approche : les concepts de base, les
objectifs que nous poursuivons, des postulats, des hypothèses et des principes que nous
devons valider. Pour cela nous avons décrit également les grandes lignes à suivre pour
approuver cette approche ainsi que sa conception et la description du système proposé.
Maintenant nous voulons la valider à l’aide de deux évaluations que nous décrivons dans le
chapitre suivant.
140
4 Validation de notre
approche
Résumé du chapitre
Deux évaluations ont été développées pour valider les hypothèses de notre approche : une avec des
utilisateurs réels et une autre en faisant des simulations pour tester nos algorithmes suivant différents
comportements sociaux. Pour chaqu’une des évaluations nous présentons donc nos contributions
techniques, theoriques, fonctionnelles et l’analyse des résultats obtenus.
La première évaluation est développée et testée avec des utilisateurs réels. Elle présente le système
SoMeONe comme un service Web de mise en relation de personnes par la gestion de leurs
informations personnelles.
Nous présentons l’analyse de cette première évaluation, l’intérêt de son implantation, les résultats
obtenus, les points forts, les points faibles et d’autres facteurs intervenant dans ces résultats, qui nous
ont permis de valider une partie importante de notre approche. Ensuite nous présentons nos
conclusions.
Une conclusion importante est l’acceptation positive du système. Malheureusement les interfaces de
notre proposition ont souffert d’un manque d’ergonomie.
Notre simulation cherche à valider les mécanismes de mise en relation de contacts de SoMeONe (à
travers le recommendeur de contacts). L’idée est de montrer que la manière de choisir un contact
(stratégies spécifiques) a une influence sur la qualité du réseau (meilleur flux d’information) et valider
nos hypothèses.
L’analyse de cette dernière évaluation, l’intérêt de son implantation, les résultats obtenus et les
conclusions, nous ont permis de compléter la validation de notre approche.
Nous développons finalement, l’évaluation globale de notre système de recommandation de contacts
selon la littérature présentée dans notre état de l’art et nos constatations.
’évaluation du prototype baptisé SoMeONe a été faite en deux étapes. La première
a été proposée aux utilisateurs réels. Les résultats de celle-ci ont validé notre
hypothèse [h01]136, nos postulats et la mise en place et acceptation de nos principes. La
deuxième évaluation a été faite à travers d’un ensemble de scénarios de simulations qui
prennent en compte différentes variables, inabordables en temps et quantité, avec des
L
136
Ces résultats ont également encouragé des améliorations sur d’autres versions du service proposé.
141
utilisateurs réels. Les résultats obtenus nous permettent de ratifier nos hypothèses
[h01;h02;h03].
Nous intégrons de manière traverse à ces deux évaluations, une analyse de la qualité
de notre approche en tant que « système de filtrage collaboratif pour un réseau social de
diffusion d’information pertinente » (Herlocker et al, 2004Nous allons surveiller donc le
déroulement de l'usage du système pour chacune des évaluations.
4.1
Première évaluation : utilisateurs réels
Cette première évaluation a été mise en place pour des utilisateurs réels, dans le portail
de l’Université de Savoie pendant la période scolaire 2003-2004. Elle a été développée pour
valider les fondements psychosociaux de notre approche. Ainsi, cette évaluation s’adresse
aux étudiants et aux professeurs. Nous présentons ici les objectifs de ces premières
évaluations, la méthode que nous avons suivie, nos résultats, les points forts, les points faibles
et les conclusions.
4.1.1
Objectifs
Évaluer l’acceptation de notre système et évaluer nos hypothèses, à travers différents
profils d'usages d’utilisateurs réels est l’objectif principal de cette première évaluation de
notre système SoMeONe137. Par évaluation du profil d’usage du système, nous comprenons
l’utilisation que les utilisateurs ont faite des outils proposés dans SoMeONe et leurs utilité
dans le processus d’amélioration de flux d’information. Nous présentons l’évaluation de la
première version du prototype SoMeONe, étant un gestionnaire de favoris qui permet leur
partage. Ainsi, nous développons des analyses sur :
L’identification de profils d'usage des topiques.
L’identification des profils d'utilisation des liens.
L’analyse de l'utilisation des recommandations de contacts.
L’analyse des logiques d'usage spontané des utilisateurs en étudiant les premiers
échanges qui ont été effectués.
Les deux premières analyses sont particulièrement riches parce qu'elles renvoient aux
deux aspects du service de mise en contact avec des réseaux sociaux susceptibles de fournir
des informations de qualité, et de gestion de ces informations via l'utilisation des taxonomies
personnelles. Les profils d'utilisation des topiques vont permettre de rendre compte du type
d'usage des réseaux de contacts. Les profils d'utilisation des liens vont par ailleurs permettre
de rendre compte du degré d'utilisation de la fonction de gestion des informations
(nomenclatures personnelles).
Les deux dernières analyses, relatives aux recommandations et aux logiques d'usages
spontanées du service, renseignent sur les aspects des usages.
137
Dans le cartable électronique® de l’Université de Savoie, les services offerts par
offerts sous le nom de « Webothèque » (§II.2).
142
SoMeONe,
ont été
4.1.2
Méthode
Nous avons commencé à développer notre proposition dans le portail de l’Université
de Savoie, particulièrement dans le service du cartable électronique®138 de cette université.
Nous avons donc intégré une version du prototype compatible avec le cartable électronique®.
La population ciblée est d’environ 150 étudiants scientifiques de l'Université de Savoie plus
une quantité similaire d’enseignants et collaborateurs de l'Université de Savoie.
4.1.2.1 Intégration dans le portail de l’Université de Savoie
Cette partie a pour objectif de définir la manière dont SoMeONe et le cartable
électronique® ont été intégrés.
Notre service SoMeONe est l’ensemble des applicatifs et bases de données hébergées
sur les serveurs de France Télécom R&D. Le but de l’intégration est de réaliser un client qui
doit interroger le service existant afin de proposer aux utilisateurs du cartable électronique®
un moyen d’interagir avec ce service. Le choix d’intégration a dépendu de deux choses :
D’un point de vue technique, son infrastructure collaborative avec une
architecture basée sur des objets, nos a permis d’échanger des flux d’information XML
entre deux services Web.
D’un point de vue fonctionnel, les usagers du cartable électronique® obtiennent un
service personnel de gestion et d’échange de favoris et de recommandation de contacts.
L’architecture mise en œuvre est présentée sur la figure suivante.
N avigation
WWW
Serveur W eb XML
HTTP
cartable électronique®
A PI
G estion de C ontacts
G estion
d’information personnelle
Serveur JSP
JCMS JaliosDB
List es de
D iffusion
T axonomie
personnelle
T opiques
Recommandeur
de C ontacts
Filtrage
C ollaboratif
Filtrage
SocialRank
SoMeONe
Figure 4-1. Architecture multi-tiers de l’intégration des applicatifs de SoMeONe dans
le cartable électronique® de l’Université de Savoie.
138
Pour plus d’information sur le cartable électronique® de l’Université de Savoie, aller sur
http://savoie.cartable-electronique.org ou http://www.univ-savoie.fr
143
Le cartable électronique® effectue des requêtes via HTTP sur le serveur JCMS (JSP)
et récupère en réponse un flux XML. Ces flux sont ensuite traités et affichés à l’utilisateur.
Les temps de réponse ont été analysés et sont tout à fait admissibles.
L’ensemble d’objets du cartable électronique® est du type Zope139 que l’on peut
instancier dans le cartable des usagers. Cet objet est uniquement un client chargé de dialoguer
avec le serveur SoMeONe pour fournir aux usagers du cartable électronique® les services
implémentés par SoMeONe. Ainsi, les usagers du cartable électronique® ne voient pas
SoMeONe mais des interfaces adaptées appelant ses services.
De ce fait, nous allons analyser les usages de ces services dans la section suivante.
4.1.2.2 Profil d’usages
Il faut bien noter que pour le cartable électronique®, nous avons utilisé un vocabulaire
adapté au contexte des utilisateurs. Cependant nous avons essayé de maintenir un vocabulaire
le plus similaire possible vis à vis de celui utilisé dans notre approche et dans les interfaces de
SoMeONe140. Ainsi, les utilisateurs ont bien des topiques, dans une nomenclature
personnelle141 (constituée de topiques personnels). Ils peuvent gérer leurs liens ou références
et obtenir des recommandations. Les topiques peuvent être diffusés142 ou publics143. Les liens
dans les topiques reçus peuvent être déplacés ou importés (indexés) dans les nomenclatures
personnelles ou marquées lus ou supprimés ou déplacés dans une section de liens « non
traités ».
Une fois que nous avons bien clarifié le vocabulaire utilisé, nous pouvons tenter de
rendre compte de profils d'usage des différents éléments selon un échantillon de 20
utilisateurs analysés (étudiants et professeurs)144 :
Identification de profils d'usage des topiques. Il s'agit de rendre compte de la
répartition des usages des différents types de topiques (selon leur degré de diffusion et de
caractérisation). De ce fait, nous essayons de répondre aux questions du type :
Quels sont les topiques qui ont été les plus reçus ?
Quels sont les effets des descriptions associées aux topiques sur le nombre de
topiques reçus, selon qu'ils sont diffusés, publics ou diffusés et publics ?
Identification des profils d'utilisations des liens. Les liens peuvent être utilisés
différemment, selon qu'ils sont « non traités », « marqués lus » ou « supprimés » ou
« déplacés ». Par ailleurs, le croisement des données relatives aux types de topiques et aux
types de liens nous permet de définir des profils plus précis. Nous essayons de répondre à
la question : Quel usage des nomenclatures personnelles ? Pour répondre il faut d’abord
répondre aux questions :
Quelle est la part de liens reçus déplacé, non traités, marqués lu ou supprimés ?
139
http://www.zope.org/
Pour avoir une référence des interfaces dans la version de SoMeONe qui a offert le service au
cartable électronique®, voir l’Annexe II-7 section 7.2. Cette annexe montre la version initiale v0 dans la
première partie, et pour les améliorations à la gestion de contacts, la version v0.1 dans la deuxième partie.
141
Taxonomie personnelle selon notre approche (§3.4.1).
142
Nous disons que les topiques sont diffusés reçus si un autre utilisateur les a diffusé à travers des listes
de diffusion.
143
Nous disons que les topiques sont publics reçus dans le cas où les utilisateurs se sont inscrits euxmêmes aux listes de diffusion des topiques publics.
144
En effet, sur l’ensemble d’utilisateurs inscrits, seulement une vingtaine a inséré des liens.
140
144
Comment se sont répartis les types de liens en fonction des topiques desquels ils
sont issus ?
Analyse de l'utilisation des recommandations. Cette analyse étudie la part relative aux
recommandations proposées par le système qui sont suivies par les utilisateurs, et celles qui
ne sont pas suivies.
Analyse des logiques d'usage spontanées des utilisateurs en étudiant les premiers
échanges qui ont été effectués. Ces échanges peuvent être opportunistes (l'utilisateur a
consommé de l'information) ou altruistes (l'utilisateur a produit de l'information).
Après avoir défini ces profils d’usages, nous présentons les résultats obtenus de nos
analyses dans la section suivante.
4.1.3
Résultats de l’évaluation
Nous présentons les résultatsde nos évaluations du point de vue des usages de
topiques, liens et recommandations. Nous intégrons également une analyse de réciprocité
d’échanges, à partir de ces usages. L’information rassemblée dans cette section, est la
synthèse d’un ensemble de livrables issus de résultats d'expérimentations menées par
Laurence Gagnière et Ghislaine Chabert dans le cadre d'un contrat entre l’Université de
Savoie et de FranceTélécom R&D.
4.1.3.1 Profils d'usage des topiques
Les résultats de notre évaluation par rapport à l’identification de profils d'usage des
topiques visent à répondre aux questions suivantes :
Quels sont les topiques qui ont été les plus reçus ? Il y a différents niveaux
d'utilisation du système, soit pour évaluer le nombre de topiques diffusés reçus ou le nombre
de topiques publics reçus. Pour le premier, le nombre de topiques reçus correspond au nombre
d'utilisateurs ayant reçu des topiques diffusés.
Les topiques sont organisés en hiérarchie de topique. Cette hiérarchie peut être vue
comme la nomenclature personnelle de l'utilisateur. Les topiques sont diffusés reçus si
un autre utilisateur leur a diffusé à travers des listes de diffusion. Les topiques sont
publics reçus dans le cas où les utilisateurs se sont inscrits eux-mêmes aux listes de
diffusion des topiques publics.
Le nombre de topiques reçus relatifs aux topiques publics, est plus significatif du
degré d'usage de l'utilisateur puisqu'il ne considère que les topiques ayant été sélectionnés par
lui, parce que considérés comme pertinents et intéressants. Il s'agit donc bien d'une mesure du
degré d'adoption des topiques par l'utilisateur. Cependant, il paraît difficile d'émettre des
interprétations sur la base de ces résultats. Nous ferons néanmoins la distinction entre
topiques reçus et adoptés selon qu'ils se
Nombre de topiques reçus
rapportent à des topiques diffusés ou publics.
172
180
La figure ici à droite, expose l’effet des
types de topiques (publics, diffusés, publics et
diffusés) sur le nombre de topiques reçus. Elle
montre le nombre de topiques reçus lorsqu'ils
ont été diffusés. Les chiffres montrent que les
utilisateurs ont mieux accepté les topiques
lorsqu'ils leur étaient adressés personnellement.
Les résultats relatifs à ces types de topiques
160
140
120
107
100
80
60
35
40
20
0
Topiqu e s P u blic s
To piqu e s Dif f usé s
Top ique s P ub lic s e t
Dif f u sé s
145
indiquent que 172 utilisateurs sur la totalité d’utilisateurs, ont reçu des topiques diffusés, qui
ont directement été considérés comme des topiques reçus. Le nombre de topiques reçus
relatifs aux topiques publics révèlent que des topiques publics ont été reçus un grand nombre
de fois (au vu du nombre total de topiques publics existant; 35) par les utilisateurs, qui les ont
alors importés dans leurs topiques reçus.
Ce rapport entre nombre de topiques publics et nombre de fois où les topiques publics
ont été adoptés vérifie la théorie de la masse critique (Markus, 1987) et confirme l'hypothèse
posée au (§2.2.1.1.2). Une masse critique, créatrice de contenu, a en effet produit
volontairement et consciemment à destination de tous de l'information diversifiée, de qualité.
Il y a bel et bien eu un petit groupe d'individus plus actifs que les autres.
Quels sont les effets des descriptions associées aux topiques sur le nombre de topiques
reçus, selon qu'ils sont diffusés, publics ou diffusés et publics ? La figure expose l’effet de la
description des topiques et des types de topiques sur le
Nombre de topiques reçus
nombre de topiques reçus. Les résultats montrent que la 100
94
T opiques sans
90
description
différence entre le nombre de topiques décrits reçus et le 80
78
T opiques avec
nombre de topiques non décrits reçus n'est pas 70
60
description
60
significative, ceci pour les topiques diffusés (χ(3,84)=1,57, 50
47
p=0,05) et publics (χ(3,84)=1,28, p=0,05). La description 40
30
30
ne peut pas, du fait du système, impacter d'une manière ou 20
5
d'une autre l'adoption du topique par l'utilisateur puisque ce 100
T opiques
T opiques
T opiques
topique est automatiquement ajouté à ses topiques reçus,
publics
publics et
diffusés
par le biais de la liste de diffusion qui lui est associée.
diffusés
En ce qui concerne les topiques publics, l'absence de différence significative entre le
degré d'adoption de topiques décrits et non décrits permet de signaler une absence d'effet des
descriptions sur l'adoption des topiques par les utilisateurs. On pourrait supposer que les
descriptions n'ont peut-être pas été pertinentes par rapport aux attentes des utilisateurs !
La seule différence significative qui émerge est relative aux topiques publics et
diffusés (χ(3,84)=17,85, p=0,05). Cependant, le nombre de topiques reçus publics et diffusés
inclue d'une part le nombre de topiques automatiquement reçus par les listes de diffusion, et
d'autre part le nombre de topiques publics que les utilisateurs ont véritablement adopté, en les
important dans leurs topiques reçus (ceux qui ne figuraient pas sur la liste de diffusion
associée à ces topiques).
Nous pouvons alors dire qu’il n’y a pas d’effet significatif à décrire les topiques.
4.1.3.2 Analyse de l'utilisation des recommandations
La figure ici expose la répartition des recommandations No mb re d e re co mman d atio n s rec u es
23
selon qu'elles ont été suivies ou non. Les résultats représentés
montrent que le nombre de recommandations suivies apparaît
Suiv ies
comme étant largement inférieur au nombre de recommandations
N o n Suiv ies
non suivies. Les utilisateurs n'ont pas utilisé le cartable
électronique® pour trouver des contacts. Durant la période
d'utilisation analysée, il semble que les utilisateurs se soient
344
contentés de perpétuer leurs réseaux sociaux existants. Ce résultat
confirme l'idée selon laquelle des réseaux sociaux ne peuvent pas être crées artificiellement,
146
par la seule mise en place d'un réseau technique de communication (§2.2.1). Des réseaux
sociaux doivent préexister aux réseaux techniques, qui ne peuvent être une fin en soi Collot
(1993), à fortiori lors de la phase d'amorçage d'un système. Sinon, nous constatons qu’il faut
avoir une vrai volonté ou besoin pour partager.
Par ailleurs, les recommandations constituent une fonctionnalité du système à part
entière. L'utilisateur doit être motivé à rechercher des nouveaux contacts pour accéder à cette
fonctionnalité. En phase d'amorçage du système, les utilisateurs ne sont pas nécessairement
motivés à nouer de nouveaux contacts sauf la masse critique, qui contribue à faire vivre les
réseaux constitués.
4.1.3.3 D’autres profils d'usages : consommateurs versus producteurs
Nous avons constaté de profils d'usages spontanés : consommateurs versus
producteurs. Son identification a été effectuée à travers l'analyse des premiers échanges
effectués par les utilisateurs. La figure expose la
répartition de ces premiers usages constatés. Ce Repartition des profils d'utilisation spontanée du service
(consommateurs versus producteurs)
résultat s'explique par l'existence d'un petit groupe
d'individus actifs, prêt à contribuer même si les autres
Consommateurs
37%
ne le font pas. Il s'agit de l’hypothèse de la masse
Producteurs
critique (§2.2.1.1.2) qui rend compte "d'un petit
63%
segment de la population qui choisit de faire de
grosses contributions à l'action collective alors que la
majorité fait peu ou rien". Selon cette hypothèse, la
masse critique serait nécessaire à la généralisation des comportements de production à tous
les membres du réseau.
4.1.3.4 Degrés de réciprocité des échanges
Nous nous intéressons également à l’identification de degrés de réciprocité des
échanges de liens et de topiques, et de recommandations. Cette analyse a l’intention :
De ne tenir compte que des utilisateurs actifs, c'est à dire des utilisateurs ayant reçu ou
diffusé des éléments.
De faire un rapport entre le nombre d'éléments reçus pour chaque utilisateur et le
nombre d'éléments qu'il a envoyé (nous entendons par-là, le nombre d'éléments qui ont
été reçus par d'autres utilisateurs que cet utilisateur x).
De ce fait, pour chaque élément (topiques, liens et recommandations), nous avons
ensuite analysé :
Le degré de réciprocité des échanges. C'est-à-dire la présence ou l'absence totale de
réciprocité entre le nombre d'éléments reçus et le nombre d'éléments envoyés pour
chaque utilisateur. Ainsi, une absence totale d'éléments reçus par rapport au nombre
d'éléments diffusés renvoie à des échanges de type altruiste. Une absence totale
d'éléments diffusés par rapport au nombre d'éléments reçus correspond à des échanges
de type opportuniste. Un rapport, aussi minime soit-il entre le nombre d'éléments reçus
et diffusés traduit des échanges réciproques.
Le degré de réciprocité des échanges réciproques. Ces échanges réciproques sont
ensuite qualifiés. Ainsi, lorsque le nombre d'éléments reçus est supérieur au nombre
d'éléments diffusés, nous considérons que l'utilisateur a eu des échanges réciproques
opportunistes (considérons par exemple un utilisateur Ux, qui a reçu 10 éléments et en a
147
diffusé 5). Les échanges réciproques traduisant un nombre plus élevé d'éléments
diffusés comparativement au nombre d'éléments reçus sont considérés comme des
échanges réciproques altruistes. Les échanges parfaitement réciproques renvoient à un
rapport parfait entre le nombre d'éléments reçus et le nombre d'éléments diffusés
(considérons par exemple un utilisateur Uy qui a reçu 10 éléments et en a diffusé 10).
Les topiques reçus et consultés, les liens consultés, déplacés et reçus et les
recommandations vont être analysées selon ces deux axes d'analyse.
4.1.3.4.1 Topiques reçus
Dans la réciprocité des échanges relatifs aux topiques reçus, seulement 29.76% des
utilisateurs ont été actifs (89 utilisateurs sur la totalité des utilisateurs), en recevant des
topiques d'autres utilisateurs ou en envoyant des topiques qui ont été reçus par d'autres
utilisateurs.
Quelle part de réciprocité dans les échanges relatifs aux topiques reçus ? La majorité
des échanges a été opportuniste. En effet, 46% (41 sujets sur 89) des utilisateurs a reçu des
topiques sans en diffuser eux-mêmes. Le plus grand Répartition en % des types d'échanges relatifs
aux topiques reçus
nombre de topiques reçus par un même utilisateur sans
24%
qu'il ait lui-même émis de topiques est de 12, le plus petit
30%
étant de 1. La moyenne de topiques reçus par ces
utilisateurs opportunistes est de 2.71 topiques.
réciproques
opportunistes
Les échanges altruistes ont été relativement élevés.
altruistes
Ils correspondent aux utilisateurs ayant envoyé des
46%
topiques sans en recevoir eux-mêmes (21 sujets sur 89).
Ces utilisateurs ont envoyé en moyenne 1.43 topiques sans en recevoir, avec un nombre de
topiques maximum envoyé de 6 et un nombre de topiques minimum envoyé de 1.
Les échanges réciproques ont été partagés par 30% des utilisateurs (27 sujets sur 89).
Ces utilisateurs ont véritablement échangé avec d'autres personnes, en diffusant et en recevant
des topiques. Ils ont reçu en moyenne 7.07 topiques pour 10.07 diffusés. La forte part de ce
type d'échanges est un résultat encourageant, car il traduit une volonté des utilisateurs à
s'intégrer dans un réseau social, au-delà de leur intérêt à recevoir de l'information de qualité.
Quel degré de réciprocité dans les échanges relatifs aux topiques reçus ? La figure cidessus essaie de répondre à cette question. Nous voyons que l’intérêt de cette analyse est
qu'elle nous permet de comprendre la tendance générale des réciprocités. Les analyses
précédentes distinguaient uniquement les différences entre une absence totale de topiques
reçus par rapport au nombre de topiques diffusés (et inversement) et un rapport entre le
nombre de topiques reçus et diffusés. Ces analyses permettent de qualifier cette notion de
réciprocité, selon qu'elle est de tendance altruiste, opportuniste ou parfaite (équitables).
On s'aperçoit que la majorité des échanges réciproques est de nature opportuniste. En
effet, 41% (11 sujets sur 27) des utilisateurs ont plus reçu qu'échangé. La réciprocité de
l'échange, même si elle existe, est déséquilibrée.
Les échanges réciproques parfaits sont les plus faibles (26%, c'est à dire 7 sujets sur
27). Ce type d'échange rend compte d'une réciprocité parfaite entre le nombre de topiques
reçus et le nombre de topiques diffusés. Il traduit une volonté forte de perpétuer des relations
148
avec les personnes du réseau, puisque à chaque topique reçu, un topique est diffusé en retour
aux émetteurs de ce topique.
Les échanges réciproques altruistes constituent 33% des échanges réciproques totaux
(9 sujets sur 89). Dans ce type d'échange, les utilisateurs ont diffusé plus de topiques qu'ils
n'en ont reçu. Ils s'inscrivent donc dans la même lignée que les échanges réciproques parfaits,
de développement d'un réseau social large, indépendamment des intérêts qu'il apporte.
4.1.3.4.2 Topiques consultés
Dans l’analyse de la réciprocité des échanges relatifs aux topiques consultés, le rapport
étudié n'est plus relatif aux nombres de topiques reçus ou émis, mais à celui des topiques qui
ont été consultés par un utilisateur et des topiques de cet utilisateur qui ont été consultés par
d'autres utilisateurs.
De manière générale, 20.41% des utilisateurs (61 utilisateurs sur 299) ont consulté des
topiques ou d’autres ont consulté leurs topiques.
Quelle part de réciprocité dans les échanges relatifs aux topiques consultés ? Nous
conservons les termes réciproques, altruistes et opportunistes associés aux échanges, parce
qu'ils sont communs à tous les éléments analysés. Cependant, ils n'apparaissent pas des plus
pertinents pour cette analyse.
La part relative aux échanges altruistes renvoie aux échanges dans lesquels les
utilisateurs ont été consultés sans qu'ils n'aient jamais consulté. La finalité de ces utilisateurs
était donc de diffuser au plus grand nombre les informations dont ils disposaient, ce qui nous
renvoie à l'hypothèse d'une masse critique ayant contribué Répartition en % des types d'échanges
dans le but de développer et de maintenir un réseau social
relatifs aux topiques consultés
et non pas dans le but de consommer de l'information
36%
pertinente. Les utilisateurs impliqués dans ces types
39%
d'échanges ont été consultés en moyenne 1.41 fois, avec
reciproques
une fréquence maximum de 6 et minimum de 1.
altruistes
Néanmoins, ces types d'échanges ont été les moins
opportunistes
fréquents (22 utilisateurs sur 61), et révèlent que cette
25%
finalité n’est partagée que par une petite part
d'utilisateurs.
La part relative aux échanges opportunistes caractérise les échanges pour lesquels les
utilisateurs ont consulté sans que les autres aient consulté ses topiques. Cette proportion est
plus élevée (24 utilisateurs sur 61) que celle relative aux échanges altruistes. Le nombre de
consultations le plus élevé est de 14, le plus bas de 1. Le nombre moyen de consultation est de
2.72. Le fait de ne pas avoir été consulté peut s'expliquer par le fait de ne pas avoir diffuser de
topiques ou de ne pas avoir diffusé de topiques intéressants.
La consultation des topiques a été majoritairement réciproque (24 utilisateurs sur 61).
Les utilisateurs ont consulté en moyenne 4.25 fois et ont été consultés en moyenne 5.81 fois.
Ce résultat pourrait être interprété par la volonté qu'ont eu les utilisateurs de privilégier les
relations sociales par rapport aux informations qu'ils ont pu obtenir. En effet, il semble que la
réciprocité ait été un critère de consultation des topiques, dans le sens où les utilisateurs ont
plus facilement consulté (et ont été plus facilement consultés) dès lors qu'une relation avait
149
déjà été établie. Ces résultats relatifs aux échanges réciproques de topiques consultés
semblent montrer une réciprocité plutôt altruiste.
Quel degré de réciprocité dans les échanges relatifs aux topiques consultés ? La part
d'échanges réciproques opportunistes a été identique à celle d'échanges réciproques parfaits.
En effet, pour les deux types d'échanges, il y a eu autant d'utilisateurs (9 sur 21) qui ont d'une
part, plus consulté qu'ils n'ont été consultés, et d'autre part, consulté autant qu'ils ont été
consultés. Ces résultats peuvent sembler paradoxaux, mais expliquent bien en quoi les
différentes motivations des utilisateurs peuvent impacter les usages qu'ils ont développé du
service. Ainsi, les utilisateurs ayant eu des échanges réciproques parfaits ont été motivés par
le fait d'appartenir à un réseau social d'échange, alors que les utilisateurs ayant eu des
échanges réciproques opportunistes ont plutôt été motivés par la volonté de trouver de
l'information pertinente.
La part d'échanges réciproques altruistes a
été la plus forte. Ce type d'échange renvoie aux
utilisateurs ayant plus été consulté qu'ils n'ont
consulté, et se rapproche, dans ses motivations,
des échanges réciproques parfaits.
Répartition en % des types d'échanges réciproques
relatifs aux topiques consultés
25,00%
37,50%
Réciprocité altruiste
Ainsi, il semble que ce soit une dynamique
plutôt sociale qui ait régi les échanges entre
utilisateurs, relativement aux topiques consultés.
Réciprocité opportuniste
Réciprocité parfaite
37,50%
4.1.3.4.3 Liens reçus, consultés, déplacés
Par rapport à la réciprocité des échanges relatifs aux liens reçus, consultés, déplacés,
nous avons choisi de regrouper les analyses relatives à la réciprocité des liens reçus, consultés
et déplacés. Ce regroupement nous permet de rendre compte :
De la variation du nombre d'utilisateurs actifs en fonction du degré d'appropriation de
l'outil. Cette comparaison nous a permis d'observer si les deux fonctionnalités de
création et de maintien de réseaux sociaux et de création de nomenclatures personnelles
étaient également utilisées. La diminution du nombre d'utilisateurs actifs consultant ou
déplaçant des liens rendrait compte d'un usage moins développé de la fonction de
création de nomenclatures personnelles du service.
De la variation du nombre d'échanges en fonction de leur degré de réciprocité. Les
degrés de réciprocité sont identiques aux autres analyses, relatives aux échanges
opportunistes, altruistes ou réciproques.
De l'interaction entre le degré d'appropriation de l'outil et le degré de réciprocité des
échanges relatifs aux liens reçus, consultés, déplacés. Cette comparaison permet de
mesurer les effets d'interactions de ces deux variables sur le nombre d'échanges.
L'augmentation du nombre d'échanges réciproques relatifs aux liens déplacés traduirait
un effet du système sur l'émergence de communautés virtuelles. A l'inverse, la
diminution de ce type d'échange en fonction du degré d'appropriation de l'outil (liens
reçus<liens consultés<liens déplacés) traduirait un effet inhibiteur du système dans
l'émergence de communautés virtuelles.
Quel effet du degré d'appropriation de l'outil sur le degré de réciprocité des
échanges ? Le nombre d'utilisateurs actifs diminue lorsque le degré d'appropriation de l'outil
augmente. Nous entendons par-là que lorsque l'outil est utilisé relativement à toutes les
150
fonctions qu'il offre, son degré d'appropriation est élevé. En effet, les liens reçus
correspondent uniquement à l'aspect social du système, via les réseaux virtuels qu'il permet de
créer et de maintenir. Les liens consultés traduisent un degré d'appropriation plus élevé du
système par des utilisateurs qui considèrent leur liste de topiques reçus comme un buffer,
c'est-à-dire un fichier tampon à l'intérieur duquel ils peuvent annoter les liens reçus. Le degré
d'appropriation le plus élevé correspond aux liens déplacés, véritablement indexés dans les
nomenclatures personnelles.
De la figure ici à droite sur la répartition des échanges selon leur degré de réciprocité
et le degré d’appropriation des liens, nous observons que 87 utilisateurs ont été actifs
relativement aux liens reçus, 21 en ce qui concerne les liens consultés, et seulement 16
relativement aux liens déplacés.
Répartition des échanges selon leur degré de
réciprocité et le degré d'appropriation des liens
En ce qui concerne la variation du nombre
d'utilisateurs actifs en fonction des types d'échanges, on
observe une majorité d'utilisateurs opportunistes. Ils sont
45.98% lorsqu'il s'agit des liens reçus, 71.43%
relativement aux liens consultés et 43.75% en ce qui
concerne les liens déplacés.
100
21
40
50
26
0
LIENS
RECUS
Les utilisateurs ayant eu des échanges réciproques
sont plus nombreux lorsqu'ils concernent les liens reçus
(29.89%) et déplacés (31.25%) que lorsqu'ils concernent
les liens consultés (9.52%).
4
4
15
7
5
2
LIENS
LIENS
CONSUL DEPLAC
altruistes
21
4
4
opportunistes
40
15
7
reciproques
26
2
5
En ce qui concerne l'effet d'interaction entre le degré de réciprocité des échanges et le
degré d'appropriation de l'outil, on constate que plus ce dernier est élevé, moins les
utilisateurs sont actifs. Au niveau qualitatif, cependant, on peut noter une répartition plus
homogène des types d'échanges, avec une supériorité des échanges réciproques (31.25%)
comparativement aux échanges altruistes (25%).
Quel degré de réciprocité au niveau des liens reçus, déplacés et consultés ? Au niveau
quantitatif, on observe un plus grand nombre d'échanges réciproques relatifs aux liens reçus
(26), comparativement aux liens déplacés (5), les échanges réciproques relatifs aux liens
consultés étant les plus faibles (2).
Les types d'échanges suivent la même
courbe quel que soit le type de lien auquel ils
renvoient. En effet, on observe une majorité
d'échanges réciproques altruistes et une
absence totale d'échanges réciproques parfaits.
De manière générale, les liens des
utilisateurs ont ainsi eu tendance à être plus
reçus, consultés et déplacés qu'ils n'ont euxmêmes reçu, consulté ou déplacé.
Répartition des échanges selon leur degré de réciprocité et
le type de liens
14
12
10
8
6
4
2
0
13
Lie ns Re c us
Lie ns Consult é s
Lie ns Dé pla c é s
4
2
0
réciprocité
altruiste
151
13
1
réciprocité
opportuniste
00
réciprocité
parfaite
4.1.3.4.4 Réciprocité dans les recommandations
Les analyses relatives aux recommandations sont
intéressantes pour rendre compte des effets des Répartition des types de recommandations
effectuées par le système
recommandations sur les actions des utilisateurs. Le
9,68%
système a donné des recommandations à 51 utilisateurs
12,90%
sur un total de 299 utilisateurs, ce qui conduit à dire que
seuls 51 utilisateurs ont été actifs vis à vis des
R s ur-e s tim a nte s
recommandations dans l'utilisation du système durant la
R s o us e s tim a nte s
R pa rfa ite s
77,42%
période d'expérimentation étudiée.
Ces analyses permettent d’observer :
La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été
supérieur au nombre de fois où ils ont été recommandés; il s'agit des recommandations
« sur-estimantes ».
La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été
inférieur au nombre de fois où ils ont été recommandés; il s'agit des recommandations
« sous-estimantes ».
La part d'utilisateurs pour laquelle le nombre de recommandations proposées a été
identique au nombre de fois où ils ont été recommandés; il s'agit des recommandations
parfaites.
Les résultats montrent que la majorité des recommandations ont été parfaites (24 sur
31). Les recommandations « sous-estimantes » (4) ont été plus élevées que les
recommandations « sur-estimantes » (3).
Néanmoins, la plupart des recommandations ont permis des échanges parfaitement
réciproques, ce qui conduit à dire que le système permet effectivement de favoriser la
participation symétrique des utilisateurs au sein de réseaux sociaux virtuels.
4.1.4
Les points forts de l’évaluation
L’expérimentation a permis de définir très précisément les valeurs ajoutées du service qui
sont principalement :
A. Le nomadisme. Les enseignants et étudiants utilisateurs du service ont
effectivement beaucoup apprécié la possibilité de pouvoir récupérer leurs liens référencés
indépendamment d’un poste de travail :
o
o
o
« C’est une sorte de bookmark unique pour moi, je peux changer de machine et
conserver mes bookmarks, c’est super avec la bookmarklet145 » (enseignante)
« J’ai des liens disponibles de partout, j’y accède au travail, à l’université, à domicile,
c’est surtout ce qui a suscité mon intérêt au départ » (étudiant)
« Je peux retrouver mes adresses web partout » (étudiant)
Une bookmarklet (appelée « 1 click-review », voir §7.1.3.2) est un lien qu'il suffit de copier/coller dans
la barre de liens du navigateur, qui sert dans notre contexte, comme raccourci pour ajouter des références quasiautomatiquement dans la nomenclature personnelle pendant la navigation sur le Web. Ceci ne fonctionne
qu’avec Internet Explorer (Annexe IV, §IV.3.1.1.2).
145
152
B. Le partage de références. Les utilisateurs considèrent que le partage de
références est un des points forts du service afin de constituer une sorte de « Webiographie »
commune à un groupe d’individus :
o
o
o
o
« c’est un espace de partage de références avec les étudiants, notamment avec mon
étudiante en thèse (usage en recherche pour mutualiser de références collectives) »
(enseignante)
« j’ai utilisé le service pour pouvoir partager des connaissances avec mon collègue,
mutualiser des informations dans un espace dédié (ce qui décharge le mail d’une tâche
spécifique) » (enseignant)
« on peut partager des liens avec les autres utilisateurs, profiter des bons tuyaux et
bonnes références trouvées et données par les autres utilisateurs » (étudiant).
« La publication de thèmes à une liste de diffusion est facile » (étudiant)
On peut aussi mettre en avant ici le fait de profiter du tri effectué par les autres :
o
« Quand on fait une recherche d’informations, on tombe sur un sujet précis, une
information très fine, c’est intéressant alors de réutiliser le tri déjà effectué par
quelqu’un ». (étudiant).
C. L’organisation des informations. Il est également clair que le service a permis à des
utilisateurs d’organiser leur espace personnel de stockage de liens. Ces utilisateurs ont eu un
usage plutôt « personnel » du service :
o
o
« Je me suis servi du service pour stocker des adresses personnelles » (étudiant)
« J’en ai surtout eu un usage personnel au départ » (étudiant)
A partir de ces résultats, une nouvelle version du service permet maintenant :
De s’approprier un topique et d’en conserver éventuellement le nom dans son espace
personnel.
De privilégier plutôt une démarche active où les utilisateurs vont chercher de
l’information en s’inscrivant à un topique public (hypothèse du tiers de confiance plus
forte).
En déduction nous envisageons pour une version ultérieure du service, classer les liens
par priorités d’intérêt dans un topique, de prévoir d’extraire une bibliographie suivant le
modèle structuré dans un topique (« pour faciliter l’écriture d’un papier en recherche par
exemple »).
4.1.5
Les points faibles de l’évaluation
L’expérimentation a également permis de distinguer des faiblesses du service,
principalement :
A. Le manque d’ergonomie. Tous les utilisateurs ont à un moment ou à un autre de
l’entretien souligné le manque d’ergonomie et d’intuitivité de l’interface (7/8). Les remarques
à ce niveau sont nombreuses et soulignent la nécessité de re-développer une autre interface
afin de rendre le produit plus intuitif et attractif. Nous avons distingué 4 niveaux de
recommandations ergonomiques :
- Celles qui relèvent de l’interface. Entre autres : avoir une légende pour rappeler la
signification des couleurs (attention : un enseignant daltonien voit tous les topiques
noirs), attribuer une couleur spécifique aux topiques mixtes « publics et à diffuser », etc.
- Celles qui relèvent de la gestion des topiques et liens. Entre autres : permettre de
structurer la liste des topiques publics, hiérarchiser les liens dans les topiques, pouvoir
153
-
-
lire les informations contenues dans un topique sans avoir à se l’approprier (problème :
obligation de déplacer avant de lire un topique), faciliter la création de sous-topiques
quand les topiques deviennent trop « gros », etc.
Celles qui relèvent de la visibilité du réseau de contacts. Les nouvelles recommandations
de contacts du système ne sont pas suffisamment mises en valeur car il faut avoir une
démarche active de mutualisation pour y accéder alors qu’elles devraient être
systématiquement proposées à chaque topique diffusé. In faudrait par exemple, supprimer
les « fans » de « mon réseau de contacts ».
Celles qui relèvent des métaphores et textes associés au service offert. Entre autres :
changer le terme de « topique » peu intuitif en « thématique », « sujet », « centre
d’intérêt »…, proposer plutôt deux titres différents du type « topiques diffusés » (pour
topiques en provenance d’une liste de diffusion) et « topiques reçus » (pour topiques en
provenance d’un topique public) dans deux espaces différents. Le terme de « topique
reçu » est en effet à lui seul trop réducteur car il ne s’agit pas seulement des topiques
reçus par liste de diffusion mais aussi des topiques reçus parce que l’utilisateur a donné
son accord pour les recevoir depuis la liste de topique public (démarche d’inscription
active).
A partir de ces résultats, une nouvelle version du service permet maintenant :
D’identifier plus clairement les différents espaces (personnels, publics, à diffuser).
D’avoir un graphisme pour différencier les topiques des liens.
De différencier et facilement identifier les couleurs/marques des topiques.
De rajouter une personne dans plusieurs listes de diffusion en même temps.
De pouvoir lire les informations contenues dans un topique public sans avoir à se
l’approprier.
De dater les actions qui concernent l’ajout de liens et de topiques car cet élément
d’information peut être utile pour connaître « l’ancienneté » d’une information.
D’avoir une représentation graphique de ce que sont les « fans » par rapport aux
« favoris » afin de rendre les recommandations plus « visibles ». Ceci est validé
grâce à l’intégration de « stratégies de filtrage d’information » (§3.9.2.3).
D’expliciter plus clairement ce qu’est « marquer lu » ou « à étiqueter ».
De mettre « Diffuser topique » plutôt dans le menu Gestion qu’Édition.
De changer le terme « ajouter au Carnet d’adresse » en « ajouter aux Contacts »
(pour être cohérent avec le portail).
B. Le manque d’awareness. Par « awareness » il faut comprendre : avoir conscience
de ce qu’il se passe. Les utilisateurs ont ensuite été nombreux à évoquer également le manque
d’awareness du service (5/8). A ce sujet, la version actuelle du système inclut :
- Plus des « retour » (feedback) sur les actions effectuées (par exemple, liens déplacés suivi
du texte explicatif), et sur les possibles actions à effectuer (notamment grâce à l’affichage
de réseau personnel de l’usager, voir (§3.8 ; §3.10.4 ; §3.12).
- L’annonce systématique des ajouts de nouveaux liens ou de nouveaux topiques dans les
topiques reçus (avertissement).
- Un historique, une « corbeille des topiques reçus » pour éviter notamment le problème de
suppression définitive des topiques reçus.
- Voir les « fans » ou les « préférés » directement en page d’accueil du service, qui sont
devenus des « possibles contacts » : « Recevoir Plus » et « Diffuser Plus » (§3.10.4).
154
-
Ainsi, une version ultérieure pourrait :
Faire des recommandations au fur et à mesure des actions car l’avantage est de voir alors
directement pourquoi le système recommande un contact (§3.10.4).
Annoncer les nouvelles recommandations dans la page d’accueil.
Permettre de différencier la provenance des topiques dans les « topiques reçus » (par une
liste de diffusion ou par un topique public ou par une dynamique de recommandation du
système).
C. Le manque de régulation. Dans la version d’évaluation il n’était pas possible
d’exprimer des positions vis-à-vis d’un topique pas souhaité de recevoir. Dans la version
actuelle, ceci est possible.
D. La difficulté à réorganiser les informations. Certains utilisateurs ont soulevé le fait
que la structuration et le nommage utilisé par d’autres membres du réseau n’est parfois pas
ceux qu’il souhaite conserver :
-
« J’ai voulu utiliser des pointeurs donnés par une collègue mais le nommage qu’elle utilisait au
niveau des topiques ou des liens ne correspondait pas à ma structuration, j’ai eu du mal à
réorganiser à ma sauce » (enseignante)
Dans le même ordre d’idée, certains souhaiteraient pouvoir commenter un lien avant
de se l’approprier :
-
« Je pense qu’il serait bien de pouvoir annoter avant de s’approprier d’un lien » (enseignante).
D’autres enfin considèrent qu’il serait pertinent à ce niveau de pouvoir « filtrer » la
liste des topiques publics en écartant les topiques jugés non intéressants.
E. Le parcours trop long pour la production d’informations. Une enseignante et deux
étudiants soulignent que la production d’informations (ajout de liens, de topiques) est trop
longue :
-
« ça prend trop de temps pour créer de l’information, c’est plus long qu’avec les bookmarks
traditionnels ».
Nous constatons à partir de ce commentaire, la pauvre publicité que le bookmarklet
(§7.1.3.2) proposé a eu vis à vis des utilisateurs.
F. Le manque de publicité. Un enseignant nous a fait remarquer qu’il a eu de
nombreuses contraintes professionnelles au moment où le service est arrivé dans le portail et
qu’il considère qu’il n’y a pas eu assez d’incitations à découvrir le service. Pour cet
utilisateur, le produit est « trop complexe et ne peut se contenter d’une démo en séance, il
nécessite un petit TP pour les étudiants ». L’avantage de la bookmarklet (§7.1.3.2) par
exemple n’a pas été mis en avant, ce qui néanmoins eût été difficile sachant que cette
fonctionnalité est associée à un poste de travail alors que les étudiants sont contraints de
changer souvent de poste.
G. La population expérimentale trop limitée. Un étudiant considère que le principal
frein à son utilisation est lié au fait que la population de l’expérimentation ait été limitée. Il
aurait aimé sortir de l’Université de Savoie :
-
« J’ai eu envie de partager des liens avec d’autres amis en dehors de l’Université de Savoie, je
me suis senti isolé dans mon utilisation du service, je n’ai pas eu beaucoup d’échanges alors que
c’est ce qui me motivait à la base (…) Il n’y avait pas de masse critique au départ, au lancement
de l’expérimentation, ce qui a freiné l’usage partagé des informations ».
155
Nous ne pouvons effectivement que constater que les tests doivent se faire sur un
réseau plus grand.
H. Le manque d’usage du service par la totalité des participants. Malgré l’usage
important de certains utilisateurs, les résultats sont dilués par le nombre d’utilisateurs qui a
peut participer.
4.1.6
D’autres facteurs à prendre en compte
Le résultat de cette évaluation est fortement influencé par d’autres facteurs non-négligeables,
tels que :
A. Des pratiques de mutualisation préexistantes. Le fait d’être déjà familiarisé ou non
avec la pratique de mutualisation d’informations et de liens semble avoir eu un effet favorable
à l’utilisation (ou la non-utilisation) du service.
-
« C’était déjà courant pour moi de répertorier des liens ; j’ai déjà fait une mauvaise expérience
de perdre mon fichier de bookmarks en réinstallant de nouvelles versions de navigateurs, j’ai
même déjà cherché des outils indépendants des navigateurs et gratuits. Je classe surtout les liens
que je juge « incontournables» » (Étudiant)
Au contraire, le fait de ne pas pratiquer au préalable la mutualisation a eu dans certains
cas une incidence sur le non-usage du service. Une enseignante, faiblement utilisatrice, nous
dit qu’elle n’a « pas d’usage préalable de mutualisation de liens, peu d’usage des favoris, et qu’elle
refait systématiquement ces recherches en interrogeant de nouveau les moteurs».
B. Le rapport avec le portail de l’Université de Savoie. Le fait que le service reprenne
le système de navigation du portail a été plutôt incitatif. Cependant, certains utilisateurs
auraient souhaité plus d’interconnexions entre les espaces de groupe du portail et du service
pour « favoriser la construction collective de connaissances associées un groupe » :
-
« J’aurais aimé pouvoir transférer des liens de mon cartable et mes espaces de groupe vers le
service (pour ne plus avoir usage des bookmarks) » (enseignante)
Paradoxalement, le fait que les utilisateurs soient familiarisés au portail de l’Université
de Savoie a pu être notamment un frein à l’utilisation de certaines fonctionnalités du service.
En effet, plusieurs enseignants ont soulevé le problème de diffusion d’un topique à tout un
groupe d’étudiants organisés et existant par ailleurs dans le portail (par exemple, DESS,
DUT…) :
-
-
-
« C’est trop individualisé dans les listes de diffusion, j’ai eu tendance à continuer à mettre des
références dans les espaces de groupe parce qu’il me manquait la vision filière dans le service »
(enseignante) ;
« J’aurais aimé établir des liens entre les groupes de travail sur le portail et le service, associer
par exemple un sous-topique à un groupe de travail » (enseignante) ;
« Le service est trop individuel et ne prend pas en compte l’organisation, le service est fait pour
des individus » (enseignant).
Il a également été mentionné ici la possibilité d’exporter un topique complet dans
l’atelier d’un groupe structuré dans le portail. Le problème étant à ce niveau de créer les
dossiers et les sous-dossiers correspondants à la structuration des informations dans les
topiques.
156
4.1.7
Conclusion de l’évaluation
Les interprétations effectuées sur la base de ces analyses de trace révèlent que deux
types d'usages bien distincts sont à dissocier :
D'une part les usages relatifs à la partie du système qui permet la construction de
réseaux sociaux.
D'autre part les usages relatifs à la partie du système qui permet de gérer les ressources
reçues dans une nomenclature personnelle, au même titre que les gestionnaires de
favoris des navigateurs Internet.
Il apparaît, au vu des résultats observés, que les usages relatifs à la deuxième
fonctionnalité du système (nomenclature personnelle) ont été peu représentés. Néanmoins,
une prise en compte de la dynamicité du processus d'appropriation des ressources par
l'utilisateur devrait être effectuée. Nous entendons par-là une analyse du cycle de vie d'un
élément (topiques et liens), qui selon leur nature et leur type, ne débute et ne se termine pas au
même moment. Ainsi, l'analyse du processus d'appropriation des topiques publics devrait
commencer par l'action de déplacement de ces topiques vers les topiques reçus, puis continuer
avec l'analyse des liens marqués lus ou supprimés dans la liste des topiques reçus, pour se
terminer par l'analyse des liens indexés dans les topiques personnels de l'utilisateur.
Les résultats décourageants de cette première évaluation sont justifiés par le contexte
dans lequel elle a été développée. Le facteur principal mis en évidence a été la pauvreté des
métaphores dans l’interface, capables d’encourager l’usage. Autre justification, compte tenu
de l’idée validée de que des réseaux sociaux ne peuvent pas être crées artificiellement par la
seule mise en place d'un réseau technique de communication (§2.2.1), est le besoin du temps
d’adoption du système. Nous pouvons également citer le fait qu’une intégration des
fonctionnalités du SoMeONe dans un autre système, doit rester cohérente avec les
fonctionnalités déjà offertes par le système où l’on intègre (§4.1.6 B), c’est à dire, les
compléter ; au cas contraire les usagers auront tendance à utiliser ce qu’ils connaissent déjà.
Aussi, dans ce type de système, une chose à considérer fortement est le fait de ne pas
restreindre la population (§4.1.5 G).
Ainsi, d’après ces résultats, avec le service tel qu’il était évalué, une validation
théorique de l’amélioration de l’engagement et de la motivation, s’avère impossible à valider
par les usages (voir notamment §4.1.4, §4.1.5 et §4.1.6) dans le temps dont nous disposions.
Néanmoins, ces premières analyses ont permis de développer de bonnes pistes pour les
recommandations à réaliser, en vue d'améliorer les fonctionnalités du système qui n'ont pas
été beaucoup utilisées. Par exemple, la mise en place de stratégies de « recherche »
d’information que le service offre aux utilisateurs dans une dernière version ou l’adoption
d’un topique reçu dans une nomenclature personnelle, entre autres.
De cette manière, ces différentes analyses ont apporté des pistes claires qui ont servi
de base pour la deuxième évaluation.
4.2
Deuxième évaluation : Simulations de nos hypothèses
Nous avons utilisé des simulations parce que nous avons identifié de nombreux
facteurs sociaux (voir nos propositions d’indicateurs sociaux dans la section 3.9.2.2), qui
peuvent influencer les dynamiques d’échanges d’information dans un réseau social médiatisé
et donc la qualité du réseau. Mais, avec des utilisateurs réels, l'influence de chaque facteur sur
157
la qualité du media social est difficile à analyser. Nous avons choisi alors, d’évaluer ces
indicateurs avec des simulations (à travers de paramètres). L'avantage important de
simuler est la possibilité de tester diverses stratégies de recommandation pour étudier leur
influence sur l’évolution de la topologie du réseau ;
Il s’agit de montrer que la manière de choisir un contact, appelée stratégie, peut
influencer la qualité du réseau selon les objectifs du système (§3.11).
Rappelez vous que l’objectif du système (et donc de notre approche) est d’appliquer
des critères de qualité pour optimiser la structure d’un réseau social (§3.11).
4.2.1 Objectifs de l’évaluation
Suite à notre étude de l'état de l'art en analyse de réseaux sociaux, nous pensons qu’il
est possible d’influencer la structure d'un réseau social pour optimiser le flux
d’information délivré à ses membres. L’idée est de valider les deux dernières hypothèses de
notre approche [h02;h03] (§3.4) :
[h02] L’utilisation des indicateurs sociaux est importante pour la mise en
relation de personnes. Nous avons construit un ensemble d’indicateurs sociaux
pour appuyer la mise en relation de personnes. Ils vont nous permettre
d’influencer des qualités globales d’efficacité d’un réseau social médiatisé.
[h03] La qualité globale d’un réseau social dépend de sa structure. Avec nos
indicateurs sociaux nous pouvons vérifier des qualités globales d’efficacité d’un
réseau social médiatisé. Ces qualités globales dépendent de sa structure.
Avec notre algorithme SocialRank (§3.9.2) nous allons mesurer les indicateurs sociaux
utiles pour sélectionner les topiques à mettre en relation, et donc les contacts à recommander.
Les indicateurs utilisés dépendent de la stratégie de recommandation choisie. Cette stratégie
permet de contrôler l'évolution de la topologie du réseau et les flux d'informations échangés.
Rappelons que cet algorithme intervient uniquement pour sélectionner les topiques à
mettre en relation avec un topique parmi tous ceux qui ont été préalablement identifiés
comme intéressants pour ce topique ; ces topiques intéressants étant identifiés auparavant par
notre mécanisme de filtrage collaboratif défini dans la section 3.9.1.1.
Une manière d’augmenter un critère de qualité particulier du réseau est de choisir la
stratégie de recommandation de contacts à appliquer pour optimiser ce critère.
Une « entité » semble alors nécessaire pour contrôler la qualité du réseau. Une telle
entité peut être vue :
Soit comme un administrateur du système ;
Soit comme un logiciel dédié (un agent moniteur de l’état du réseau par exemple) ;
Soit comme un opérateur du service de recommandation de contacts.
Nous appellerons cette entité, l’administrateur du réseau social. Son rôle
consiste à faire le monitorage de l’état du réseau et identifier l’état de la topologie du réseau
158
afin de mieux choisir les stratégies de recommandation, en fonction des critères qu'il veut
optimiser et qui influenceront les propositions du recommandeur de contacts.
Le but des simulations effectuées est de montrer l'impact des différentes stratégies
sur ces différents critères. L’idée est de tester les stratégies que le recommandeur de contacts
devra utiliser pour améliorer le critère demandé.
Pour l'optimisation de certains critères, nous avons simulé différentes stratégies selon
différents scénarios de simulation que nous avons imaginé.
Un scénario correspond donc à des hypothèses sur une configuration initiale du réseau
et un comportement typique des utilisateurs simulés. Plus concrètement ces hypothèses
définissent un jeu de paramètres des simulations. Chaque scénario est alors simulé avec
chacune des stratégies de recommandations étudiées.
En choisissant une stratégie de recommandation plutôt qu'un autre, nous voyons ainsi
la possibilité de donner le contrôle du réseau à un administrateur du réseau social. Il s’agit de
savoir quelle stratégie de recommandation utiliser et c’est l’administrateur du réseau qui
décide en fonction de critères qu’il veut optimiser.
Nous avons développé un simulateur pour simuler les scénarios qui vont représenter
les réseaux et stratégies de recommandation à évaluer.
Pour simplifier ces simulations, définir ces scénarios et orienter l'analyse des
simulations effectuées nous avons établies différentes hypothèses.
4.2.2 Hypothèses de simulations
L’ensemble des scénarios que nous simulons prend en compte les considérations
listées ci-dessous :
(CNS-I) La communauté à évaluer est du type « communauté thématique ». En effet,
nous considérons que pour mieux interpréter les analyses des donnés à faire évoluer dans les
simulations, il faut utiliser des « scénarios simples » comme ceux formés par les réseaux du
type réseaux thématiques.
Justification. Pour comprendre cette considération, il faut d’abord répondre aux
questions :
(CNS-Ia) Qu’est-ce que c’est un scénario simple ? Un scénario simple peut être
facilement interprété et va servir de base pour construire des plus complexes. Les
plus complexes suivront alors le même type d’évolutions. Ainsi, leurs analyses, de la
création à l’état final, nous permettent de visualiser et de conclure une logique
d’évolution similaire.
(CNS-Ib) A quel type de réseau appartient un réseau thématique ? Étant donné le
caractère d’intérêt centré sur le même sujet par ses membres, nous parlons de petits
mondes. En effet, nous pensons que les réseaux formés dans notre système suivront
le modèle de « small worlds » tel que Watts et Strogatz le définissent dans (Watts et
Strogatz, 1998), où il est trouvé que la topologie formée par les connections de réseaux
sociaux n’est ni régulière ni aléatoire mais quelque chose au milieu de ces deux cas
extrêmes (Watts, 1999). Ceci en analogie avec le phénomène du petit monde observé il
y 30 ans dans les systèmes sociaux (Milgram, 1967). Ainsi, la topologie de ce type de
159
réseaux permet de considérer le niveau d’efficacité par lequel l’information peut être
échangée à travers tout le réseau.
De ce fait, dans un réseau « idéal146 » les informations doivent pouvoir arriver d’un
membre à un autre, grâce à la topologie du réseau que forment les relations147 entre les
membres. Nous pensons que, quand des personnes sont intéressées par le même type
d’information, il y a sûrement plus de possibilités qu’elles cherchent à se les échanger et donc
la topologie des relations qu’elles forment favorisera le flux d’information, ce qui s’adapte
bien à notre contexte.
(CNS-II) Une topologie « idéale » suit la structure des réseaux petits mondes. Il
s’agit de concevoir des configurations de réseau (des possibles scénarios) qui puissent
permettre la difussion d’information vers tous les membres du réseau.
Justification. La justification est la même que (CNS-Ia), il suffit d’approfondir dans
les travaux de la littérature référencée.
(CNS-III) Une topologie « non-idéale » est celle où on ne privilège pas
l’information originale. Grâce à l’apport d’informations nouvelles (§I-6.1.7.6) dans le
contexte d’intérêt du réseau thématique, de nouveaux échanges peuvent émerger. Dans le cas
contraire, personne ne demandera de recommandations de contacts (car rapidement ils
s’apercevront qu’il y a toujours la même information dans le réseau) et donc les échanges
s’arrêteront.
Justification. Bien entendu, dans un réseau thématique, les membres maintiennent des
informations personnelles pertinentes dans leurs taxonomies. Nous n’analysons pas la
pertinence dans nos simulations. Notre intérêt est centré sur le fait d’introduire des
informations nouvelles, car cela accroît la possibilité d’établir de nouvelles connexions (car la
base de données d’information s’élargit).
4.2.3 Scénario
Un scénario doit permettre la simulation d’un réseau hypothétique ayant certaines
caractéristiques au départ. Les caractéristiques de départ sont définies à travers des paramètres
(§4.2.3.1). Cependant, ce réseau devra évoluer : nous avons alors besoin d’intégrer des
paramètres d’évolution du réseau hypothétique. Ces paramètres prennent en compte la
dynamique d’évolution du réseau social (§4.2.3.2), entre autres, les stratégies d’obtention
d’information des membres, qui sont désormais, dans le cas des simulations, sous le contrôle
de l’administrateur du réseau social.
Dans le cas des simulations, sur les différents tests de scénarios hypothétiques, c’est
l’administrateur du réseau social qui décide la stratégie des utilisateurs. Il s’agit de
tester sur un même réseau, la stratégie la plus adaptée pour optimiser les différents
critères d’efficacité du réseau.
Ainsi, nous faisons évoluer un scénario à travers des paramètres (voir Figure 4-3 et
Figure 4-4).
146
Par « réseau idéal » il faut comprendre celui où la structure de la topologie de relations, permet le
flux d’information vers tous les membres du réseau.
147
Les relations, dans le contexte de notre système, s’établissent quand interviennent des échanges
d’information.
160
Paramètres
b
b
b b
---Définition du
réseau initial
---Définition de la
dynamique
d’évolution du réseau
Scénario hypothétique
d
h
b c
Réseau final après
l’application des
paramètres pour certain
nombre d’itérations
Figure 4-2. Schéma de relation entre les différentes parties importantes d’une
simulation.
Un scénario de simulation représente un réseau social hypothétique à simuler où les
membres échangeront des références grâce aux recommandations de mises en relation
proposées par le recommandeur de contacts du système. Les paramètres de simulation sont
les moyens de définir un scénario, c'est-à-dire, les valeurs des paramètres à appliquer dans la
simulation d’un scénario imaginé. Nous les détaillons dans les deux sections suivantes.
4.2.3.1 Paramètres pour la définition de l’état initial du réseau
Il s’agit de définir les caractéristiques initiales du réseau social à simuler, tel que (voir Figure
4-3) :
Nombre de personnes. Paramètre utilisé pour décider du nombre de membres du réseau
à simuler. Ce nombre reste constant pour chaque scénario.
Nombre de topiques par personne. Ce paramètre permet d’assigner le nombre de
topiques que chaque membre virtuel du réseau gèrera dans sa taxonomie personnelle. Ce
nombre reste constant pour chaque membre. Pour simplifier nos calculs nous n’avons
considéré qu'un topique par utilisateur dans le réseau simulé qui correspond à un extrait
thématique d'un réseau de topiques plus vaste. Ainsi, par la suite, un utilisateur est
représenté par un topique.
Nombre de références par topique. Quantité de références que chaque topique
contiendra.
Pourcentage de connectivité par topique. Détermine le pourcentage de connectivité du
graphe selon la connectivité des topiques, c’est à dire, le nombre de topiques auxquels le
topique peut être connecté. Ce paramètre est très important (I-6.1.7.2), parce que nous
commençons les simulations d’un scénario avec une configuration initiale pour laquelle
centaines personnes échangent déjà des références (à travers leurs topiques).
Ainsi, après la création de membres virtuels, de leurs topiques et des références pour
chacun de ces topiques, il est possible de connaître les topiques qui peuvent se connecter
entre eux (par exemple en y appliquant la première étape de l'algorithme de
recommandations de contacts basé sur du filtrage collaboratif). Ensuite on connecte chaque
topique à un certain pourcentage des topiques « connectables ». Par exemple, pour un
topique ayant 10 topiques connectables (aussi appelés topiques intéressants) avec lesquels
161
il pourrait partager des références, le simulateur les connectera avec 5 de ces topiques, si le
« pourcentage de connectivité par topique » est défini à 50%.
Probabilité de références prises dans un topique. Ce paramètre permet d'initialiser les
échanges de références entre topiques connectés. Lorsqu'un un topique est connecté à un
autre topique on décide de mettre ou non chaque référence de ce topique dans le topique
relié. Cette décision est prise à partir d'un tirage aléatoire entre 0 et 1 et si celui-ci est plus
grand que la valeur donnée à ce paramètre.
Les paramètres utilisés pour créer le réseau à simuler se résument dans la Figure 4-3
ci-dessous. Ils ont été décrits dans (§4.2.3.1).
Figure 4-3. Interface pour saisir les valeurs de paramètres utilisés pour la génération
d'un réseau à simuler. (Remarque : le % de topique publique n'a pas été utilisé)
4.2.3.2 Paramètres pour la dynamique du réseau social
Nous nous intéressons aux paramètres à appliquer aux scénarios pour permettre la
simulation de la dynamique d’échanges d’information dans le réseau (voir Figure 4-4) :
Nombre d’itérations. Nombre de fois que le réseau devra évoluer.
Stratégie de recommandations de contacts. Définition de la stratégie de
recommandation qui correspond aussi à une stratégie d’obtention d’information pour
chaque membre du réseau (§3.9.2.3) .Nous simulons les (4+1) cas suivants :
La stratégie « Réputés » ou « Recherche de Réputés » : Tous les membres du réseau
cherchent à obtenir l’information venant de contacts ayant de l’information qualifiée
d’Experte/Réputée par rapport à leurs propres informations.
La stratégie « Originaux » ou « Aller aux Sources »: Tous les membres du réseau
cherchent à obtenir l’information venant de contacts ayant de l’information qualifiée
d’Originale par rapport à leurs propres informations..
La stratégie « Agrégateurs » ou « Recueillir Tout » : Tous les membres du réseau
cherchent à obtenir l’information venant de contacts ayant le maximum de topiques
comme source d'information.
La stratégie « Hétérogène » : Une stratégie où chaque utilisateur peut choisir une
stratégie différente (CNS-III) et que celle-ci n'est pas imposée de manière globale
par l'administrateur du réseau. Dans ce cas le simulateur choisi de manière aléatoire
lors de la création du réseau, la stratégie que chaque utilisateur va suivre pour toutes
les itérations de la simulation. Ce tirage aléatoire doit cependant respecter des
162
pourcentages de Réputés, d’Originaux et d’Agrégateurs définis dans la section %R,
%O, %A des paramètres pour l’évolution du réseau de la simulation (voir Figure
4-4).
Une autre stratégie est simulée pour avoir un repère de comparaison pour évaluer
l'influence du filtrage de topiques recommandés selon des indicateurs sociaux :
Cette stratégie sélectionne les topiques issus des recommandations du type filtrage
collaboratif : similarité entre les informations des utilisateurs, (§3.9.1.1). Ayant fait
l'hypothèse que le réseau simulé était un réseau de topiques thématiques (CNS-I),
tous connectables, cette stratégie revient à sélectionner aléatoirement les topiques.
Nous l’appelons « stratégie Aléatoire ». Avec cette stratégie, l’utilisateur cherche
à obtenir de l’information venant de possibles contacts, indépendamment du fait
qu’ils peuvent lui apporter de l’information « intéressante »148.
Les 3 premières stratégies correspondent à des simulations où c'est l'administrateur
du système qui impose la stratégie de recommandations. La quatrième correspond au
cas ou les utilisateurs peuvent choisir leur stratégie d'obtention de l'information. La
quatrième stratégie correspond à un non usage de l'algorithme SocialRank.
Probabilité d’accepter une recommandation de recevoir. Probabilité qu'un topique
accepte d'indexer une nouvelle référence d'un topique émetteur. Il s’agit de décider des
références d'un topique reçu qu’un membre acceptera d'indexer.
Pourcentage de liste de topiques recommandés pour diffuser. C'est le pourcentage des
premiers contacts recommandés pour être diffusés qui seront conservés.
Probabilité d’accepter une liste de recommandations. Probabilité qu'un utilisateur
accepte de suivre la recommandation de diffuser son topique à un utilisateur parmi les
topiques recommandés conservés. Il s’agit de calculer les diffusions qu’un membre fait
aux contacts qui lui sont recommandés (selon un pourcentage des premiers listés dans la
liste de recommandations, définit ci-dessous).
Deux autres paramètres ont été introduits pour des futures simulations :
Pourcentage d'acceptation de la liste recommandée (s'inscrire). Ce paramètre a été
introduit pour de futures simulations. C’est le pourcentage des premiers contacts
ayant des topiques publics, listés dans une liste de recommandation. Il s’agit de
s’inscrire dans leurs listes de diffusion publiques. Nos scénarios de simulation
développés ici n’intègrent pas des membres qui déclarent leurs topiques publics,
donc la valeur de ce paramètre sera toujours égale à zéro.
Stratégie du système. Elle n’est pas utilisée dans nos simulations mais a été intégrée
pour définir le critère à optimiser après avoir détecté que l’état de la topologie du
réseau est susceptible de nécessiter un changement de stratégie de recommandation
de contacts. Ceci serait utile si le monitorage de la typologie du réseau était
automatisée.
148
C'est-à-dire, information ayant d’expertise ou de l’originalité ou de la valeur d’agrégation (mais qui
participent dans la dynamique échanges).
163
Les paramètres utilisés pour créer la dynamique d’évolution du réseau à simuler se
résument dans la Figure 4-4 ci-dessous.
Figure 4-4. Interface pour saisir les valeurs de paramètres utilisés pour l’évolution
d'un réseau à simuler. Les stratégies d’obtention d’information peuvent être « obtenir
informations Réputées », « obtenir des informations Originales », « obtenir les Agrégateurs »
ou « stratégie hétérogène ». Dans ce dernier cas, il est possible de définir les pourcentages
pour les trois stratégies à simuler de manière hétérogène.
4.2.3.3 Scénarios retenus
Après avoir fait plusieurs tests sur des nombreux scénarios, nous présentons dans ce
document, l’analyse de simulations de trois scénarios que nous considérons représentatifs :
Scénario A. Représente un réseau de 30 utilisateurs. D’après nos expériences, 30 est le
nombre maximal recommandé de membres dans un réseau social réel pour mieux
permettre la diffusion d’information originale, ces utilisateurs partageant un intérêt
commun et pouvant tous échanger.
Scénario B. Représente un réseau de 40 utilisateurs. Nous avons voulu tester les
mêmes paramètres utilisés sur le scénario A mais avec un nombre supérieur de
membres. Comme ce réseau a plus de membres, nous avons décidé de créer pour
chaque membre une quantité d’information personnelle supérieure à la création du
réseau. En effet, à la création du réseau du scénario A, chaque topique a 2 références.
Dans notre scénario B, chaque topique a 6 références.
Scénario C. Représente un réseau de 40 utilisateurs. Nous avons voulu tester les
mêmes paramètres utilisés sur le scénario A mais avec un nombre supérieur de membres
et les mêmes valeurs de paramètres de création et d’évolution du réseau.
Le détail de construction de nos scénarios se trouve dans la l’Annexe III-8.
4.2.4 Les simulations
Une simulation est l'application de notre algorithme SocialRank avec une ou plusieurs
stratégies de recommandation (qui correspondent pour l'utilisateur à des stratégies
d’obtention de l’information) selon un scénario représentatif d'hypothèses sur le réseau social
à tester.
164
Nous rappelons que l'algorithme SocialRank consiste à choisir les topiques à
recommander de connecter à un autre parmi tous ceux qui sont intéressants pour ce topique, et
qui ne sont pas déjà connectés.
Pour simplifier et surtout accélérer le processus de simulation nous considérons que le
réseau simulé est un extrait d'un réseau d'échanges réels qui ne contient que les topiques
connectables entre eux. Ainsi, tous les topiques peuvent avoir intérêt à des partages de
références. Ce réseau simulé correspond donc à un réseau thématique. Cet extrait doit être
normalement calculé à partir de la première étape de notre algorithme de recommandation de
contact basé sur le filtrage collaboratif.
Notre travail de simulation a nécessité :
La définition d’une base de données pour les topiques des différents utilisateurs
simulés. Il s’agit d’obtenir l’information pour chaque membre du réseau, qui pourra
éventuellement être échangée. Nous utilisons celle de l’annuaire ODP149. Nous prenons
un domaine dans les catégories d’ODP, pour garantir que l’information échangée fait
référence au même sujet. Puis les topiques des utilisateurs seront pris parmi les souscatégories du domaine.
La définition de trois scénarios. Grâce à notre état de l’art, nous pouvons construire des
scénarios qui serviront à tester nos théories par simulations. Nous avons alors assigné
des valeurs aux paramètres pour la construction et l’évolution des réseaux à simuler
(§4.2.2.2.1 et §4.2.2.2.2).
L’analyse des résultats des différentes évaluations. Après chaque simulation d’un
scénario, il faut interpréter les résultats obtenus à partir des évolutions du réseau
correspondant. Les évolutions du scénario sont comparées selon les différentes
stratégies simulées
De cette manière, en fonction de la stratégie de l’administrateur du réseau social et des
résultats selon ces évolutions, nous pourrons analyser la meilleure stratégie d’obtention
d’information pour influencer le calcul des recommandations de contacts.
Les étapes de la simulation sont :
la constitution du réseau initial, détaillée dans les sections 4.2.3.1.1 et 4.2.4.1. Cette
construction nécessite :
la définition d'une taxonomie de topiques ;
une connectivité initiale de ces topiques (§4.2.4.2) ;
un nombre d'itérations qui permettent de simuler la dynamique du réseau, elles seront
détaillées dans la section suivante. Ces itérations sont expliquées dans la section
4.2.4.3).
Rappelons q'un même réseau initial est utilisé pour autant de simulation qu'il y a de stratégie.
4.2.4.1 Base de données pour les taxonomies de topiques du réseau initial
Pour la génération du réseau initial d’un scénario à tester il faut construire la
taxonomie personnelle (les topiques) de chaque membre du réseau. Après, il faut définir des
références (pointant vers des URIs) pour chaque élément des taxonomies personnelles. Pour
149
http://www.dmoz.fr/
165
ce faire, nous utilisons l’annuaire ODP. Notre idée est d’utiliser des liens réels. Il s’agit
d’exploiter éventuellement la structure de catégories et sous-catégories qu’il présente. Nous
utilisons cet annuaire pour deux raisons :
(CO-I) La première, la moins complexe, est mise en œuvre pour obtenir de vrais
noms de topiques et pour obtenir des vrais liens sur le Web. Ici il s’agit que de bootstraper150
les données utilisées dans les échanges d’information. L’idée est simple, nous générons des
scénarios avec des références pointant vers des liens pertinents car ils appartiennent à une
catégorie de l’annuaire. Nous exploitons cette situation dans nos simulations, car il s’agit
toujours de tester des scénarios de communautés thématiques.
(CO-II) La deuxième, plus complexe151 (développé mais non réalisé dans le cadre
de cette thèse), afin de valider la pertinence des recommandations en analysant les liens
échangés dans le réseau. Cela nécessite que le système cherche dans les catégories d’ODP à
partir du nombre de personnes à simuler et des topiques pour chacune d’entre elles. L’idée est
d’obtenir la quantité nécessaire d’information pour le scénario choisi et garantir que
l’information échangée sera pertinente sur un sujet donné (pour plus de détails sur ce cas, voir
l’Annexe V-10).
Ainsi, dans les deux cas décrits au début (CO-I et CO-II), la source d’information se
trouve initialement dans les catégories d’ODP correspondantes.
Donc, pour définir les topiques du réseau initial le simulateur effectue les tâches suivantes :
Il construit en premier, le fichier contenant l’ensemble de catégories ODP et leurs URIs
correspondant avec lesquelles le scénario va se construire ;
Il crée les membres ;
Il crée les topiques de chacun des membres ;
Des références différentes sont créées pour chacun des topiques ;
A ce point, le simulateur a déjà calculé toutes les connexions possibles, et il ne lui reste
qu’à établir l’échange de références entre les topiques qui seront connectés152 :
connexion initiale de topiques selon le « pourcentage de connectivité » saisi.
4.2.4.2
Connectivité du réseau initial
Comme nous l’avions déjà constaté, des réseaux sociaux doivent nécessairement
préexister aux réseaux techniques (§2.2.1 et §4.1.3.3), en conséquence, dans nos simulations,
il doit y avoir des membres ayant déjà échangé des références à travers leurs topiques. Mais
quels topiques échangeront des références ? Ce choix n’est pas aléatoire, il y a des règles qui
permettent de décider les topiques qui peuvent s’échanger des références.
150
Anglicisme utilisé comme synonyme d’amorçage de données. Du point de vue technique, il s’agit
d’une suite d'instructions qui entraîne le chargement d'autres instructions, jusqu'à ce qu'un programme complet
soit chargé en mémoire.
151
Nous n’avons pas simulé des scénarios appartenant à cette situation plus complexe mais nous avons
testé quelques réseaux, cependant, il a été codé en prévoyant des futures simulations.
152
Les topiques qui seront connectés sont les topiques qui échangeront des références.
166
De ce fait, dans le cas où il ne faut que choisir des topiques qui peuvent s’échanger des
références à la création du réseau initial pour un scénario donné, les seules règles à suivre sont
celles du concept de connectivité entre topiques.
Pour définir la connexion entre topique le simulateur effectue les tâches suivantes :
Pour chaque topique envoyeur, le simulateur gère une liste de topiques récepteurs.
L’originalité de l’information qu’il contient vis-à-vis d’autres membres du réseau est
également calculée. La connexion initiale sera alors établie entre un topique envoyeur et un
topique récepteur choisi de manière aléatoire dans la liste de topiques récepteurs possibles
correspondante, sans dépasser le « pourcentage de connectivité » et selon la valeur
d’originalité de l’information du topique envoyeur. Ces calculs cherchent à privilégier les
membres qui ont des informations avec une faible valeur d’originalité.
Par la suite, un topique récepteur indexera les références (au moins une) d’un topique
envoyeur selon la « probabilité de références prises dans un topique » qui est considérée
comme la probabilité d’acceptation d’indexer une référence reçue. Cependant, pour les
simulations de scénarios présentées ici, cette « probabilité d’acceptation d’indexer une
référence reçue » est fixe selon une évaluation de la valeur de réputation d’un topique. Cette
évaluation consiste à reconnaître la part de réputation de l’information du topique récepteur
vis-à-vis d’autres membres du réseau. Cette évaluation cherche à imiter le comportement des
utilisateurs cherchant à recueillir le plus d’informations [h03].
Les décisions de mises en relation de topiques deviennent plus complexes pendant le
processus itératif d’une simulation, où se calculent des recommandations. A chaque itération,
de nouveaux échanges sont susceptibles de se mettre en place. Dans ce cas, les taxonomies
des utilisateurs sont peuplées selon :
Le concept de connectivité entre topiques. Il s’agit de valider si deux topiques sont
« connectables » parce que les informations qu’ils contiennent sont similaires. Dans ce
cas, le recommandeur propose des contacts à qui diffuser. L’indexation de références
entre topiques peut alors avoir lieu. Nous formalisons ce concept dans l’Annexe I-6,
section §I-6.1.7.2.
Les topiques connectables sont sélectionnés grâce à la Définition I-10 de l’Annexe
I-6, section I-6.1.7.2 qui explique qu’un topique e est « connectable » au
topique f si et seulement si les deux, e et f sont assignés à la même catégorie de
l’annuaire de référence (ODP pour les simulations) ou si e est assigné à une souscatégorie de la catégorie assignée à f. Cependant, puisque notre réseau est thématique,
tous sont connectables.
Ce concept de connectable sera utilisé dans de futures simulations pour évaluer la
pertinence de l'échange de références. Dans les simulations effectuées dans le cadre
de cette thèse nous n'avons pas utilisé ce concept car nous considérons que le réseau
simulé est un réseau thématique extrait d'un réseau plus vaste et qui est donc
composées que de topiques connectables entre eux.
Le concept de nouveauté de l’information. Une information est dite « nouvelle » si elle
n'est pas obtenue à partir d'un topique d'un autre utilisateur. Dans ce cas, les topiques
injectent des nouvelles informations dans le réseau, en indexant des références vers des
URIs qui ne sont pas pointés par d’autres références dans le réseau. Pour les
simulations, ces nouvelles URIs sont prises d’ODP, tout en vérifiant que d’autres
topiques dans le réseau ne pointent pas vers elles. Nous formalisons ce concept dans
l’Annexe I-6, section §I-6.1.6.1.
167
Une information est dite « nouvelle » si elle est la seule à pointer sur l’URI
correspondante (§ I-6.1.6.1).
Un topique qui a des informations nouvelles est dit original (§ I-6.1.7.1).
4.2.4.3 Vision globale d'une itération
Une itération est une répétition d'une séquence de recommandations de contacts et
d’échanges, un nombre de fois fixé à l'avance. Les itérations permettent aboutir à un état final
du réseau social simulé.
Un même réseau initial peut être utilisé pour plusieurs simulations afin de lui
appliquer différentes stratégies de recommandation et de comparer les différentes évolutions
du réseau social selon la stratégie appliquée.
A chaque itération, plusieurs étapes sont effectuées :
Injection de nouvelles références. A chaque itération, il faut injecter de nouvelles
références dans chaque topique [po04;p03]. Elles peuvent provenir de la base de
données correspondante (les URIS dans la catégorie ODP associée au topique) ou d’un
topique reçu.
Suivi de recommandations. Chacun des membres devra suivre ou pas des
recommandations. Les décisions de suivi d’une recommandation dépendent des
paramètres saisis pour la dynamique d’échanges (Figure 4-4). A cette étape a lieu une
dynamique d’échanges pour l’itération en cours.
Construire des recommandations. A la fin de la dynamique d’échanges d’une itération,
il faut recalculer nos indicateurs sociaux pour construire de nouvelles recommandations
pour la prochaine itération. C’est l’étape du calcul de topiques intéressants. Il s’agit de
construire les recommandations de contacts pour chacun des membres en tenant
compte de la stratégie d’obtention d’information définie. Nous détaillons ce calcul dans
la section 3.9.2.5.
Il y a deux cas importants à considérer pour ce calcul de recommandation de contacts
selon que l’on soit à la première ou à la dernière itération à simuler.
Le premier cas arrive à la première itération. En effet, à cette itération il n’a pas encore
eu de dynamique d’échanges, il y pre-existe seulement un réseau social avec une
configuration initiale avec éventuellement des contacts qui s'échangent déjà des
références. Alors, juste après l’injection de nouvelles références, le simulateur calcule
les topiques intéressants et ainsi il peut compter sur la possibilité d’établir la dynamique
d’échanges correspondante à cette première itération. Puis, la séquence d’étapes dit
qu’avant une prochaine itération il faut recalculer les topiques intéressants pour
l’itération suivante.
Le deuxième cas arrive à la dernière itération, il n'y a pas besoin de calculer de
nouvelles recommandations.
Enregistrement des indicateurs pour affichages ultérieurs. Il s’agit de garder trace des
calculs des topiques intéressants, des valeurs de nos indicateurs sociaux, et des critères
de qualité qui seront utiles pour faire les analyses des simulations.
Après que les itérations se terminent (achèvement de l’évolution du réseau social ou
dynamique d’échanges d’informations), nous avons analysé l'évolution des critères de qualité
du réseau au cours de la simulation. Nous vérifions l'influence de la stratégie de
168
recommandation simulée sur ces critères de qualité. Pour tester différentes hypothèses sur ces
influences nous avons défini les modes d'évaluations des simulations153 présentés dans la
sections 4.2.3 et 4.2.4.
Afin de bien comprendre les simulations effectuées nous détaillons dans les sections
3.9.2.5 et 3.9.2.6, les étapes de la simulation correspondant aux calculs implémentés des
recommandations
4.2.5 Méthode d’évaluation
Nos critères (§3.11) permettent à l’administrateur du réseau social de suivre trois
stratégies que nous avons décidé de simuler. Nous les appelons stratégies de l’administrateur
du réseau social :
Augmenter la vitesse de diffusion d’information. Il s’agit de vérifier que l’information
qui rentre dans le réseau arrive rapidement aux membres. Nous constatons que ceci
n’est pas facile car une nouvelle information doit être lue et indexée par un utilisateur
qui la reçoit pour quelle soit diffusée à d'autres utilisateurs. Cette vitesse dépend donc
du nombre de topiques avec lesquels cette information doit être indexée pour pouvoir
être indexée par un autre (c'est-à-dire du nombre de personnes qui doivent l'indexer
puisqu'il y a un topique par utilisateur dans nos réseaux simulés). Dans le contexte de
nos scénarios, notre indicateur de vitesse est évaluée à partir d'une mesure de réactivité
d'un topique à une information nouvelle NR(te). Elle dépend de la distance de ce topique
à d'autres, pondérée par l'originalité de ces autres topiques. Elle est calculée selon la
Définition I-18 de l’Annexe I-6 :
NR (te ) =
1
* O(t f )
t f ∈DFE ( t e ) D (t f , te )
∑
∑ O( f )
t f ∈DFE ( t e )
DFE(te)∈T, est l’ensemble de topiques tel qu’il existe un chemin de tf vers te
: ∀te∈T, ∃ tf | D(tf, te)>0.
Elle est obtenue grâce à notre mesure de l’originalité (§I-6.1.7.1), introduite dans
la section 3.9.2.2, équation (8), à travers le vecteur Original (Définition I-9,
Annexe I-6) :
1
1
Original (ti ) =
*
∑
∑ Original (t j ) ri ∈IR(ti ) ∧ ri .lri ATL(lri )
t j ∈T
IR(ti) ⊆ R est l'ensemble références indexées avec ti (§I-1.k)
ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri
et pointé par ri | ri ∈ RU(lri) ⊆ R ( §I-1.j.a ; §I-1.i)
ri.li selon (§I-1.h) : une référence ri a un lien lri assigné, etc.
∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri)
153
Le détaille de construction de nos scénarios se trouve dans la l’Annexe III.
169
Notez que de la Définition I-9 (I-1.h.b) nous disons qu’un lien lk peut être pointé par
différentes références, c'est à dire qu'une ou plusieurs références peuvent exister dans
le réseau sur un lien indépendamment de ses propriétaires.
D'une manière plus globale nous évaluerons la qualité d'un réseau suivant ce critère en
étudiant la moyenne de la mesure NR(ti) sur l'ensemble des topiques.
Minimiser les gourous. Il s’agit de vérifier que les utilisateurs réputés ne deviennent
pas « incontournables » pour contrôler le flux d’information. Alors nous faisons un
monitorage du degré de réputation de chaque topique de chaque membre du réseau
social (§I-6.1.7.3) avec une mesure simplifiée de RD(ti) utilisée uniquement dans
le cas des simulations :
g
RD(ti ) =
g
∑m
j =1
ji
∑m
j =1
ji
T −1
correspond au degré de sortie ti vers des topiques tj tels que : ∀ti∈T, ∃tj
|W(tj,ti)>0
RD(ti) correspond donc au pourcentage de ce degré de sortie par rapport à un
graphe totalement connecté. Un gourou étant alors identifié comme le propriétaire d'un
topique ti tel que RD(ti) est grand par rapport aux autres. Pour évaluer cela nous
étudierons donc l'écart type de cette mesure sur tous les topiques.
Optimiser l’efficacité du réseau. Il s’agit de vérifier l’état de la topologie du réseau,
c'est-à-dire, si elle permet le flux d’information vers tous ses membres. Nous calculons
l’efficacité locale Efficacity(ti) (§I-6.1.7.8, Définition I-21) pour le calcul de la
diffusion d'un topique aux membres du réseau telle qu’il existe au moins un lien vers
eux et en tenant compte du coût d’établir un tel lien :
locEff (ti )
Efficacity (ti ) =
Cost (ti )
Une fois définies ces stratégies de l’administrateur du réseau social, nous les testons
sur des scénarios.
De cette façon, la méthode d’évaluation est en fonction des critères à optimiser
(§3.9.2 et §3.11, Tableau 3.12) que l’administrateur du réseau social choisi (sa stratégie). Il
s’agit de valider quand une stratégie est meilleure que les autres pour un critère de qualité. Il
faut noter que dans toutes nos analyses, le scénario A est le réseau le plus proche des réseaux
réels car il compte le nombre maximal (ou adéquat154) de membres dans un réseau social par
rapport à notre contexte de simulation (les réseaux thématiques).
4.2.6 Limites des simulations
Avec l’évaluation des scénarios mis en place :
Nous voulons prouver que :
154
Voir le blog de Dave Douglas : http://radio.weblogs.com/0111105/2004/01/26.html
170
Le fait de recommander certains contacts plutôt que d’autres augmente l’efficacité
de diffusion de l’information.
Il est possible d’influencer la topologie du réseau pour que la vitesse de diffusion
d’information augmente.
Nous ne mesurons pas :
La qualité de l’information. Nous avons choisi de tester des scénarios représentant
des réseaux sociaux du type thématique (§4.2.2, considération CNS-I) où tous les
topiques ont de l'information pertinente pour chacun de manière égale.
Nos simulations visent l’analyse des réseaux où l’information échangée porte sur un
même domaine ou même sujet ou même intérêt : un réseau thématique.
Le silence. Nous considérons le silence comme le fait de ne pas suivre les
recommandations du recommandeur.
4.2.7 Analyse des simulations
Dans ces sections nous présentons l’analyse de nos simulations selon nos évaluations
des critères : de vitesse de diffusion d’informations nouvelles, de l’impact de contacts
gourous, du coût des mises en relation et de l’efficacité globale du réseau.
4.2.7.1 Étude de la vitesse de diffusion d’informations nouvelles
Considérant qu’il faut « privilégier l’information originale » (CNS-III), nous avons
décidé de mesurer la vitesse de difussion des nouvelles informations dans un réseau. Il s’agit
de valider si les nouveautés sont indexées le plus rapidement possible. Pour le faire, nous
utilisons la mesure de « réactivité à l’information nouvelle » (§I-6.1.7.6).
Nous calculons la moyenne pour les différentes stratégies d’obtention d’information
(4+1) dans les scénarios A, B et C (Annexe III-8) et nous obtenons les résultats montrés
dans les graphes ci-après.
171
Originels
Agrégateurs
Originels
Agrégateurs
Originels
Agrégateurs
Figure 4-5. Graphes des trois scénarios de simulation représentant les moyennes des
valeurs de réactivité à l’information nouvelle, si la stratégie de l’administrateur du réseau
social cherche à augmenter l’efficacité de diffusion d’information. Les abscisses indiquent le
nombre d’itérations et les ordonnées la valeur de réactivité à l’information nouvelle.
Dans la Figure 4-5 nous pouvons constater que si le critère à optimiser est
l’efficacité de diffusion de l’information nouvelle, il faut que la recommandation de contacts
ayant de l’information qualifiée d’originale soit favorisée.
Le scénario A le montre parfaitement car la courbe de la stratégie des originaux est
supérieure à toutes les autres. Même dans le scénario B et dans le scénario C, nous voyons
que le fait de suivre cette stratégie favorise la réactivité à l’information nouvelle.
Ces résultats sont également validés avec les données montrées sur la Figure 4-6 qui
montre la comparaison de gains des valeurs de la stratégie d’obtention d’information nouvelle
par rapport à la stratégie de « Tirage Aléatoire ». En effet, nous pouvons vérifier sur la
Figure 4-5 que la stratégie de « Tirage Aléatoire » a une bonne courbe de réactivité à
l’information nouvelle. Mais cela ne doit pas être interprété comme une stratégie importante,
d’autres analyses doivent êtres conçues pour le confirmer. D’ailleurs, nous verrons plus loin
que l’efficacité de cette stratégie est certainement très faible (§4.2.7.3), ce qui confirme la
nécessité d’appliquer des analyses sociales dans les systèmes de recommandation dans le
contexte de notre approche.
172
Dans la Figure 4-6, le gain des originaux dans le scénario A représente 15% sur la
stratégie de « Tirage Aléatoire ». Notez que ce le scénario A représente le cas plus adapté aux
réseaux sociaux réels. Ce résultat confirme alors l’importance d’injecter de nouvelles
informations pour que le réseau évolue.
Le gain des originaux dans le scénario B n’est perceptible que dans les premières
évolutions. Ceci peut s’interpréter comme un problème de trop d’information originale. Le
recommandeur de contacts a trop de contacts ayant de l’information originale. Cette situation
montre que trop d’injection d’informations nouvelles est un facteur qui détériore la topologie
du réseau !
Gains des valeurs originaux sur les valeurs de la
stratégie Tirage Aléatoire (Scénario A)
Gains des valeurs originaux sur les valeurs de la
stratégie Tirage Aléatoire (Scénario B)
Originaux
Originaux
Gains des valeurs originaux sur les valeurs de la stratégie
Tirage Aléatoire (Scénario C)
Originaux
Figure 4-6. Comparaison de gains des valeurs de la stratégie d’obtention
d’informations originales par rapport à la stratégie de Tirage Aléatoire et Hétérogènes. Les
abscisses indiquent le nombre d’itérations et les ordonnées la valeur de la stratégie
d’obtention d’informations originales.
Pour le scénario C il n’y a pas de gains. Nous proposons l’explication suivante : dans
ce scénario, les utilisateurs étant nombreux, ils n’ont pas eu assez d’information originale à la
création du réseau. Alors il n’y a pas suffisamment de recommandations possibles.
Les graphes d’écart type des valeurs d’originalité confirment notre analyse par rapport
à l’importance de recommander des contacts ayant de l’information originale (§4.2.6.1) parce
qu’elle augmente la vitesse de diffusion d’information.
173
Figure 4-7. Comparaison des écarts types sur les valeurs d'originalité pour les
stratégies des utilisateurs pour nos trois scénarios testés. Les abscisses indiquent le nombre
d’itérations et les ordonnées le valeur des écartype des originalités.
Cependant, le fait de favoriser la recommandation de contacts « originaux » a un
impact sur l’efficacité du réseau. Son coût est plus élevé que celui des autres stratégies (sauf
les stratégies des « Réputés » et de « Tirage Aléatoire » qui sont les plus coûteuses).
Cet impact sur le coût est logique. Imaginons des personnes ajoutant toujours de
l’information nouvelle. Même si cette information est considérée intéressante pour les autres
membres du réseau, le fait de vouloir être reconnu comme un contact source d’informations
nouvelles peut se traduire comme un moyen de contrôler le flux d’information car les autres
dépendront de ces « sources » d’informations nouvelles ou « gourous en information
nouvelle » pour l’obtenir. Nos indicateurs sont capables de détecter ceci et cela est donc
reflété sur le coût. Nous détaillons cet impact possible dans la section d’analyse de l’efficacité
du réseau (§4.2.7.3).
4.2.7.2 Étude de l’impact de contacts « gourous »
Pour analyser l’impact de l’existence de contacts « gourous » (§3.9.2 ; §3.11) sur un
réseau social, nous utilisons la mesure de « réputation » (§I-6.1.7.3.1). Ainsi, nous
obtenons les écart type de cette mesure de réputation par rapport aux différentes stratégies
174
d’obtention d’information (4+1) dans nos trois scénarios (Annexe III-8). Les résultats
sont montrés dans les graphes de la Figure 4-8.
Il est à noter que la réputation utilisée dans nos simulations est celle du degré RD(ti)
(§I-6.1.7.3.1), parce qu’elle s’adapte parfaitement à notre contexte. Cette
décision est fortement influencée par le temps de réponse rapide du calcul de RD(ti).
La réputation dans le système réel est calculé avec notre algorithme RankReputation
(§I-6.1.7.4).
Figure 4-8. Graphes des trois scénarios de simulation représentant les écart type des
valeurs de réputation, pour l’analyse de l’impact des contacts « gourous ». Les abscisses
indiquent le nombre d’itérations et les ordonnées la valeur des écartypes des valeurs de
réputation.
Nous nous intéressons à vérifier que l’écart type de la réputation est minimal. De cette
façon, nous pouvons constater que si l’administrateur du réseau social cherche à minimiser
l’impact des membres « gourous » :
il faudra favoriser la recommandation de contacts « Agrégateurs » ou
il faudra exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des
recommandations selon la « stratégie Tirage Aléatoire ».
175
Cependant, nous constatons qu’il est préférable de favoriser les recommandations de
contacts Agrégateurs sur celles des contacts avec la stratégie de « Tirage Aléatoire », si l’on
veut que la diffusion d’information nouvelle soit rapide et efficace (voir Figure 4-7 et
Figure 4-9).
Ce constat valide l’importance de l’intégration des analyses sociales (nos algorithmes
SocialRank) par rapport aux recommandations typiques des systèmes de filtrage collaboratif.
Si l’on veut que la diffusion d’information nouvelle soit rapide et efficace, il est
préférable de favoriser la recommandation de contacts Agrégateurs sur celle des
contacts utilisant la stratégie de « Tirage Aléatoire ».
Un résultat intéressant est le fait de constater l’augmentation de contacts gourous si
l’on recommande des contacts réputés : les réputés deviennent plus réputés encore ! Voir la
Figure 4-8 d’écart type de la réputation.
Attention, nous pouvons également vérifier que le même phénomène arrive si l’on ne
recommande que des contacts ayant de l’information originale ! Les originaux deviennent
plus originaux, voir la Figure 4-7 d’écart type de l’originalité.
4.2.7.3 Étude de l’efficacité du réseau
Un résultat très intéressant est l’analyse de l’efficacité du réseau. Nous mesurons
l’efficacité pour valider si l’information se diffuse facilement dans un réseau, c’est à dire,
pour vérifier que la topologie que forment les relations permet le flux d’information vers tous
les membres et que cela n’est pas coûteux. L’idée est de tenir compte également du fait
d’établir de nouvelles relations pour vérifier si cela est plus coûteux que d’utiliser les relations
existantes.
Nous pouvons comparer les résultats antérieurement décrits avec ceux montrées sur la
Figure 4-9 qui met en évidence :
La bonne efficacité de la stratégie « Agrégateurs ». De la Figure 4-9 nous pouvons
voir que son efficacité est nettement supérieure à celle issue des recommandations par
« Tirage Aléatoire », ceci signifie qu’avec notre approche nous avons bien proposé une
stratégie de recommandation de contacts qui améliore l’efficacité du réseau par rapport
aux algorithmes traditionnels de filtrage collaboratif d’informations.
La grande efficacité des stratégies « Hétérogènes ». En effet, plus les utilisateurs
développent des stratégies de recherche d’information hétérogènes, plus les distances
maximales entre eux155 diminuent. Ce constat est très important parce qu’il nous permet
de résoudre par exemple le problème du passager clandestin (Jin et al., 2001), parce que
les nœuds (utilisateurs) sont mieux interconnectés. Ceci montre bien que l’efficacité du
réseau augmente quand le nombre d’utilisateurs augment car on risque moins d’avoir la
même stratégie pour tous.
L’efficacité du réseau augmente avec le nombre d’utilisateurs car on risque moins
d’avoir la même stratégie pour tous.
155
Nœuds du réseau = utilisateurs.
176
La faible efficacité de la stratégie « Tirage Aléatoire ». Même si dans les graphiques
montrés antérieurement (voir Figure 4-5, Figure 4-6 et Figure 4-8) nous avons
pu constater que cette stratégie peut produire des résultats intéressants, la courbe
d’efficacité du réseau social souffre d’une chute pour cette stratégie. Ceci s’explique par
le fait que les recommandations construites avec elle prennent en compte des contacts
choisis de manière aléatoire, c’est à dire que le recommandeur trouve toujours un
contact à recommander (à chaque fois, on peut compter avec un contact à
recommander). Nos stratégies sociales doivent cibler les contacts adaptés à une stratégie
désirée. Donc, effectivement, il y aura moins de choix de contacts possibles à
recommander. En effet, avec nos stratégies sociales nous avons peu de contacts à
recommander mais des contacts plus adaptés aux besoins des utilisateurs, même si cela
peut être plus coûteux dans certains cas.
Figure 4-9. Graphes des trois scénarios de simulation représentant l’efficacité du
réseau, si la stratégie de l’administrateur du réseau social cherche à augmenter l’efficacité
177
de diffusion d’informations nouvelles. Les abscisses indiquent le nombre d’itérations et les
ordonnées la valeur d’efficacité du réseau.
Nos résultats confirment donc qu’il est nécessaire qu’une dynamique sociale existe,
intégrant de la régulation et de la recommandation de contacts selon des stratégies bien
définies.
Analysons le scénario A. A partir de la Figure 4-9, nous pouvons comparer les
valeurs correspondantes aux stratégies simulées d’obtention d’information. Toutes les
stratégies ont une efficacité supérieure à celle de la stratégie de « Tirage Aléatoire ». La
stratégie d’« Agrégation » est la meilleure en efficacité, juste après celle des stratégies
« Hétérogènes ». La simulation où le recommandeur de contacts favorise les propriétaires de
topiques gérant de l’information nouvelle voit augmenter l’efficacité de la topologie de leur
réseau de contacts par rapport à celle qui favorise les contacts réputés. Même si le coût d’un
tel réseau est relativement cher, nous montrons qu’il est globalement inférieur à celui d’un
réseau qui préfère les recommandations de contacts ayant de l’information réputée (voir
Figure 4-10).
2.347739915
2.5
2.007773953
1.876578268
2
1.814451313
1.755565964
1.5
1
0.611022088
0.601714146
0.619355224
0.584228251
0.364827586
0.373716475
0.5
0.554945112
0.391340996
0.313793103
0.263065134
REPUTATION
ORIGINALITE
AGREGATION
T-ALEATOIRE
COUT
EFFICACITE
LOC EFF
COUT
EFFICACITE
LOC EFF
COUT
EFFICACITE
LOC EFF
COUT
EFFICACITE
LOC EFF
COUT
EFFICACITE
LOC EFF
0
T-HETEROGENE
Figure 4-10. Scénario A avec les valeurs des stratégies simulées d’obtention
d’information (comparatif des valeurs des indicateurs d’efficacité locale (LOC EFF),
d’efficacité (EFFICACITE) et de coût (COUT)). Les ordonnées indiquent les valeurs des
stratégies simulées.
La simulation où le recommandeur de contacts favorise les propriétaires de topiques
Agrégateurs montre que le fait d’échanger avec ceux qui agrègent de l’information favorise
la vitesse de diffusion d’information (le coût est plus faible).
La simulation où le recommandeur de contacts favorise les propriétaires de topiques
gérant de l’information réputée est très coûteuse et la performance de ses efficacités n’est pas
assez importante si on la compare avec celle ayant favorisé des recommandations de contacts
originaux.
178
Également, ce scénario nous permet de mettre en évidence l’importance d’injecter des
informations nouvelles. Nous avons donc analysé les pourcentages nécessaires de topiques
originaux dans le réseau social.
Nous nous sommes rendus compte qu’avec 30 utilisateurs, le nombre maximal de
membres pour mieux permettre la diffusion d’information originale (§4.2.5), serait environ de
43.3% de topiques avec une valeur importante d’originalité, afin d’atteindre des efficacités
avantageuses à coûts acceptables.
Il faut autour de 43.3% de topiques avec une valeur importante d’originalité dans un
réseau social avec le nombre maximal de membres pour mieux fonctionner si l’on
veut une l’efficacité du réseau adéquat.
Analysons maintenant le scénario B (Figure 4-11). La simulation où le
recommandeur de contacts favorise les propriétaires de topiques gérant de l’information
originale baisse légèrement sa valeur d’efficacité par rapport au scénario A. Cette baisse est
justifiée parce que le pourcentage de topiques originaux est trop élevé (autour de 50%). Ceci
signifie que le recommandeur n’a que des topiques originaux à recommander et donc les
recommandations ne sont pas précises : il recommande toujours des propriétaires de topiques
originaux !
Avoir une surcharge de topiques (>50%) avec une valeur importante d’originalité,
abaisse l’efficacité du réseau.
Cependant, la stratégie favorisant l’injection des informations nouvelles reste plus
efficace que celle ne favorisant que les contacts réputés.
La simulation où le recommandeur de contacts favorise les propriétaires de topiques
Agrégateurs est nettement supérieure aux recommandations des contacts ayant de
l’information originale ou réputée. Ceci met en évidence l’importance de cette stratégie et
valide notre idée que ce ne sont pas les contacts réputés qu’il faut recommander.
De cette façon, nous constatons que la simulation où le recommandeur de contacts
favorise les propriétaires de topiques gérant de l’information réputée est très coûteuse et peu
efficace si l’on compare avec les autres stratégies.
179
2.38078087
2.5
2.00689395
2
1.812276249
1.809283733
1.698570247
1.5
1
0.606407453
0.607663378
0.369102564
0.5
0.621540804
0.586500962
0.357307692
0.309059829
0.555314782
0.388376068
0.251324786
REPUTATION
ORIGINALITE
AGREGATION
T-ALEATOIRE
COUT
EFFICACITE
EFF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
0
T-HETEROGENE
Figure 4-11. Scénario B avec les valeurs des stratégies d’obtention d’informations
simulées (comparatif des valeurs des indicateurs d’efficacité locale, d’efficacité et de coût).
Les ordonnées indiquent les valeurs des stratégies simulées.
Analysons maintenant le scénario C (Figure 4-12). Les valeurs d’efficacité sont
relativement inférieures par rapport aux autres simulations. Le pourcentage de topiques
originaux est trop inférieur (autour de 35%) et donc ses valeurs d’efficacité chutent. Ce qui
arrive est que le recommandeur a peu de topiques originaux à recommander et donc les
recommandations ne sont pas précises : il ne peut pas recommander des propriétaires de
topiques originaux.
Avoir une sous-charge de topiques (<35%) avec une valeur importante d’originalité,
abaisse l’efficacité du réseau.
180
3
2.604217607
2.5
2.064444468
1.993171328
2
1.950630368
1.672114361
1.5
1
0.606766781
0.591885771
0.369808429
0.5
0.626250025
0.585891965
0.334176245
0.322375479
0.525931401
0.407586207
0.24137931
REPUTATION
ORIGINALITE
AGREGATION
T-ALEATOIRE
COUT
EFFICACITE
EFF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
COUT
EFFICACITE
EF-LOC
0
T-HETEROGENE
Figure 4-12. Scénario C avec les valeurs des stratégies d’obtention d’information
simulées (comparatif des valeurs des indicateurs d’efficacité locale, d’efficacité et coût). Les
ordonnées indiquent les valeurs des stratégies simulées.
La simulation où le recommandeur de contacts favorise les propriétaires de topiques
gérant de l’information réputée a une efficacité importante, mais cette stratégie coûte très
cher par rapport aux autres (sauf pour le cas des stratégies « Hétérogènes »). Ceci confirme
notre constat sur l’efficacité du réseau qui augmente quand le nombre d’utilisateurs augment
car on risque moins d’avoir la même stratégie pour tous.
De cette manière, nous pouvons conclure qu’un réseau n’ayant suivi que des
recommandations de contacts réputés est très coûteux et pas suffisamment efficace si l’on
compare avec un réseau n’ayant suivi que des recommandations de contacts originaux (leurs
valeurs d’efficacité sont proches).
Les valeurs des stratégies de « Tirage Aléatoire » et des stratégies « Hétérogènes » ne
font que valider nos idées :
Les recommandations issues de notre algorithme de filtrage collaboratif ont besoin de
l’intégration de critères qui prennent en compte le caractère social du réseau. C’est le
cas de la stratégie de « Tirage Aléatoire ». Cette affirmation est validée par le coût
qu’une telle stratégie représente, même si l’efficacité du réseau pourrait s’avérer
optimiste.
Proposer un système qui n’impose pas une dynamique d’échanges d’information fait
qu’il ne survivra pas. Il est nécessaire de valider que les échanges entre les membres du
réseau favorise la structure de la topologie du réseau. C’est la tâche de l’administrateur
du réseau social.
181
L’intervention d’un administrateur social ne doit se faire que dans le cas où la structure
du réseau n’est pas optimale. Il faut toujours donner priorité aux stratégies hétérogènes
des utilisateurs.
De cette façon, si la topologie du réseau social ne permet pas un bon flux
d’informations, nous pouvons décider de la stratégie de recommandation de contacts à partir
des critères que l’administrateur du réseau social cherche à améliorer. Si cet administrateur
veut améliorer :
Le critère de vitesse pour augmenter la vitesse de diffusion d’informations nouvelles :
il devra constituer des réseaux thématiques d’au maximum 30 membres ;
il devra vérifier que le pourcentage de topiques dans le réseau social ayant une
valeur importante d’originalité d’information soit supérieur à 35% et inférieur à 50%.
Il devra privilégier la stratégie d’obtention d’informations nouvelles ou si ceci n’est
pas toujours possible, celle de recommandation de contacts ayant des topiques
agrégateurs.
Le critère de gourous pour diminuer leur influence sur le flux d’information dans le
réseau. Nous avons vu que les gourous peuvent être de deux types : ceux qui ont de
l’information très réputée mais aussi nous avons découvert que ceux qui injectent
beaucoup d’informations nouvelles peuvent le devenir. Alors, pour éviter la
prolifération de gourous, l’administrateur doit :
favoriser la recommandation de contacts « Agrégateurs » ou si ceci n’est pas
toujours possible,
exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des
recommandations selon la stratégie « Tirage Aléatoire ».
L’efficacité de diffusion d’information : il devra alors privilégier la stratégie de
« Tirage Aléatoire » et/ou la stratégie de « Réputés ».
4.2.8 Conclusion des simulations
Les interprétations effectuées sur la base de ces analyses des simulations révèlent
l’importance d’intégrer des analyses sociales dans les recommandations. En effet, intégrer un
recommandeur de contacts fait intervenir un ensemble de dynamiques sociales influencées par
les échanges d’informations. Nos simulations ne font alors que valider le contexte de notre
approche mais dans des traits clairs :
Le nombre de membres dans un réseau des personnes susceptibles de s’apporter de
l’information efficacement serait limité à 30.
L’apport d’informations nouvelles serait nécessaire dans un réseau social si l’on veut
augmenter la vitesse du flux d’information.
Cependant il ne serait pas nécessaire que tous les membres du réseau intègrent des
informations nouvelles en même temps. Il faudrait par contre qu’il existe au moins un
pourcentage des membres qui injectent de l’information nouvelle. Ce pourcentage se
trouverait aux alentours de 43.3%. En effet, en observant la Figure 4-10, descendre à
moins de 35% ou le dépasser à plus de 50% diminuerait l’efficacité du réseau social.
182
Nous avons principalement résumé les moyens d’optimiser les critères de
l’administrateur du réseau social. Il est dépendant de la stratégie d’obtention d’informations
que le recommandeur de contacts devra prendre en compte.
Un résultat très encourageant est que nous avons pu montrer l’importance d’intégrer
des aspects sociaux dans un système de recommandation de contacts. Nous pouvons citer par
exemple, deux cas intéressants selon nos simulations :
La stratégie de « recueillir tout », c'est-à-dire, celle qui tient compte des propriétaires
des topiques agrégateurs d’information, a montré une efficacité nettement supérieure à
celle issue des recommandations par « Tirage Aléatoire ». Ceci signifie que l’on a bien
proposé une stratégie de recommandation de contacts qui améliore l’efficacité globale
du réseau par rapport à l’usage des algorithmes traditionnels de filtrage collaboratif
d’informations.
Les stratégies « Hétérogènes », c'est-à-dire, elles sont intéressantes quand les
utilisateurs ne choisissent pas la même stratégie (qui est maintenue tout au long des
itérations). En effet, plus les stratégies sont hétérogènes moins les distances entre les
nœuds du réseau (les utilisateurs) sont grandes et alors plus l’efficacité est importante.
183
184
5 Conclusion et
Perspectives
ous avons développé notre travail de recherche autour de deux contextes : des
aspects socio-psychologiques dans des réseaux de relations de personnes et les
systèmes informatiques de recommandation, typiquement ceux appliquant des techniques de
filtrage collaboratif (§2.1.1.1 ; §3.9.1.1). Nous avons construit un système pour intégrer ces
concepts. Nous l’avons baptisé SoMeONe (§3.12).
N
5.1 Conclusions
Notre approche est fondée sur la volonté des utilisateurs à coopérer. Comme Hazel Hall
(Hall, 2001), nous sommes d'accord sur ce que les économistes argumentent déjà : les
individus évaluent des coûts alternatifs d'action pour recevoir la meilleure valeur au coût le
plus bas. Mais dans la vie sociale, les gens (les acteurs) peuvent seulement obtenir ce dont ils
ont besoin (les ressources) par les relations dépendantes avec d'autres (les structures) (Molm,
2001). Les personnes ont besoin d'autres personnes pour trouver rapidement des informations
pertinentes et nouvelles pour ne pas devenir un « étranger » dans la société grandissante. Avec
ces idées, nous avons développé SoMeONe, étant un nouveau média coopératif d’échanges
personnalisés d’information. Il est encadré dans contextes socio-informatiques.
5.1.1 Cadre théorique
Nos hypothèses tiennent compte des objectifs utilisateurs (obtenir de l’information) et
pour cela nous avons intégré des critères de qualité à optimiser pour tenir compte également
des objectifs du système (optimiser la structure d’un réseau social). Le moyen pour les
atteindre a été l’application des indicateurs sociaux. Ces éléments sont synthétisés dans le
tableau ci-dessous.
185
Éléments que
nous voulons
offrir à
l’utilisateur
Critères de qualité
globale du système
Critères de qualité qui vont
permettre de déterminer
l’efficacité du système pour
optimiser le réseau.
Mécanismes de
Régulation
Indicateurs sociaux
Moyens pour permettre des
relations pour satisfaire les
objectifs des utilisateurs et la
qualité du système.
Ensemble de caractéristiques
sociales qui vont permettre de valider
nos hypothèses.
- Originalité. Mesurée avec
I.1.7.1.
- Réputation. Mesurée avec
Vitesse de réactivité à
l’information nouvelle
Pertinence
Motivationּ
Éviter la prolifération des
Gourous
Engagement
Coût du Réseau
Efficacité du Réseau
Mécanisme de
recommandations
Mécanisme de gestion
et diffusion de
l’information.
Conscience sociale
I.1.7.3
- Agrégation. Mesurée avec
I.1.7.10.
- Redondance. Mesurée avec
I.1.7.5.
D’autres formules qui aident à
valider ces indicateurs sociaux :
- Efficacité du réseau (selon une
calcule d’efficacité locale et le
coût)
- Coût du réseau
- Réactivité à l’information
nouvelle
Tableau 5-1. Éléments de notre approche pour la dynamique des réseaux sociaux.
5.1.1.1 Contexte socio-psychologique
Par rapport au contexte socio-psychologique, nous nous sommes intéressés à analyser
les facteurs qui influencent la participation des personnes à des réseaux sociaux et aux enjeux
psycho-sociaux inhérents comme la motivation ou la confiance. Il s’est agit d’analyser les
moyens d’inciter à échanger de l’information personnelle entre membres du réseau social.
Ainsi, nous avons influencé notre approche avec des théories de l’analyse des réseaux sociaux
afin de mieux comprendre ces réseaux, les modéliser et les représenter du point de vue
informatique.
5.1.1.2 Contexte informatique
L’intérêt de notre étude est né également du fait que nous avons reconnu que sur le
Web, les internautes ont des besoins changeants d’information. Grâce aux théories des
analyses sociales et des expériences des autres systèmes de recommandation existants, nous
savons que la plus part du temps, ces besoins informationnels sont généralement satisfaits par
le fait de « demander à un copain », c’est à dire, à une personne généralement une
connaissance ou une référence sur le sujet d’intérêt.
Nonobstant, cette information désirée évolue avec chaque individu et il faut donc que
celle-ci soit adaptée et pertinente. Ceci est loin d’être évident quand il s’agit de la trouver sur
le Web car il est fait de paradoxes : on y trouve tout, on n'y trouve rien. Par exemple, dans les
groupes d’intérêt qui se forment, nous constatons qu’il faut toujours produire de
l’information, obligation qui est loin de satisfaire des besoins individuels d’information.
Donc, le constat est que le Web est déséquilibré, il y a en effet, dans ce type de systèmes
d’échanges d’information, une minorité très active de producteurs d'information, et une
186
majorité de consommateurs silencieux. Pouvons-nous vraiment modifier cette forte tendance
? Et bien, la réponse à cette question a été le cœur de notre recherche.
5.1.1.3 Mécanismes de régulation
Pour arriver à répondre de manière positive à la question précédente, nous avons
imaginé la possibilité d’influencer la motivation aux échanges informationnels en intégrant
des mécanismes de régulation dédiés. Par exemple, nous avons proposé des mécanismes
intégrant une dynamique d’échanges d’information, de gestion d’information personnelle et
de conscience sociale, tout en appliquant des règles de régulation, capables d’influencer cette
motivation à participer aux échanges d’information.
Nous avons commencé alors, par permettre la gestion d’information personnelle en
intégrant des « dispositifs efficaces156 » de classification pendant la navigation. Pour cela nous
avons développé pour l’utilisateur, deux gestionnaires : le gestionnaire d’information
personnelle et le gestionnaire de contacts. Ce dernier est influencé par le recommandeur de
contacts, voir Figure 5-1 ci-dessous.
Figure 5-1. Les outils contrôlés par les utilisateurs du réseau social médiatisé. Les
membres du réseau participent à une dynamique d’échanges d’information.
Avec notre mécanisme de gestion de l’information personnelle nous développons la
nature individualiste des utilisateurs [po03] en lui rendant le contrôle sur ses informations
[p02]. Cependant, un utilisateur décidé à participer au réseau social proposé par notre
système accepte la dynamique du réseau et donc, participe aux échanges. Son but est
d’obtenir de l’information adaptée. Pour cela, il compte avec la recommandation de contacts
(selon notre mécanisme de recommandation de contacts) et avec une conscience d’autres
membres du réseau social [po06]. Nous y intégrons aussi, la conscience de son egonetwork.
156
Par « dispositifs efficaces » nous entendons les outils offerts à l’utilisateur, qu’il doit trouver utiles et
faciles d’adopter dans son usage quotidien.
187
Les échanges effectués déclenchent des recommandations obtenues à partir de
l’analyse des indicateurs sociaux [h02;po01;po02] (nos algorithmes SocialRank) et
éventuellement, d’un type de filtrage collaboratif (utilisant des annuaires) (§3.9).
5.1.1.4 Efficacité du flux d’information
En conséquence, l’apport, le plus important de notre approche, est né de notre idée de
recommander des contacts plutôt que de l’information. Pour cela nous nous sommes
fortement intéressés à valider l’efficacité de flux d’information dans le réseau social
proposé [po02]. Nous ne cherchons pas à proposer des contacts par le contenu
informationnels qu’ils peuvent gérer mais plutôt par leur position dans le réseau social
médiatisé. Nous avons donc établi dans notre cadre théorique une série de postulats, de
principes et d’hypothèses à valider.
5.1.2 Évaluation de notre approche
De cette façon, pour tester nos théories nous avons développé deux évaluations. La
première a été proposée aux utilisateurs réels et a encouragé de nombreuses modifications de
notre système SoMeONe. Cependant, la grande quantité de facteurs sociaux susceptibles
d’être analysés avec des utilisateurs réels nous a incité à développer notre deuxième
évaluation sous forme de simulations. Les résultats de ces deux évaluations sont
encourageants.
La première évaluation nous a permis de révéler deux types d'usages à dissocier :
D'une part, les usages relatifs à la partie du système qui permet la construction de
réseaux sociaux.
D'autre part, les usages relatifs à la partie du système qui permet de gérer l’information
personnelle.
Les usages relatifs au premier usage du système, nous ont permis de valider que les
réseaux sociaux ne peuvent pas être crées artificiellement par la seule mise en place d'un
réseau technique de communication (§2.2.1).
Cependant, nous avons pu constater que les utilisateurs considèrent que le partage de
références est un des points forts du service. Ceci leur a permis de constituer une sorte de
« Webiographie » commune à un groupe d’individus. Ce constat implique que les utilisateurs
ont trouvé certainement un moyen pour obtenir de l’information pertinente.
Nous pouvons aussi mettre en avant ici le fait de profiter du tri effectué par les
autres et la possibilité de pouvoir récupérer leurs informations indépendamment d’un poste de
travail, ce qui nous a permis de constater des initiatives d’engagement et de participation aux
échanges d’information dans la dynamique proposée par notre approche (§4.1.4).
Les usages relatifs à la deuxième fonctionnalité du système (nomenclature
personnelle) ont été peu représentés (§4.1.7). Les résultats décourageants de cette première
évaluation sont justifiés par le contexte dans lequel elle a été développée. Le facteur principal
mis en évidence a été la pauvreté des métaphores dans l’interface, capables de plus
encourager son usage.
188
Nous pouvons également citer le fait qu’une intégration des fonctionnalités de
SoMeONe dans un autre système doit rester cohérente avec les fonctionnalités déjà offertes
par le système où l’on intègre (§4.1.6 B), c’est à dire, les compléter ; dans le cas contraire, les
utilisateurs auront tendance à utiliser ce qu’ils connaissent déjà. Nous avons souffert de ce
problème par rapport au cartable électronique®.
La deuxième évaluation a été faite à travers un ensemble de scénarios de simulations
qui prennent en compte des aspects sociaux, inabordables en temps et quantité, avec des
utilisateurs réels. Les résultats obtenus nous ont permis de valider nos hypothèses sur nos
critères de qualité : la vitesse de réactivité à l’information nouvelle, le contrôle sur la
prolifération de gourous, la prise en compte du coût et de l’efficacité du réseau.
Dans cette évaluation nous avons envisagé la possibilité de compter avec une entité
capable de contrôler l’état de la topologie du réseau. Cette entité est l’administrateur du réseau
social dans nos simulations. L’administrateur du réseau doit pouvoir réagir dans le cas où les
critères de qualité du réseau social que nous avons définis se dégradent.
De cette façon, si la topologie du réseau social ne permet pas un bon flux
d’information, nous pouvons décider de la stratégie de recommandation de contacts à partir
des critères que l’administrateur du réseau social cherche à améliorer. Si cet administrateur
veut améliorer :
Le critère de vitesse157 pour augmenter la vitesse de diffusion d’informations
nouvelles :
il devra constituer des réseaux thématiques d’au maximum 30 membres ;
il devra vérifier que le pourcentage de topiques dans le réseau social ayant une
valeur importante d’originalité d’information soit supérieure à 35% et inférieur à
50%.
Il devra privilégier la stratégie d’obtention d’information nouvelle ou si ceci n’est
pas toujours possible, celle de recommandation de contacts ayant des topiques
agrégateurs.
Le critère de gourous, pour diminuer leur influence sur le flux d’information dans le
réseau. Nous avons vu que les gourous peuvent être de deux types : ceux qui ont de
l’information très réputée mais auss, nous avons découvert que ceux qui injectent
beaucoup d’information nouvelle peuvent le devenir. Alors, pour éviter la prolifération
de gourous, l’administrateur doit :
favoriser la recommandation de contacts « Agrégateurs » ou si ceci n’est pas
toujours possible,
exploiter les résultats de notre algorithme de filtrage collaboratif, qui rend des
recommandations selon la stratégie « Tirage Aléatoire ».
L’efficacité de diffusion d’information alors il devra privilégier la stratégie de Tirage
Aléatoire et/ou la stratégie de Réputés.
Il est évident que l’administrateur du réseau social peut modifier le critère à optimiser
en fonction de l’état de la topologie du réseau. Mais nous avons bien montré que :
157
La vitesse doit être vue en termes de validation de la distribution des nouveautés (informations
qualifiées d’originales) et de leur appréciation.
189
Avec nos stratégies « Hétérogènes » l’efficacité du réseau augmente quand le nombre
d’utilisateurs augment car on risque moins d’avoir la même stratégie pour tous !
Avec une stratégie issue des analyses sociales telle que notre stratégie « Agrégateurs »,
nous avons proposé une stratégie de recommandation de contacts qui améliore
l’efficacité du réseau mieux qu’avec des algorithmes traditionnels de filtrage
collaboratif d’informations.
Avec une stratégie issue des purs algorithmes de filtrage collaboratif qui ne prennent
pas en compte des aspects sociaux, l’efficacité du flux d’information se détériore
énormément. C’est la raison pour laquelle les utilisateurs cessent rapidement d’utiliser
ces systèmes sur le Web !
5.1.3 Cadre d’usage
Notre recherche nous a permis de conclure que de « nouveaux moyens » sur le Web
qui se serviraient des réseaux sociaux seraient intéressants pour obtenir de l’information
adaptée. En effet, de plus en plus, les échanges d’information se font à travers des
interactions sociales qui naissent dans différents contextes, par exemple l’entreprise.
5.1.3.1 L’usage entreprise.
Ce type d’usage a pour objectif la personnalisation de l’accès à l’information, la
diffusion d’informations au sein de structures flexibles intra ou extra entreprise, le Knowledge
Management, la valorisation d’un capital social (Bourdieu, 1986), la veille en réseau, etc. Par
exemple, un Intranet devient de plus en plus volumineux à mesure que la compagnie grandit.
De plus, plus la compagnie est grande, plus nous trouvons une grande diversité de postes,
d’employés, et de cultures. Toute cette diversité cache des besoins informationnels différents
et des contextes différents. Faire face à cette diversité est difficile. Pour être efficace, les
collaborateurs doivent accéder aux informations pertinentes i.e. adaptés à leurs besoins
personnels et à leurs sensibilités. Par exemple, n'importe quel chercheur industriel sait
qu'il/elle ne présentera pas son travail avec les mêmes perspectives à une communauté
scientifique ou aux « marketers » d'une unité d'affaires. Nous croyons que ce niveau
d'adaptation ne peut être obtenu qu’en s’appuyant sur des réseaux de personnes. Ces réseaux
doivent être ouverts, flexibles et dynamiques.
Il ne faut pas seulement compter sur l'organisation de l’entreprise. Les collaborateurs
travaillent de plus en plus dans des équipes appartenant à plusieurs entités, à l'intérieur ou à
l'extérieur de la compagnie. Les fournisseurs, les techniciens, les ingénieurs, les marketers,
même les clients ont des relations plus proches dans les réseaux d’échange d'informations.
Pour de telles compagnies, la communication est un élément clé. Leur production est
souvent fondée sur la production d’informations et de connaissances. Leur besoin est alors de
construire le capital social selon la connaissance de leurs employés et de leurs relations
mutuellement enrichissants (Bourdieu, 1986). Ici de nouveau, SoMeONe est particulièrement
adapté pour soutenir et développer ces relations.
SoMeONe est une solution permettant de développer le processus de découverte des
informations importantes et les transmettre rapidement pour se les approprier avec une
validation et des remarques personnelles.
190
5.1.3.2 L’usage grand public.
Ce type d’usage doit permettre le développement de services de communautés, service
d’échanges, par exemple :
Échanger des histoires drôles. En effet, ce besoin est évident quand les gens se
transmettent ces histoires via le mail. Le système pourrait donc proposer des histoires
drôles en tenant compte des très divers points de vue (en filtrant ce qui est drôle pour
l’un et ne l’est pas pour l’autre).
Échanger des photos, des vidéos. Il s’avère aussi intéressant de compter sur un
archivage dans le réseau pour ne pas encombrer les messageries. Cela pourrait permettre
au système d’échanger des photos en tenant compte des divers points de vue.
Échanger des « bonnes » adresses. C’est l’usage typique que nous proposons : échanger
des favoris selon les différents besoins informationnels. Par exemple : des destinations
de vacances, de week-end, des spots de plongée, de surf, de planche, des films, des
livres, des disques, des restaurants …
Ils peuvent se développer par exemple sur Clubs Voilà, Wanadoo Groupes, etc. Nous
avons également influencé, dans cet usage, un service dont nous parlons dans les perspectives
(§5.2.1).
5.1.4 Dynamique d’usage
Le service doit intégrer des protocoles et des mécanismes de régulation qui stimulent
la coopération et qui optimise la qualité collective de ce média social. Ainsi, nous proposons
des outils qui, à travers l’indexation personnelle de contenus hypermédias, développeront
l’échange personnalisé d’informations.
De cette façon, SoMeONe proposera une alternative à la navigation sur le WWW. Il
aidera les utilisateurs à optimiser leur réseau de relations et à l’utiliser comme source
d’informations. Chaque utilisateur pourra diffuser de l’information à travers ses liens avec
d’autres juste en indexant de manière personnelle l’information. Ainsi, au lieu que les
personnes naviguent de page en page, les pages naviguent de personne en personne.
SoMeONe peut être vu comme l’espace dual du WWW.
Chacun peut décrire les documents selon son point de vue et ses propres critères
objectifs ou subjectifs. SoMeONe est ainsi un média pour le Web sémantique. Cette
indexation manuelle complète l’indexation automatique à partir du contenu. Sa pertinence ne
reste valide qu’au sein d’espaces de confiance gérés par les utilisateurs. Ainsi si Google
exploite les liens entre les pages pour son indexation, SoMeONe utilise les liens entre les
personnes.
5.2 Perspectives
Nous perspectives se développent autour la mise en place de notre proposition de
service selon deux grandes étapes : l’intégration de notre proposition d’outil de partage de
favoris et l’intégration de notre recommandeur de contacts.
5.2.1 Vers une intégration de l’outil de partage de favoris
Ces « nouveaux moyens » commencent à voir le jour sous plusieurs formes, par
exemple par des Weblogs. L’exploitation des réseaux de relations entre contacts est donc une
solution intéressante. Pour débuter dans cette « exploitation » nous avons proposé SoMeONe,
191
un service de recherche d’un nouveau type permettant à l’utilisateur de faire des recherches
et de conserver les résultats obtenus - et surtout ceux qu’il préfère, ses « favoris » - au sein
d’un espace personnalisé ou de les partager avec d’autres, et susceptibles d’être échangés
entre contacts appartenant au réseau de relations de l’utilisateur. Cette première proposition
voit aujourd’hui le jour sur le Web sous forme d’un service communautaire à l’adresse
http://someone.voila.com/. Il permet à l’utilisateur d’accéder aux dossiers publics de ses
contacts et de partager ses favoris publics. Celui-ci est un service d’usage grand public
(§5.1.7.2).
Ainsi, notre première perspective est donc la validation de ce service, car il n’est pour
le moment qu’en test.
Une partie complémentaire reste encore à faire. Il s’agit de l’intégration de nos
algorithmes SocialRank pour la recommandation de contacts. En effet, la pluvalue de notre
travail est le recommandeur de contacts selon les algorithmes de recommandation que nous
venons de proposer.
5.2.2 Vers une intégration du recommandeur de contacts
Dans d’autres perspectives, nous envisageons de suivre plusieurs évolutions. Celles-ci
peuvent être divisées selon trois points de vue :
L’intégration du recommandeur suivant nos algorithmes SocialRank. En effet, la
version en ligne du système n’intègre que la version suivant nous algorithmes de filtrage
collaboratif. La version qui intègre nos algorithmes SocialRank a été utilisée que pour
ma mise en œuvre des simulations. Ainsi, dans cette nouvelle version intégrant le
recommandeur, nous devrons valider deux aspects techniques du développement :
Une intégration de notre version incrémentale. En effet, la version utilisée dans les
simulations obtient les futures recommandations à la fin des échanges, c’est à dire à
chaque itération. La version actuellement utilisée à France R&D fait les calculs des
recommandations au fil de l’eau c’est à dire, dès que les utilisateurs en demandent,
mais elle n’intègre pas les algorithmes SocialRank . Nous avons donc développé la
version incrémentale intégrant les algorithmes SocialRank mais elle doit encore être
validée du point de vue de ses performances.
Une intégration en tenant compte de plusieurs annuaires sur le Web. En effet,
l’algorithme de filtrage collaboratif pourrait prendre en compte différents annuaires,
et en particulier, des annuaires thématiques.
5.2.3 Évolutions techniques
Les évolutions techniques évidentes ont été évoquées dans les points faibles de la
première évaluation. Il s’agit typiquement de celles qui permettraient d’adapter au mieux
l’ergonomie du système. Cependant, du point de vue communautaire, il nous semble pertinent
d’intégrer des fonctionnalités du type :
Faciliter la construction d’une taxonomie de groupe.
Améliorer l’identification des différents espaces (personnels, publics).
Faire des recommandations au fur et à mesure des actions car l’avantage est de voir
alors directement pourquoi le système recommande un contact (§3.10.4).
Permettre de différencier la provenance des topiques dans les « topiques reçus » (par
une liste de diffusion ou par un topique public ou par une dynamique de
recommandation du système).
192
ANNEXES
I–6. Formalisation des
Concepts
II–7. Premières versions de
SoMeONe
III–8. Scénarios de Simulation
IV–9. Logiciels pour l’analyse
de réseaux sociaux
V–10. Autre utilisation
Annuaire ODP - Cas II
VI–11. Détails conceptuels de
SoMeONe
VII–12. Moteurs de recherche
193
194
Annexe I–6. Formalisation des concepts
Nous considérons le système comme un environnement où interagissent des
utilisateurs pour classer158, diffuser ou s'échanger de l'information obtenue du Web. Dans
cette dynamique, il ressort deux types de réseaux :
de topiques (du point de vue du système) ;
de contacts (du point du vue des utilisateurs).
Tout de suite, nous nous rendons compte que dans ce système, il y a des intérêts liés
au système même et aux utilisateurs. Ces intérêts se poursuivent avec des objectifs bien
définis.
Les objectifs du système visent à établir les dynamiques nécessaires et pertinentes
pour que les utilisateurs restent fidèles à son usage personnel, parce que les recommandations
qu’il offre sont adéquates. Les objectifs des utilisateurs visent à obtenir de l’information
correspondant à leurs besoins particuliers et changeants.
6 Définitions
Nous avons introduit les concepts de base de notre approche dans la partie 1, notre
intention ici est de les formaliser :
Information sur le système :
o Un document peut être un texte, une image, un son ou autre, accessible dans
le Web via son URI (identificateur unique d'une information sur le Web).
o Un topique peut être vu comme un dossier qui sert à réunir un même type
d'informations (de documents).
o Actions de manipulation sur les informations :
Classer ou étiqueter, est le fait de placer une information dans un
topique. Nous voyons ce fait comme un processus d'indexation et pour
cela, nous substituons « indexer » à « classer ».
Envoyer est le fait de transmettre de l’information.
Diffuser est le fait d'envoyer ou de répandre ou de distribuer des
informations.
Partager est le fait de donner à quelqu'un une partie de ses
informations ou la diviser de manière à former plusieurs parties
distinctes, effectivement séparées ou non.
Echanger est le fait de faire des envois réciproques.
Une information est donc vue comme un bien qui va appartenir aux
utilisateurs mais qui peut se diffuser, s'échanger, se partager, … De ce point de vue, un
document est une information et un topique un ensemble d'informations.
L'utilisateur est la personne qui utilise le système et à qui il faut donner des
recommandations.
158
La classification sera vue comme un processus d'indexation.
195
Un contact est la personne à recommander à l'utilisateur.
Plus précisément nous avons :
1. Les topiques.
o Un topique a des caractéristiques bien définies :
Un topique a un seul propriétaire.
Un topique peut être défini privé, public ou diffusé159.
A un topique est associée la liste d'utilisateurs pouvant visualiser son
contenu.
• Les contenus d'un topique sont des unités que nous appelons des
références160 aux documents.
Un topique a des propriétés bien définies, dont nous parlerons plus tard.
o L'information réunie161 dans les topiques a des propriétés bien définies, dont
nous parlerons plus tard.
2. Les utilisateurs du système, qui sont propriétaires des topiques.
o Un utilisateur occupe une position dans le réseau.
o Un utilisateur a des besoins informationnels.
Définition I-1. Nous proposons de définir formellement les topiques, les
utilisateurs, les liens et les relations qui existent entre eux :
(I-1.a)
Un ensemble T de topiques :
T = {t1, t2, ... , tn}
(I-1.b)
Un ensemble U d'utilisateurs membres du réseau :
U = {u1, u2, u3, ... , um}
(I-1.c)
La relation OWNER qui représente le fait qu'un topique tj
appartienne à un utilisateur ui :
OWNER (tj , ui)
∀tj ∈T, ∃ui |OWNER(tj , ui)
(I-1.d)
Un ensemble UT(ui) ⊆ T de topiques appartenant à l'utilisateur ui :
UT(ui) = { t1, …, tn }
∀ui∈U, ∃tj∈UT(ui) | OWNER(tj , ui)
(I-1.e)
Un ensemble Uri de liens :
Uri = { l1, l2, …, lq}
(I-1.f)
A un topique ti est associée une liste de diffusion DL (ti)
contenant des identificateurs d'utilisateurs ayant le droit de
visualisation du contenu de ti. Il existe une liste de diffusion pour
chacun des topiques :
∀ti∈T, ∃DL(ti) | ∀ui ∈ DL(ti) ui peut visualiser le contenu de ti
159
Partiellement visible et non déclaré public.
Reviews en anglais.
161
Références, documents, …
160
196
Si l'utilisateur uk propriétaire du topique ti ajoute dans DL (ti)
l'identificateur de l'utilisateur ul, l'utilisateur ul verra le topique ti
et son contenu dans sa liste de topiques recus.
(I-1.g)
Un topique peut être :
- déclaré public par son propriétaire : { ti | Public(ti)}
- déclaré privé par son propriétaire : { ti | ¬Public(ti)}
- partiellement public si |DL(ti)| ≥ 1
(I-1.h)
Un ensemble R d'informations que nous dénommons références :
R = {r1, r2, ... , rp}
Une référence ri a un identificateur idri, un lien lri, un
commentaire commri et une liste de topiques associés ATR(ri) dont
elle est indexée, que nous pouvons interpréter comme :
∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri)
(I-1.h.a) Où ATR(ri) ⊆ T est l'ensemble de topiques où ri a été indexée.
De ATR(ri) nous savons que chaque référence peut être indexée
dans un ou plusieurs topiques. Par exemple, nous pouvons définir
des relations de la forme :
{∃r1 ∈ R | ∃t2. INDEXE(r1, t2) ∧ ∃t3. INDEXE(r1, t3)}
(I-1.h.b) Où INDEXE(ri, tj) est l'interprétation de la relation « tj indexe ri»
ou bien « ri est indexée dans tj »
Un lien lk peut être pointé par différentes références, c'est à dire qu'une ou
plusieurs références peuvent se créer dans le réseau sur un lien
indépendamment de ses propriétaires.
Une référence est une unité spécifique d'information sur un lien, donc, il
peut exister plusieurs références sur un seul lien, chacune contenant une
information particulière sur son contenu.
Si um est propriétaire de rj ⇒ um est propriétaire de tous les topiques dans
ATR(ri). Donc, de l'exemple antérieur, ATR(r1) = {t2, t3} ⊆ T
(I-1.i)
Soit RU(li) ⊆ R l'ensemble de références pointant sur li, (sans
doubles).
Un lien ne peut pas exister tout seul. Quand un lien est
« découvert » une première référence est créée automatiquement
avec. Par « découvert » nous entendons, un lien mis dans le
système pour la première fois :
∀li ∈ Uri, ∃ rj ⏐ li est un lien venant d'être créé et rj sa première
référence créée ∧ rj ∈ RU(li) ⊆ R
197
(I-1.j)
Si un lien li a un ensemble RU(li) = {r1 , …, rn} associé de
références et chacune une de ces références a, à son tour, un
ensemble ATR(ri) associé de topiques, alors li a également un
ensemble associé (sans doubles) de topiques :
∀li ∈ Uri, ∃ATL(li)
(I-1.j.a) Où ATL(li) ⊆ T est l'ensemble de topiques (sans doubles) où
chacune des références dans RU(li) a été indexée.
(I-1.k)
De manière similaire, nous nous intéressons à l'ensemble de
références indexées dans un topique donné. Soit IR(ti) ⊆ R
l'ensemble de toutes les références indexées dans ti .
∀ti ∈ T, ∃ IR(ti)
(I-1.l)
Soit Directory un ensemble d’URIs classés dans un annuaire de
liens. Un lx ∈ Uri peut, mais pas nécessairement, appartenir à
l'ensemble Directory.
Afin d'offrir aux utilisateurs des recommandations adaptées, le recommandeur doit
calculer des indicateurs pour connaître l'état du réseau : qui diffuse quoi et à qui.
Nous allons appliquer ces indicateurs sur les topiques et sur les utilisateurs : T. Par
terminologie, quand un indicateur peut être utilisé pour connaître l'état d'un topique et d'un
utilisateur, nous utilisons le mot « acteur » dans sa définition pour parler de tout les deux. Les
principaux indicateurs que nous utilisons sont l'originalité, la réputation, la redondance et
l’aggrégation. Nous formalisons ensuite le réseau de topiques et le réseau des utilisateurs.
6.1 Réseau de topiques
Un réseau de topiques est formé par l’ensemble des topiques de tous les utilisateurs.
L'échange de références entre topiques établit les relations entre eux. Cet échange ne peut être
fait que par les propriétaires de ces topiques.
Nous commençons par analyser en premier le réseau que forment les échanges de
références quand elles sont indexées dans les topiques. Le graphe qui le représente est de la
forme (T, A) où (ti, tj) est la collection de paires ordonnés de T topiques qui montre les
échanges possibles. Par abus de notation on notera [ti, tj] la relation entre ti et tj, c'est-à-dire, le
fait d'indexer références de tj dans ti.
Définition I-2. Soit T un ensemble non vide et A ∈ T × T. Alors, la paire
(T, A) est un graphe dirigé (en T) ou digraphe162, où T est l'ensemble de
sommets (topiques) et A est l'ensemble d'arcs (relations). On note ainsi ce
réseau G = (T, A) avec : l'ensemble T = {t1, t2, ... , tn} de topiques, et
l'ensemble de relations entre les topiques A = {a11, …, a1n.,…, a21, ... a2n, …,
an n}, où aij = [ti, tj].
Si aij = [ti, tj] est un arc du graphe G, ti est l’extrémité initiale de a et tj
l’extrémité finale de a. Donc, cet arc [ti, tj]∈ A est une relation entre
topiques symbolisant que tj a indexée une (ou plusieurs) référence(s) venant
y
162
Dans la littérature nous trouvons les deux terminologies.
198
de ti ou bien tj reçoit et indexé une (ou plusieurs) référence(s) venant de ti ou
bien ti envoi une(ou plusieurs) référence(s) qui a son tour est indexée par tj .
Le fait d'indexer une référence reçue provoque la génération d'une nouvelle référence.
Par exemple, l'utilisateur u1 crée une référence r1 sur le lien l1 dans son topique t1. Sans aller
dans le détail, disons que u2 reçoit r1 dans sa liste de topiques reçus et donc, u2 décide
d'indexer r1 dans sont topique t2. Cette action implique qu'une nouvelle référence r2 sera créée
sur le lien l1. Supposons que u1 a été le premier en créer une référence sur l1 donc il n'y a pas
d'autres références pointant sur l1 : RU(l1) = { r1 , r2}.
Un topique ti et un autre tj sont en relation si et seulement si {ti, tj}∈A. Nous voyons la
relation entre topiques comme des échanges de leur contenu, dans ce point de vue, ti et tj
communiquent leurs contenus (échangent leurs références). Si ti ne peut pas communiquer
directement avec tj, il peut y exister la possibilité de communiquer de façon indirecte à travers
d'un (ou plusieurs) topiques intermédiaire(s).
6.1.1 Communication entre topiques
Pour représenter les relations, c'est à dire, les échanges et/ou les diffusions entre
topiques, nous utilisons une matrice d'adjacence.
Définition I-3. Soit G = (T, A) un graphe orienté avec T = {t1, t2, ... , tn}.
La matrice d’adjacence du graphe G est la matrice M(G) dont les coefficients
mij sont définis par
⎧⎪1 si (ti , t j ) ∈ A
mij = ⎨
⎪⎩0 si (ti , t j ) ∉ A
Les échanges et/ou les diffusions entre topiques se font grâce aux références. Un
topique ti envoie son contenu (ses références) à autre topique tj et tj peut ou pas les accepter.
Quand tj indexe une ou plusieurs références venant de ti (parce qu'elles lui semblent
intéressantes), nous disons que la communication est établie : il y a relation entre les deux.
Si ti envoie des références à tj et tj indexe une ou plusieurs références de ces références, alors
mij =1.
L'envoi de références est possible grâce à la gestion de la liste de diffusion DL(ti) de
chaque topique ti . De cette façon, pour que le propriétaire de ti puisse envoyer les références
qu'il contient au propriétaire de tj, il faut qu'il ajoute dans DL(ti) à tj 163. Si le propriétaire de tj
indexe à son tour une ou plusieurs des références reçues de ti, nous l'interprétons comme « tj
apprécie le contenu de ti » . En faisant ainsi, ti devient le voisin direct de tj.
Définition I-4. Soit N(te) ⊆ T l'ensemble de topiques « voisins » du topique
te , N(te) = {t1, t2, ... , tq}. N(te) contient l’ensemble de tous les topiques
envoyant une (ou plusieurs) référence(s) au topique te, et indexées dans te.
Soit tf un topique voisin : N(te) = { tf ∈T | [te , tf]∈A}. Nous appelons à
cette relation NEIGHBORH (te, tf) :
(I-3.a) ∀ te ∈ T, ∃ tf ∈ N(te) | NEIGHBORH (te , tf)
163
Son identificateur.
199
Nous avons donc la relation NEIGHBORH (te , tf) qui se lit « tf est voisin de te».
6.1.2 Distance entre topiques : D
Les communications peuvent se faire à travers plusieurs intermédiaires. Avant
d'élargir cette idée, il semble nécessaire d'expliciter le calcul d'une matrice de distances entre
topiques. Nous allons commencer avec la matrice de distances de plus courts chemins entre
deux topiques pour supporter une intuition : « faire arriver l'information d'un topique à un
autre, le plus rapidement possible ». Nous voulons donc calculer la matrice de distances
géodésiques D. Nous allons plus particulièrement nous intéresser à calculer la longueur de
tous les plus courts chemins, c'est à dire pour tout topique ti, sa distance D (ti, tj) au sommet tj.
Pour ce calcul nous utilisons l'algorithme BFS (recherche en largeur) :
Propriété I-1 :
La longueur d(ti) du plus court chemin de tj à ti
vérifie
d(ti) = 0 si ti = tj
d(ti) = 1 + min { d(tk) | tk voisin de ti } sinon
Avec la recherche en largeur, nous avons toutes les cartes
en main pour écrire un algorithme calculant la longueur de tous les
plus courts chemins depuis un sommet tj. Il suffit au cours de la
visite de mettre à jour un label LA pour chaque sommet. Le label
LA(ti) du sommet ti est calculé comme le label LA(tk) de son voisin
tk depuis lequel il est visité, plus 1. A la fin de l'algorithme, les
labels sont égaux aux distances d(ti).
ALGORITHME BFS
ENTREES Graphe G=(V,E), Sommet tf
F : FILE (liste FIFO)
Initialiser tous les sommets à non marqué ; Marquer tf
LA(tk) := 0
F
tf
Tant Que F n'est pas vide
F
// Retirer le premier sommet de la file
tk
Pour chaque voisin y non marqué de tk
Marquer y
LA(te) := LA(tk) + 1
te // Ajouter y à la fin de la file
F
Fin Pour
Fin TantQue
Théorème I-1
L'algorithme BFS calcule en temps O(|E|) la longueur des
plus courts chemins du sommet tf à tous les autres sommets du
graphe
Pour tout tk, LA(tk)=d(tk)
Complexité. Chaque étape de la visite consiste à retirer un
sommet tk de la file et à explorer ses voisins. Un sommet tk entre
exactement une fois dans la file : au moment de son marquage. Le
nombre d'opérations de BFS est donc proportionnel à la somme du
200
nombre de voisins de chaque sommet, c'est à dire la somme des degrés.
La propriété sur les degrés montre que le nombre d'opérations de BFS
est en O(|E|).
Si D (ti, tj) > 0 nous savons qu’il y a un court chemin entre ti et tj, tel que ti peut diffuser à tj
donc tj peut recevoir de ti . Donc, si D (ti, tj) = 1, alors est ti un possible voisin direct pour tj .
6.1.3 Chemins entre topiques : PN
Nous avons introduit la distance géodésique comme étant le plus court chemin entre
deux acteurs. Nous obtenons la valeur de distance géodésique grâce à la matrice D. Nous
l'interprétons comme le nombre de liens à passer d'un acteur à autre selon la Propriété I-1.
Cependant, entre deux acteurs, il se peut qu'il y ait un ou plusieurs chemins, de la même
longueur ou non. La matrice D ne rend pas compte de cette possibilité. Pour cela nous
introduisons la matrice PN étant la matrice contenant les nombres de chemins entre deux
acteurs. Donc, PN(ti, tj) contient le nombre de chemins entre ti et tj.
⎧0 si ti = t j
⎪
PN (ti , t j ) = ⎨0 si D (ti , t j ) = 0
⎪
⎩> 0 si ∃ chemin de ti à t j ∧ D (ti , t j ) > 0
6.1.4 Importance des relations entre topiques : W
Pour prendre en compte l'importance de chaque relation, chaque topique (sommet)
est « pesé » avec une mesure W(te, tf) représentant le nombre de références reçues du topique tf
et indexées dans un topique te. De cette façon, nous calculons une matrice W (de poids) avec
chaque élément W(te, tf), dont le topique te se trouve dans les lignes est le topique tf sur les
colonnes de la matrice, pour le topique de tf.
Définition I-5.Soit W(te, tf) la mesure d'importance de relation entre les
topiques te et tf :
W (te , t f ) =
card * (te , t f )
card (te )
⎧⎪si card (te ) = 0, W (te , t f ) = 0
,⎨
⎪⎩si t e = t f , W (te , t f ) = 0
La card*(te, tf) inclut toutes les références ayant été indexées avec le topique
te et avec le topique tf ; de façon à ce que la référence source soit celle du
topique tf, et puis indexée par le topique te
La card(te) ≡ |IR(te)| est le nombre total de références indexées dans le
topique te.
Intuition I-1. Supposons que tf soit un topique contenant des références avant
tous les autres topiques dans le réseau. Puis tf décide de diffuser son contenu à te. Le
fait que le topique te indexe des références venant de tf implique que ce sont des
références ayant de la pertinence pour te. Si ce n'est pas le cas, card*(te, tf)=0, sa valeur
minimale, et la relation n'a pas d'importance, sinon, card*(te, tf)>0 pour représenter le
fait d'appréciation du contenu de tf. Si card(te) = card*(te, tf) alors W(te, tf)=1 sa valeur
maximale, donc te dépend complètement du contenu du tf et pourtant lui donne de la
pertinence totale.
201
De cette façon, la relation d’importance W(te, tf) > 0 peut être interprétée comme « tf envoi à te
de l’information et te l’indexe ». Donc, si W(te, tf) > 0 alors mfe=1.
Notez : Du Définition I-4 et du Définition I-5 nous pouvons dire que si W(te, tf) > 0 alors tf ∈
N(te), mfe=1, D(tf , te)=1 et PN(tf , te)>0.
6.1.5 Degré de relation entre topiques : P
Afin de connaître le degré de relation entre topiques qui s'échangent des références,
nous définissons la matrice P(te, tf). Cette matrice représente la proportion de la relation entre
le topique te et le topique tf, parmi toutes les relations avec le topique te.
Définition I-6. Soit P(te, tf) la proportion de la relation entre les topiques te
et tf :
W (te , t f )
Si tf ∈ N(te), alors P(te , t f ) =
∑ W (te , t x )
t x ∈N ( t e )
sinon, P(te, tf) = 0
Intuition I-2. De tous les topiques tf ∈N(te) en relation directe avec te, te adjuge une
importance différente à chacune de ses relations. Par conséquence, si tf ∉ N(te), l'importance
adjugée est nulle. Dans le cas contraire, il faut comparer l'importance donnée à tf par rapport à
la proportion d'importance avec tous ses voisins dans N(te).
6.1.6 Propriétés de l'information dans les topiques
Comme nous l’avons déjà introduit, les informations dans les topiques sont les
références. Elles font l'objet d'échange et/ou de diffusion entre topiques. Diverses propriétés
sur les références nous intéressent. Avant de les introduire, il est nécessaire de placer ces
propriétés dans deux contextes : le contexte local et le contexte global.
Nous parlons de contexte local de l'information dans les topiques, lorsque nous nous
référons à l'information qui circule dans un voisinage de topiques. Nous parlons de contexte
global de l'information dans les topiques, lorsque nous nous referons à l'information qui
circule dans tout le réseau. Dans nos définitions, lorsque nous parlons du contexte local, nous
ajouterons le mot "local" sinon, nous parlons du contexte global.
6.1.6.1 Nouveauté de l'information
Une information est dite « nouvelle » si elle n'est pas parvenue à partir d'un topique
d'un autre utilisateur.
Définition I-7. Une référence ri va être qualifiée « nouvelle » si elle est
unique à pointer sur son correspondant lien li :
New_Info(ri) ⇔ | RU(li) | = 1
|RU(li)| est le nombre total de références pointant vers li.
Définition I-8. Une référence ri pointant le lien li et indexée dans tk va être
considérée étant originale-locale pour tk, ORIGINAL_LOCAL(ri, tk) :
Si New_Info (ri) ou
202
Si | RU(li) | > 1 ∧ (¬∃tx ∈ T | tx ∈ ATL(li) ∧ tx ∈N(tk))
(I-8.a) Donc nous pouvons obtenir les références-originales-locales d'un
topique tk avec OLR(tk) ∈ R, qui donnera l'ensemble de références indexées
dans le topique tk et qui satisfassent la Définition I-8.
6.1.6.2 Pertinence de l'information
Cette pertinence est validée dans le cas des simulations. Nous pouvons diviser selon
deux points de vue possibles : en tenant compte d’un annuaire ou en tenant compte du type
des réseaux des utilisateurs.
Pour le premier point de vue, nous pouvons dire qu’une information est dite
« pertinente » si elle appartient à la classification d’ODP.
Intuition I-3a. Une référence ri va être qualifiée « pertinente » si son correspondant lri
est classé dans ODP :
Pertinence (ri) ⇔ ri ∈ R ∧ ri ∈ RU(lri) ∧ lri ∈ Directory
Intuition I-3b. Une référence ri va être qualifiée « pertinente » si son correspondant lri
est échange entre membres d’une communauté thématique.
6.1.7 Propriétés d’un topique
Les propriétés d’un topique dépendent des propriétés de son contenu et de son état
dans le réseau. Par « état » il faut comprendre, le fait que le topique diffuse de l’information et
les autres membres du réseau l’acceptent : c’est à dire, l’appréciation d’un topique vis à vis
des membres du réseau.
Pour nous aider à connaître l'état ou l’appréciation des topiques dans le réseau, du
point de vue de l’utilisateur, nous présentons dans l’interface de « conscience sociale » la liste
de topiques que l’utilisateur peut visualiser, avec des logotypes indiquant l’appréciation du
topique (graphes pondérés); du point de vue du système, nous calculons des mesures issues
des analyses de la topologie formée par les échanges de références entre topiques (graphes
dirigés) ; que nous décrivons ci-dessous.
6.1.7.1 Originalité
L'originalité d'un topique reflète la nouveauté de ses références. Une référence dans un
topique, va être qualifiée d'originale lorsqu'elle est nouvelle, c'est-à-dire que personne d’autre
dans le réseau ne connaît le lien sur lequel elle pointe.
Intuition I-4. Un topique est dit « original » s’il contient des références peu
référencées.
Définition I-9. Soit Original(ti) la valeur d'originalité du topique ti :
Original (t i ) =
1
1
* ∑
∑ Original (t j ) ri∈IR (ti )∧ri .lri ATL(l ri )
t j ∈T
IR(ti) ⊆ R est l'ensemble références indexées dans ti
203
ATL(lri) ⊆ T est l'ensemble de topiques indexant le document identifié par lri
et pointé par ri | ri ∈ RU(lri) ⊆ R
ri. li selon I-1.h : une référence ri un lien lri, etc.
∀ri ∈ R, ∃idri ∧ ∃lri ∧ ∃commri ∧ ∃ATR(ri)
Nous calculons l’originalité d’un topique ti avec la mesure de la Définition I-9
ci-dessus.
6.1.7.2 Connectivité
La connectivité entre topiques est vue en termes de pertinence entre les références
qu’ils contiennent. Cette connectivité est validée dans le cas des simulations. Il s’agit de
valider si deux topiques sont « connectables » parce que les informations qu’ils contiennent
sont similaires. Cette « similarité » est obtenue à partir de notre algorithme de filtrage
collaboratif et de l’annuaire ODP.
De cette façon, on peut constater une connectivité globale ou particulière selon le type
de réseau à analyser. Si le réseau à analyser est formé par tous les topiques du système, nous
parlons de connectivité globale. Si le réseau à analyser est un sous-réseau tel qu’il est formé
par une communauté thématique, c’est à dire, un réseau où l’information échangée
porte sur un même domaine ou un même sujet, nous parlons de connectivité particulière où
connectabilité de communauté thématique.
Définition I-10. Un topique ti est connectable au topique tj si et
seulement si :
(I-10.a) les deux, ti et tj sont assignés à la même catégorie ODP
ou
(I-10.b) ti est assigné à une sous-catégorie de la catégorie assignée à tj
De cette façon, nous avons des topiques connectables et des topiques connectés. Les
topiques connectables sont calculés selon le type du réseau. Si le réseau à analyser est le
global, nous avons les CTG(te), qui contiennent les topiques connectables à te. Si le réseau à
analyser est une communauté thématique, les CTTC(te) sont tous les topiques du sous-réseau
thématique sauf te. Nous avons donc la relation CONNECTABLE (tj, ti) qui se lit « ti est
connectable à tj » selon le réseau à analyser. Les topiques connectés échangent des références
et les indexent. Par exemple, ti et tj sont connectés si W(ti, tj) > 0 ou si W(tj, ti) > 0.
Définition I-11. Soit CTG(te) ⊆ T l’ensemble de topiques connectables à te
selon la Définition I-10 :
∀ te ∈ T, ∃ tf ∈ CTG(te) | CONNECTABLE (te , tf)
Définition I-12. Soit CTTC(te) ⊆ TE l’ensemble de topiques connectables à
te , TE ⊆ T :
(I-12.a) TE est une communauté thématique, un ensemble de topiques
contenant des références sur le même domaine E et te ∈ TE ;
∀ te ∈ T, ∃ tf ∈ CTTC(te) | CONNECTABLE (te , tf) ∧ tf ∈ TE ∧ te ≠ tf
204
6.1.7.3 Réputation locale
Nous considérons important le concept de réputation d’un topique, typiquement dans
le cas des réseaux thématiques. Ce concept est ambigu dans la littérature des analyses de
réseaux sociaux parce qu’il est souvent utilisé comme synonyme de « centralité » ou de
« prestige ».
Dans cette littérature, la centralité d'un acteur indique la façon dont il est central dans
le réseau. Un acteur est très central lorsqu'il est engagé directement ou indirectement dans
beaucoup d’échanges. Différentes mesures (centralité de degré, centralité de proximité et
centralité d'intermédiarité) ont été utilisées comme indicateur de centralité. Certaines mesures
de centralité pondèrent les échanges d'un acteur aux autres par la centralité de ces autres
acteurs. Selon Wassermann, on parle de centralité lorsque les graphes sont non dirigés et on
parle de prestige lorsque les graphes sont dirigés.
Dans la perspective de graphes dirigés, nous utilisons le concept de réputation pour
obtenir les utilisateurs du réseau, qui sont reconnus d'après leurs participations (diffuser) dans
le réseau, injectant des informations de qualité et acceptées/indexées par un grand nombre de
membres.
Intuition I-5. Plus les membres du réseau indexent les références venant d’un topique,
plus il devient réputé.
6.1.7.3.1 Réputation de degré
La réputation de degré d'un acteur précise le nombre de relations directes de l'acteur
avec les autres acteurs du réseau (Freeman, 1978/79). Autrement dit, un acteur est central/réputé
lorsqu'il est fortement connecté aux autres et est périphérique dans le cas contraire. Une autre
interprétation, selon Lazega, est que l'acteur le plus central est l'acteur le plus « actif » du
système (Lazeaga, 1998). Ce degré représente également l'indice du potentiel de communication
d'un acteur. Le degré d'un acteur correspond au nombre d'autres acteurs qui lui sont adjacents.
Définition I-13. Soit le topique ti, g le nombre de topiques dans le réseau, de
façon générale nous pouvons obtenir l’indice de réputation de degré RD(ti)
(normalisée) avec :
g
RD(ti ) =
g
∑m
j =1
ji
∑m
j =1
ji
T −1
implique le degré de sortie ti que satisfasse : ∀ti∈T, ∃tj |W(tj,ti)>0.
Cet indice est très sensible à la taille du réseau. La réputation maximale de degré d'un
acteur correspond à celle du degré d'une étoile, c'est à dire, où un acteur est adjacent à (|T|-1)
autres acteurs. Cet indice est très significatif dans le cas d’un réseau thématique où tous les
(|T|-1) topiques sont considérés comme des « récepteurs potentiels» d’information de ti. Par
« récepteurs potentiels » nous entendons ceux intéressés par le contenu de ti et donc pour
lesquels l’information dans ti est pertinente.
6.1.7.3.2 Réputation d'Intermédiarité
205
La réputation d'intermédiarité mesure la façon dont un acteur apparaît indispensable
dans les échanges entre les autres individus. La distinction par rapport à la réputation de degré
vient du fait qu'un individu faiblement connecté aux autres individus peut se révéler être un
intermédiaire indispensable dans le réseau. De ce point de vue, un acteur est bien réputé
lorsqu'il est un passage obligé dans le réseau.
Lorsque deux acteurs ne sont pas adjacents, ils sont dépendants des membres du
réseau situés sur le chemin PN qui relie ces deux acteurs. Les intermédiaires ont alors la
possibilité de contrôler la circulation de l'information (rétention, distorsion, etc.) et par
conséquent, d'influencer le groupe. De cette façon, plus un individu est un passage obligé,
plus il se trouve au milieu et donc plus il est central dans le réseau (Lazeaga, 1998). Donc, nous
pouvons utiliser cette mesure pour connaître le potentiel de contrôle dans les interactions
entre les membres du réseau.
Déterminer l'indice de réputation d'intermédiarité est simple lorsqu'il n'existe qu'une
seule géodésique entre chaque paire d'acteurs. La situation devient plus complexe lorsque
plusieurs géodésiques coexistent.
Un acteur est qualifié d'intermédiaire s'il se trouve sur l'unique ou sur tous les chemins
plus courts (géodésiques) entre deux autres acteurs.
Définition I-14. Selon Freeman (1978/79) et modifié selon Wassermann
(5.11/5.12 et détaillé sur p201, 1994) (pour un graphe dirigé) : soit 1/PN(aj,ak) la
probabilité d'utiliser une des géodésiques entre aj et ak. Nous considérons la
probabilité qu'un autre acteur ai soit « impliqué » dans ces géodésiques.
Donc soit PNjk(ai) le nombre de géodésiques entre deux acteurs aj et ak qui
contiennent l'acteur ai, l'intermédiarité de ces deux probabilités pour obtenir
combien « intermédiaire » est un acteur des autres, est donnée par (sans
inclure l'acteur ai) :
PN jk (ai )
∑
j<k
RI (ai ) =
avec i≠j≠k
PN (a j , ak )
En standardisant pour un graphe dirigé, il faut inclure le maximum de paires
d'acteurs sans ai, nous obtenons :
RI (ai )
RI ' (ai ) =
avec g nombre d’acteurs dans le réseau.
( g − 1)( g − 2)
6.1.7.3.3 Réputation de proximité
La proximité d'un acteur indique la façon dont il est proche ou peut facilement
atteindre les autres acteurs du réseau. Elle est également mesurée par la longueur du chemin
(liens directs et indirects) vers tous les autres acteurs.
Définition I-15. Le domaine d'influence d'un acteur ai est l'ensemble
d'acteurs qui sont directement ou indirectement liés à lui. Il sont les acteurs
que ai peut atteindre. Soit Ii, le nombre d'acteurs dans le domaine d'influence
de ai Lin(1976). Comme Wassermann (5-25; page 203-204, 1994), nous
considérons la proximité de tous les acteurs à ai :
206
RP(ai ) =
I i ( g − 1)
où g est le nombre d'acteurs dans le réseau.
∑ D (a j , ai ) Ii
Ii est le nombre d'acteurs qui peuvent « diffuser » à ai , qui n’est pas le même que
N(ai). C'est à dire, le nombre d'acteurs qui peuvent envoyer de l'information à ai autrement dit,
l'ensemble d'acteurs susceptibles d’augmenter sa réputation si ai indexe d’eux. Ils peuvent être
repérés à partir des éléments différents de zéro sur la ligne de la position de ai dans la matrice
D. Ii est donc, ce que les sociologues appellent « reachability/joignabilité » (les entrées
différentes de zéro de la matrice de distances géodésiques)
Notez que cette formule offre les acteurs étant les plus « proches » dans une
communauté thématique. Donc, elle ne révèle pas l'acteur le plus réputé dans le réseau global.
6.1.7.3.4 Avantages et inconvénients des réputations
Après avoir définit les mesures classiques de réputation, nous montrons ci-dessus les
aspects positifs et négatifs de chacune :
Réputation de degré
But de sa définition
Interprétation
Aspects positifs pour
l'acteur concerné
Aspects négatifs pour
l'acteur concerné
Aspects positifs pour les
autres acteurs
Aspects négatifs pour les
autres acteurs
Nombre de voisins
Potentiel de
communication
Peut toucher et être
touché par un très grand
nombre d'individus
(diversité des
informations)
Risque de saturation
technique ou de son
attention (nombre
d'informations,
hétérogénéité des
informations) risque de
redondances
Simplicité : nombre
d'interlocuteurs
Information centralisée :
pas de redondances
Peu d'interlocuteurs,
informations homogènes
Réputation
d'Intermédiarité
Passage obligé
Potentiel de controle
Réputation de
proximité
Proche des autres
Indépendance de l’activité
et efficacité
Peut filtrer les
informations, bénéfice en
priorité des opportunités
(ex. petit annonce),
décide de la coordination
entre besoins et
ressources, pouvoir de
négociation
(trou structural)
Peut transmettre et
recevoir les informations
de façon autonome
(information originale:
non déformée) en un
minimum de temps.
Risque de saturation
technique ou de son
attention (volume
d'information)
Pas d'épuration de
l'information (forte
diversité d'intérêt des
informations reçues)
Simplicité : nombre
d'interlocuteurs
Efficacité des
transmissions (faible
distance)
Dépendance et information
standardisée
Rente d'une information
très courte dans le temps
(tout le monde est
rapidement informé de
tout)
Tableau 2. Aspects positifs et négatifs des trois centralités de base.
Dans le cadre des simulations (qui simule notre contexte de communauté thématique),
nous nous sommes concentrés sur la réputation de degré, afin de valider nos théories du point
de vue de la réputation d’un acteur. Celle-ci s’adapte parfaitement à notre contexte. Cette
207
décision a été également influencée par le temps de réponse rapide du calcule de RD(ti).
Cependant, dans un cadre plus général, nous avons construit un algorithme récursif qui
calcule l’indice de réputation d’un acteur, dans le contexte du réseau global. Nous
l’expliquons dans la section ci-dessous.
6.1.7.4 Réputation à la PageRank : RankRéputation
Afin de vérifier la réputation des acteurs du réseau global, nous avons utilisé la mesure
de PageRank, utilisée pour les pages du Web (Brin et Page, 1998). Nous avons modifié cette
mesure pour ce que nous nommons RankRéputation ou tout simplement RR (selon
Wasserman 5.28, 1994) pour qu'elle tienne compte du type de relations dans notre réseau.
Rappelez-vous des intuitions I-1, I-2 et I-5, où nous considérons que si te indexe les références
de tf , alors te trouve le contenu de tf intéressant.
Les relations dans notre système sont alors du type « te donne de la réputation à tf » : tf
← te . Ceci est vrai si et seulement si t f ⎯envoie
⎯⎯→ te et te indexe au moins une référence
de tf. Nous considérons que cette relation est l'inverse de la relation modélisée dans
notre matrice W, qui reflète le flux d'information à travers les topiques (tf → te). En
effet, si un utilisateur indexe des références reçues d’un topique tf avec son topique te,
alors le topique te donne de la réputation au topique tf. C’est pourquoi nous utilisons
W(tf, te) au lieu de W(te, tf) pour le calcul de RR(te).
De cette manière, chaque élément RR(te) du vecteur est défini selon la formule
récursive :
Définition I-16. Le RankRéputation d'un topique te dépend de la
réputation des topiques recevant de l'information de te.
RR(te ) = ∑ W (t f , te ) RR(t f )
W étant stochastique et ayant des propriétés de convergence.
En effet, si la réputation de topiques tf indexant de l’information venant de te est
élevée, ils augmentent la réputation de te . Ceci a le même effet de dire que si le président de
la république indexe l’information que vous lui diffusez, alors sa réputation vous concède une
réputation (comparée aux autres).
L'algorithme de PageRank nécessite que les poids de la matrice adjacente W(te, tf) soient
modifiés dans W*(te, tf) afin d'avoir les propriétés de convergence nécessaires (Brin et Page,
1998). Ceci est partiellement atteint, parce que, une fois que les nouveaux poids W*( te, tf) sont
normalisés, ils représentent la probabilité pour un document indexé par une référence dans tf,
d'être indexé dans un topique te. Ainsi, notre matrice W correspond à une matrice
stochastique. D’ailleurs, en suivant l'algorithme PageRank, nous complétons également le
graphe avec des nouvelles connexions afin d'avoir tous les nœuds connectés.
6.1.7.5 Redondance entre topiques
Un topique te est redondant avec tf lorsqu'il réunit des informations provenant des
mêmes fournisseurs d’informations de tf . Cette mesure est très utile pour trouver un topique
qui contient le plus d'information représentative d'un sujet donné.
208
Définition I-17. Explicitement, la redondance entre le topique te et le
topique tf dépend de :
Le topique tf est diffuse information au topique te et te indexe ces
informations de tf.
Les topiques qui diffusent au topique te diffusent aussi au topique tf.
RED(t e , t f ) = P(t e , t f ) + ∑ P(t e , t f )P(t f , t x ) et P(te, tf) selon Définition I-6
t x ∈N ( t e )
Un topique te « est redondant » avec un topique tf si les deux recueillent le même type
d'information des mêmes sources. Cet indicateur identifie les topiques qui sont redondants,
non seulement selon leur contenu actuel, mais aussi selon leur capacité pour agréger les
contenus futurs venant des autres topiques.
6.1.7.6 Réactivité à l’information nouvelle
Nous nous intéressons à la vitesse de diffusion de l’information nouvelle. Il s’agit de
valider si les nouveautés sont appréciées.
Définition I-18. Un topique te réagisse à l’information nouvelle selon
NR(te) où NR(te) est taux de réactivité aux informations nouvelles de te :
NR (te ) =
1
* O(t f )
t f ∈DFE ( t e ) D (t f , te )
∑
∑ O( f )
t f ∈DFE ( t e )
(I-18.a) DFE(te)∈T, est l’ensemble de topiques tel qu’il existe un chemin
court de tf vers te : ∀te∈T, ∃ tf | D(tf, te)>0.
Cette réactivité à l’information nouvelle est validée dans le cas des simulations, pour
un réseau du type communauté thématique.
6.1.7.7 Coût
Nous cherchons maintenant à évaluer le coût d’établir des relations. Plus un réseau est
connecté, plus il est « cher ».
Définition I-19. Le coût pour te d’établir des relations dépende du nombre de voisins
de te et du nombre de tous leurs possibles topiques qui peuvent lui envoyer de l’information
(selon la Définition I-10 de connectivité entre topiques). Ainsi, le coût pour te est calculé
selon la formule :
N (t e )
Cost (e) =
CONN (t e )
où |CONN(te)| indique le nombre de possibles topiques fournisseurs pour te,
CONN(te) représente soit CTG(te) ⊆ T ou CTTC(te) ⊆ TE, TE ⊆ T, selon le type du
réseau social.
209
6.1.7.8 Efficacité
Selon nos définitions, plus un topique diffuse plus il a des chances de devenir réputé,
mais que dans le cas où ses informations seraient pertinentes parce que d’autres topiques
indexaient ses références. Si les autres indexent ses références, alors la connectivité du
topique augmente. Ainsi, plus la topologie du réseau a des connexions, plus facile de faire
arriver l’information à tous ses membres.
La topologie dans notre système n’est pas ni régulière ni aléatoire mais quelque chose
au milieu de ces deux cas extrêmes : elle est du type « Small Worlds » ou « Petits Mondes »
(Wattz, 1999). A ce sujet, Lattora et Marchiori ont développé des mesures pour calculer
l’efficacité d’un réseau de ce type, c’est à dire, la capacité à ce que le flux d’information
circule.
Une mesure d’efficacité va nous permettre de savoir que l’information se diffuse correctement
dans un réseau.
Nous nous intéressons donc à calculer l’efficacité pour un topique à diffuser aux autres
membres du réseau. Nous appelons cette efficacité, efficacité locale.
Intuition I-6. Nous supposons que chaque topique te envoie de l’information, à travers
le réseau, aux autres topiques du réseau.
Définition I-20. L’efficacité locale d’un topique te dépende de la moyenne
des distances géodésiques entre te et un topique tf ∈DFE(te), laquelle est
inversement proportionnelle 1/D(te,tf) ∀te,tf .
LocEff (te ) =
DFE (te )
, et DFE(te) selon (I-18.a).
∑ D(te , t f )
t f ∈DFE ( t e )
Notez que nous assumons qu’efficacité locale et distance sont inversement
proportionnelles.
Bien si le fait de diffuser le plus possible d’information est important, le coût l’est
aussi. Nous devons vérifier que le coût d’établir relations ne soit pas très cher. Pour cette
raison, nous intégrons le coût pour construire une formule d’efficacité du réseau :
Définition I-21. L’efficacité d’un topique te est calculée selon son
efficacité locale par rapport à ses distances géodésiques et le coût d’établir
ces possibles relations :
Efficacity ( t e ) =
locEff ( t e )
Cost ( t e )
Cette efficacité est validée dans le cas des simulations, pour un réseau du type
communauté thématique.
210
6.1.7.9 Agrégation entre topiques
Un topique te est agrégé par un topique tf lorsque quelques fournisseurs d’informations
de tf et te sont les mêmes (et à l’inverse). Il s’agit de tenir compte du nombre de sources
nouvelles d’information de tf intéressantes pour te quand les fournisseurs de nouvelles
informations augmente pour tf :
Définition I-22. La valeur d’agrégation entre le topique te et le topique tf
dépend du nombre de nouveaux fournisseurs d’information du tf par rapport
à te :
AGREG (te , t f ) =
∑ inN
n f ∈N ( t f )
E
où inNE = 1 ssi nf ∈ N(tf) ∧ nf ⊄ N(te) sinon inNE = 0
6.2 Réseau d'utilisateurs
Le réseau des utilisateurs sera évalué en fonction de relations entre leurs topiques. Ces
relations sont obtenues grâce à leurs listes de diffusion correspondantes et les échanges
effectués entre eux, validés par le fait d’indexer les références échangées.
En conséquence et par analogie, les « propriétés » des utilisateurs dans le réseau sont
obtenues selon les propriétés de leurs topiques correspondants. Ainsi, un utilisateur
propriétaire de topiques réputés sera reconnu réputé, un autre utilisateur ayant des topiques
originaux sera reconnu « source d’information » parce qu’il injecte de la nouvelle information
dans le réseau.
Nous utilisons donc les indicateurs d’originalité et de réputation afin de reconnaître les
utilisateurs « sources » d'information (parce que leurs informations sont originales) et les
utilisateurs gérant de l'information mieux reconnue dans leur réseau de contacts, que nous
appellerons des contacts réputés. L’indicateur de redondance sera pris en compte par le
recommandeur afin de décider les recommandations à faire.
6.2.1.1 Contacts sources d’information
Si un utilisateur injecte de l'information « nouvelle » dans le réseau, le recommandeur
peut le localiser selon :
Définition I-19. Soit CS(ui) la valeur source du contact ui calculée comme
la moyenne des originalités des topiques dans UT(ui) :
∑ Original (t j )
CS (ui ) =
t j ∈UT ( ui )
UT (ui )
6.2.1.2 Contacts réputés
Si un utilisateur est propriétaire de l'information « appréciée » par les autres membres
du réseau, le recommandeur peut le localiser selon :
211
Définition I-20. Soit CR(ui) la valeur de réputation pour le contact ui calculé
comme la moyenne des réputations de topiques dans UT(ui) :
n
PP C (ui ) = ∑ i =0 PP (ti ) où ti ⊆ UT(ui)
212
Annexe II–7. Versions initiales de SoMeONe
7 Divers aperçus de SoMeONe
Nous présentons ici un aperçu des interfaces des versions de SoMeONe. Nous
intégrons également le service offert au cartable électronique®.
7.1 Aperçu de SoMeONe (version initiale)
Nous présentons ici les interfaces du prototype SoMeONe. Ce prototype est passé par
différentes versions. Nous présentons ici les toutes premières. Pour la dernière partie qui
décrit la gestion de contacts, nous présentons les interfaces d’une version améliorée.
7.1.1 Inscription
Cette page est la page d'authentification. Elle permet aussi de s'inscrire.
Figure 7-1. Page d'authentification
A première connexion, l’utilisateur est obligé de s’inscrire au service.
Figure 7-2. Formulaire d'inscription.
213
Une fois que l’utilisateur est inscrit, il lui est conseillé de saisir son profil en cliquant
sur le lien « Profil » (§IV.4 : « Se faire connaître »).
7.1.2 Page personnelle de l’utilisateur
Voici la page d'accueil de SoMeONe une fois que l’utilisateur a été authentifié :
Figure 7-3. Page d'accueil.
Au centre de la page (« Autres topiques »), l'utilisateur visualise les topiques des autres
membres auxquels il a accès (ceux qui l'ont ajouté aux listes de diffusion de leurs topiques).
Par exemple, l'utilisateur a reçu des nouvelles références dans le topique « Java » de lucien
ainsi que dans le topique « Voyages » de thomas. Il est également possible de supprimer les
topiques que l'on ne désire plus avec le bouton « Supprimer ce topique ».
On trouve à gauche (« Mes Topiques ») les topiques créés par l'utilisateur. C'est dans
cette nomenclature qu'il classe les références de son intérêt. L'utilisateur peut associer une
liste de diffusion (bouton « Listes de Diffusion ») à chacun de ses topiques,. En cliquant sur le
nom du topique, SoMeONe liste toutes les références classées.
A gauche de la page, l'utilisateur consulte les références du topique « Java » reçu de
lucien. Il y a une seule nouvelle référence. L'utilisateur peut ajouter cette référence à ses
propres topiques (bouton « Ajouter à mes topiques ») ou la supprimer (bouton « Supprimer »),
c'est à dire qu'il ne désire plus y avoir accès. Une fois ajoutée à ses propres topiques ou
supprimé, cette référence n'apparaîtra plus dans cette page.
7.1.3 Gestion des topiques
SoMeONe permet de gérer une liste hiérarchique de topiques. Ces topiques sont
comme des favoris, une nomenclature personnelle où il est possible de classer les contenus
que l’utilisateur juge les plus intéressants. Pour accéder à ce gestionnaire, il faut cliquer sur
« Gérer mes Topiques » dans le menu.
214
Figure 7-4. Gestion de topiques.
Un topique est constitué d'un nom et éventuellement une description. La description
est utilisée pour aider les autres utilisateurs à mieux cerner les topiques d'un utilisateur dans
son profil public par exemple. Pour afficher une description, il suffit de passer la souris sur le
symbole « ? » qui suit le nom du topique.
Figure 7-5. Description d'un topique.
7.1.3.1 Liste de diffusion
A chacun des topiques de l’utilisateur est associée une « liste de diffusion ». Chaque
personne de cette liste de diffusion a accès aux informations classées sous ce topique. Pour
modifier la liste de diffusion d'un des topiques, il faut sélectionner un topique dans « Mes
Topiques » dans la page d'accueil et cliquer ensuite sur « Listes de diffusion ». Il suffit ensuite,
de cocher les utilisateurs à qui l’utilisateur souhaite diffuser ce topique.
Il faut noter que chaque spécialisation d'un topique hérite automatiquement des
propriétés de celui-ci. Par exemple, avec la nomenclature ci-avant, si on ajoute un utilisateur
dans la liste de diffusion de « Langages », cet utilisateur aura aussi accès à « Java » et « C++ ».
Il est tout de même possible de modifier les listes de diffusion de tous les topiques.
215
7.1.3.2 Ajouter une information
Pour ajouter de l'information, l’utilisateur dispose du « 1 click-Review ». C'est un lien
qu'il suffit de copier/coller dans la barre de liens du navigateur. Pour l'installer, in ne faut que
cliquer sur le lien « Avez-vous installé le 1 Click-Review ? ».
Figure 7-6. 1 Click-Review installé sur Internet Explorer.
Lors des prochaines recherches sur Internet, si l’utilisateur trouve une référence
intéressante, il lui suffit de cliquer sur le lien « SOMEONE ». Une nouvelle fenêtre s'ouvre sur
le formulaire d'ajout d'information. Le titre, l'URL et le texte sélectionné dans la page sont
envoyés automatiquement à ce formulaire. L’utilisateur n’a alors plus qu'à sélectionner un ou
plusieurs de vos topiques. C'est aussi simple que d'ajouter un lien dans vos favoris.
Figure 7-7. Formulaire d'ajout d'information (éventuellement après clique sur le "1
click review").
Si jamais l’utilisateur ne dispose pas de topique adéquat pour classer cette nouvelle
référence, il doit sélectionner le topique « A Ranger » qui est automatiquement créé lors de
l'inscription. Ce topique sert de tampon. Lors d'une prochaine visite sur SoMeONe,
l’utilisateur pourra classer toutes ces informations dans un topique mieux adapté.
Les informations classées sont structurées comme suit :
L'adresse du document.
Le titre du document.
216
Un commentaire.
Chaque information peut être classée dans un ou plusieurs topiques.
Il existe 3 méthodes pour ajouter une information :
Cliquer sur « Ajouter une info » dans le menu.
Grâce aux listes de diffusion des topiques des autres utilisateurs, l’utilisateur reçoit des
références à des documents Web, qu’il peut classer dans ses topiques.
Utiliser la bookmarklet164 « 1 click-review ».
SoMeONe permet aussi de filtrer ce que l’utilisateur reçoit en sélectionnant les
topiques ou les références qu’il ne désire pas.
7.1.4 Se faire connaître
Pour recevoir de l'information des autres utilisateurs, il est important de se faire
connaître. Chaque utilisateur possède un profil qu'il peut rendre visible (partiellement ou
totalement) aux autres utilisateurs. On peut y faire apparaître des informations personnelles
(adresse mail, nom, informations diverses…) ainsi que ses topiques.
Pour y accéder, il faut cliquer sur « Profil » dans le menu. Cette première page est le
profil de l’utilisateur et contient donc différentes informations qu’il peut renseigner ou non.
Figure 7-8. Profil utilisateur.
Une bookmarklet appelée « 1 click-review » est un lien qu'il suffit de copier/coller dans la barre de
liens du navigateur, qui sert dans notre contexte, comme raccourci pour ajouter références quasiautomatiquement dans la nomenclature personnelle pendant la navigation sur le Web. Cela ne fonctionne
qu’avec Internet Explorer.
164
217
Le lien « Visibilité de votre profil pour les autres utilisateurs », va permettre à l’utilisateur de
préciser ce qu’il veut rendre visible aux autres membres. En rendant ses topiques publics,
l’utilisateur permet aux autres utilisateurs intéressés par les mêmes domaines que lui, de
recevoir des références intéressantes. En échange, ils l'ajouteront probablement aux listes de
diffusion de leurs topiques.
Figure 7-9. Visibilité d'un profil utilisateur aux autres membres.
Les utilisateurs peuvent ainsi se former une opinion sur les centres d'intérêts d'autres
membres en visualisant leur profil public.
De ce fait, se faire connaître permet à l’utilisateur d'être ajouté dans les listes de
diffusion d'autres membres et ainsi de recevoir de l'information. Cependant il peut également,
trouver de nouveaux contacts pour améliorer ou augmenter l’information dans ses topiques ou
connaître sur des nouveaux domaines.
7.1.5 Trouver des contacts
SoMeONe donne à l’utilisateur la possibilité de trouver de nouveaux contacts. Pour
cela, il faut cliquer sur le lien « Trouver des contacts », puis sur le lien « Liste des topiques
publics ».
Le système liste alors l'ensemble des topiques publics auxquels l’utilisateur n'a pas
encore accès. Les topiques sont listés avec leur description ainsi que l’identificateur (login) de
leurs propriétaires. L’utilisateur peut être ajouté aux listes de diffusion des topiques
sélectionnés pour recevoir de nouvelles références.
218
Figure 7-10. Trouver de nouveaux contacts.
Dans cette même page, le lien « Mes contacts » dresse le bilan des contacts de
l’utilisateur, à savoir ses contacts « receveurs » tout comme ses contacts « émetteurs ».
Figure 7-11. Liste de mes contacts.
De ce fait, se faire connaître ou trouver des nouveaux contacts, engage la construction
du réseau de connaissance de l’utilisateur : son réseau social, c’est à dire, les relations établies
par l’échange de références entre les utilisateurs, qui sont influencées par la dynamique
d’usage du SoMeONe. Nous détaillons la gestion de ce réseau dans la section ci-dessous.
219
7.1.6 Gestion du réseau de contacts
Afin de motiver une dynamique d’échanges d’information dans SoMeONe, il faut que
l'utilisateur puise trouver les outils pour la
gestion de son information et de ses contacts.
Ainsi, SoMeONe lui permet de :
Obtenir des recommandations de contacts.
Le système doit lui montrer les meilleures
options de contacts selon le type
d'information cherché.
La petite image
Connaître la situation actuelle de ses
est utilisée pour afficher
échanges d'information avec les autres.
des informations liées à
l'action qui se trouve écrite de
éd i
Pour cela, il faut accéder à l'interface de gestion de ses contacts (version améliorée par
rapport aux Figures 7.10 et 7.11) dans ma figure ci-dessous. Cette interface est accessible
depuis le lien « Gérer mes contacts » du menu principal. Ce lien, va vers l'interface « Mon
réseau ».
Figure 7-12. Page d’accueil pour la gestion de contacts.
Cette interface a deux liens importants :
Trouver contacts. Lien vers une interface où l'utilisateur peut trouver des
recommandations de contacts. Dans la version antérieure, ceci consistait à visualiser les
topiques publics d’autres utilisateurs (voir le lien « Liste des topiques publiques » Figure
7-10).
Mes contacts. Ce lien permet à l'utilisateur de connaître la situation actuelle de ses
échanges d'information. Par échanges d'information, nous voulons dire, les références
échangées entre contacts et classées éventuellement dans leurs propres topiques
personnels (adoption de références). Ainsi, l'information qu'un utilisateur adopte d'un
autre est comptabilisée selon le nombre de références adoptées des topiques.
220
Figure 7-13. Fenêtre affichant le profil public d'un contact, listant ses topiques
publics et puis, les topiques reçus et les topiques envoyés entre ce contact et l'utilisateur
connecté dans le système. Dans cet exemple, le contact est "jc".
Bien noter que l'utilisateur est la personne connectée et ses contacts sont les autres
personnes avec lesquelles il échange des informations.
Une fois que l'utilisateur accède à l'interface de « Mes contacts » il trouve l'information
suivante :
(1) Topiques reçus. L'information affichée dans l'image explique que dans cette colonne,
l'utilisateur trouve listés, les contacts dont il reçoit de l'information et qu'il n'a pas refusé de
recevoir (donc ses contacts « émetteurs »). Certains (ou tous) de ces contacts peuvent
éventuellement être ses
préférés, si l'utilisateur
adopte des références
de leurs topiques.
(2) Topiques envoyés.
L'information affichée
dans l'image explique
que dans cette colonne,
l'utilisateur trouve listés les contacts « receveurs » (auxquels il envoie ses topiques) et qui
n'ont pas refusé de les recevoir. Ces contacts peuvent éventuellement être ses fans parce qu'ils
adoptent ses références de topiques.
Les contacts sont listés selon les critères suivants:
Pour les topiques reçus nous listons :
- Le nom du contact 165. Le nom du contact est un lien vers le profil public du contact. Ce
profil public est aperçu dans une petite fenêtre (pop-up) (§Figure 7-13). L'image àcoté du nom du contact sert à montrer le rating (pourcentage) que l'utilisateur donne à
ce contact par rapport au nombre de références qu'il adopte de lui. Si l'utilisateur adopte
l'information de ce contact, ce contact est pour lui un contact préféré. Les images de
rating sont montrées à 5 niveaux (
,
,
,
,
)
pour qualifier le niveau de contact préféré, c'est à dire, pour montrer en ordre
descendant, les contacts dont l'utilisateur adopte le plus d'information. Il existe un
sixième niveau (
), qui veut dire que l'utilisateur ne prend pas d'information de
ce contact. Par contre, les contacts listés avec cette image à côté seront listés par
nombre de topiques que l'utilisateur reçoit de lui, c'est à dire, qu'il se peut que
l'utilisateur ne prenne pas information de ces contacts par contre, lui reçoit un ou
165
L'identifiant du contact dans le système (son login).
221
-
plusieurs topiques de ce contact. Alors, la façon de leur lister est aussi de façon
descendante par nombre de topiques reçus. Si l'utilisateur passe son souri sur l'image de
rating, elle montrera une affiche disant le nombre total de topiques que l'utilisateur
reçoit de ce contact (ses préférés et les autres).
Les topiques préférés (« Mes préférés ») Sont listés les topiques reçus du contact dont
l'utilisateur adopte les références. L'ordre est défini selon une moyenne. La moyenne se
calcule selon le nombre de références adoptées de ce topique166. Alors, ces topiques
sont également listés, en ordre descendant de la valeur moyenne.
Chaque nom du topique est un lien vers l'interface qui montre le contenu du
topique. Par exemple, dans le topique préféré projets de pascal, il a deux documents. Il
y a également une petite image à son coté. Cette image affiche:
Entre parenthèses, la moyenne.
Entre crochets la description du topique.
Le nombre de références que
l'utilisateur adopte de ce topique.
Alors, dans l'exemple, l'image
à
coté de projets afficherait: « (0.5) [projets
de pascal base2] dont j’adopte 1
référence(s) ».
Juste après l'image, il est affiché aussi
entre parenthèses, un petit numéro qui
veut dire le nombre de références que l'utilisateur a adopté de ce topique. Ce numéro
est un lien vers une petite fenêtre (pop-up) qui affiche à détail les références
adoptées du topique correspondant. Dans l'exemple, la petite fenêtre afficherait que
l'utilisateur préfère de son contact pascal, le topique projets. Le nom du topique est
un lien qui contrôle la fenêtre père pour y
afficher le contenu détaillé du topique. Il
afficherait également le nombre de
références adoptées et à continuation elles
seront toutes listées. Le nom d’une référence est un lien qui ouvre un navigateur
avec le document Web correspondant. A-côté du nom de chaque référence, est
affichée son information correspondante.
- Les autres topiques (« Autres »). Ils sont aussi listés les topiques que l'utilisateur reçoit
mais il n’adopte pas des références dans ses topiques.
Pour les topiques envoyés :
Il s’agit ici de lister les personnes qui reçoivent de l'information de l'utilisateur.
Nous listons ici :
- Le nom du contact 9. Le nom du contact est un lien vers le profil public du contact. Ce
profil public est aperçu dans une petite fenêtre (pop-up) (§Figure 7-13). L'image àcoté du nom du contact sert à montrer le pourcentage que le contact donne à l'utilisateur
par rapport au nombre de références qu'il adopte de lui. Si le contact adopte
information de l'utilisateur, alors pour le contact, l'utilisateur est un fan. Les images de
rating sont également montrées à 5 niveaux (
,
,
,
,
) pour qualifier le niveau de fan qu'un contact est de l'utilisateur, c'est à dire,
166
Nombre de références prises du topique / nombre de références dans le topique. De l'exemple,
topique projets de pascal, l'utilisateur a adopté 1 référence et le topique contient deux références, alors sa
moyenne est ½=0,5.
222
-
pour montrer en ordre descendant, les personnes adoptant le plus de références de
l'utilisateur. Il existe un sixième niveau (
), pour monter le contact qui ne prend
pas information de l'utilisateur. Par contre, les personnes listées avec cette image à côté
seront listées par nombre de topiques qu'ils reçoivent de l'utilisateur, c'est à dire, qu'il se
peut que ces personnes n’adoptent pas des références de l'utilisateur par contre, eux
reçoivent un ou plusieurs topiques de lui. Alors, la façon de les lister est aussi de façon
descendante par nombre de topiques que l'utilisateur leur envoie. Si l'utilisateur passe
son souri sur l'image de rating, elle montrera une affiche montrant le nombre total de
topiques envoyés vers cette personne (ses fans et les autres).
Les topiques préférés (« Ses préférés ») Ils sont listés les topiques envoyés vers ce
contact et lui adopte des références de l'utilisateur. L'ordre pour leur lister est défini
selon une moyenne. La moyenne se calcule selon le nombre de références adoptées de
ce topique167. Alors, ces topiques sont également listés, en ordre descendant de sa
moyenne.
Chaque nom du
topique est un lien vers
l'interface qui montre le
contenu du topique. Par
exemple, dans le topique
préféré loisirs de michel
(l'utilisateur), il a six
documents. Il y a également
une petite image
à son
coté. Cette image affiche:
Entre parenthèses,
moyenne.
la
Entre crochets la description du topique.
Le nombre de références que le contact prend du topique de l'utilisateur.
Alors, dans l'exemple, l'image
à coté de loisirs afficherait: « (0,166666666)
[loisirs de michel base2] dont jc prends 1 topique(s) ».
Juste après l'image, il est affiché aussi entre parenthèses un petit numéro qui veut
dire le nombre de références que le contact a adopté de ce topique. Ce numéro est
un lien vers une petite fenêtre (pop-up) qui affiche à détail les références adoptées
du correspondant topique. De l'exemple, la petite fenêtre afficherait que l'utilisateur
envoie à son contact jc, le topique
loisirs. Le nom du topique est un lien
qui contrôle la fenêtre père pour y
afficher le contenu détaillé du topique.
Il afficherait également le nombre de
références adoptées et leur liste. Le nom des références est un lien qui ouvre un
navigateur avec le document Web correspondant. A-côté du nom de chaque
référence, est affichée l' information correspondante.
167
Nombre de références prises du topique / nombre de références dans le topique. De l'exemple,
topique loisirs de michel, l’utilisateur a adopté 1 référence et le topique contient six références, alors sa
moyenne est 1/6=0,1666666666.
223
-
Les autres topiques (« Autres »), dont l'utilisateur ne prend aucune information contenue
dans les topiques. Dans cette section sont listés les topiques du contact dont il reçoit de
l'information,mais ne prend pas de références.
7.2 Webothèque du cartable électronique® de l’Université de
Savoie
La Webothèque est le service basé sur SoMeONe (Social Media using Opinions
trhough a trust Network) pour l'Université de Savoie.
Figure 7-14. Interface d'accueil de la Webothèque une fois que l’utilisateur est
connecté.
De la figure antérieure, nous pouvons visualiser la hiérarchie des topiques personnels à
gauche de la page. A droite de la page nous visualisons les topiques reçus d'autres membres
utilisant ce service. Par exemple, dans ce cas, l'utilisateur a reçu des nouveaux documents
dans le topique Réseaux Sociaux de Layda Agosto-Franco. Le nombre indiqué entre parenthèse à
côté du nom du topique indique le nombre de références étiquetées par ce topique par Layda
Agosto-Franco. Le fait de cliquer sur un topique permet de visualiser les références étiquetées
par ce topique.
224
7.2.1 Créer ou ajouter un topique
Figure 7-15. Création ou ajout d'un topique.
Pour créer ou ajouter un topique il faut aller dans le menu ajouter et sélectionner
topique. Indiquer alors le nom et le topique parent de ce nouveau topique (par exemple, le
topique parent de aviron est loisirs).
7.2.2 Afficher le contenu d'un topique
Figure 7-16. Affichage du contenu d'un topique.
Afficher un topique revient à consulter la liste des références étiquetées par ce topique.
Pour afficher le contenu d'un topique, il suffit de cliquer sur le nom du topique.
225
7.2.3 Éditer un topique
Un topique est défini par un nom et éventuellement une description associée. L'édition
d'un topique permet de modifier ce topique (le renommer, modifier sa description) et de lui
associer une liste de diffusion. Les membres de cette liste de diffusion auront, dès lors que
vous les sélectionnez, accès aux références étiquetées par ce topique ainsi que la possibilité
d'intégrer ce topique dans leurs topiques reçus.
L’utilisateur devra sélectionner le topique à éditer, puis dans le menu ajouter, il devra
sélectionner « éditer – diffuser un topique ». Il faudra utiliser la touche Ctrl pour
sélectionner ou désélectionner les personnes de la liste de diffusion associée à ce topique.
Notez que dans l'exemple ci-dessus, le topique modélisation possède une liste de
diffusion constituée de Ghislaine Chabert et Christine Ferraris. Si une personne est ajoutée
à la liste de diffusion d'un topique père d'un topique, la liste de diffusion de ce dernier héritera
de l'ensemble des utilisateurs de ses topiques parents. Par exemple, si nous ajoutons un
utilisateur dans la liste de diffusion du topique UML, le topique modélisation possèdera cet
utilisateur dans sa liste de diffusion. Il est toutefois toujours possible de le supprimer de la
liste de diffusion du topique fils, en sélectionnant ce topique et en cliquant sur la personne à
supprimer de la liste tout en appuyant sur la touche Ctrl.
7.2.4 Créer/ajouter un lien
Un lien est une référence, constituée d'un titre et d'une URL et éventuellement d'un
commentaire. Les liens sont obligatoirement étiquetés par un ou plusieurs topiques.
226
Figure 7-17. Interface de création d'un lien.
Pour créer ou pour éditer un lien il faut aller dans le menu AJOUTER, sélectionner
l'option Topique. Il faudra alors le nom et le topique parent de ce nouveau topique (par
exemple, le topique parent de aviron est loisirs).
Figure 7-18. Interface de création ou d'édition d'un lien.
L'édition d'un lien permet de modifier le titre, l'URL et./ou le commentaire. Il permet
aussi d'ajouter des étiquettes supplémentaires au lien, et/ou de supprimer les étiquettes
actuelles. Pour le faire, il faut sélection un lien en cochant la boite à cocher. Choisir l'option
« Editer un lien » du menu EDITION.
227
7.2.5 Gestion des topiques reçus
Les topiques reçus sont des topiques que des utilisateurs du service ont supposé
intéressants pour l’utilisateur connecté.
Les topiques publics sont des topiques que des utilisateurs du service décident de
mettre à disposition de tous les utilisateurs du service.
L’utilisateur connecté peut importer des topiques publics dans ses topiques reçus, ils
seront alors affichés dans sa page d'accueil de la Webothèque.
Pour gérer le topiques reçus l’utilisateur doit sélectionner l'option « Gestion des
topiques reçus » du menu GERER. Pour transférer un topique publique dans la liste de ses
topiques reçus, il suffit de cocher la case du topique à transférer et de cliquer sur la flèche
grise.
7.2.6 Réseau de Connaissances
Le réseau de connaissances est le réseau de contacts de l’utilisateur ou son réseau
social. La visualisation de ce réseau de connaissance va permettre à l’utilisateur connecté de
connaître la liste des relations qu’il a avec les autres utilisateurs et de déterminer ses favoris
(ceux dont il apprécie les recommandations) et ses fans (ceux qui apprécient ses
recommandations).
228
Figure 7-19 Visualisation du réseau de connaissances de l’utilisateur.
Pour visualiser le réseau de connaissances il suffit de sélectionner de l'option « réseau
de connaissances » du menu GERER.
7.2.7 Informations utilisateur
Il s'agit de connaître les liens que l’utilisateur tisse avec une personne particulière.
Figure 7-20. Visualisation de liens que l’utilisateur tisse avec une personne
particulière.
229
Il suffit de cliquer sur le nom de la personne, à partir de la liste des topiques reçus
depuis l’écran d’accueil ou depuis le réseau de connaissances.
7.2.8 Trouver des contacts
La Webothèque donne à l’utilisateur la possibilité de trouver de nouveaux contacts
susceptibles d'être intéressés par ses liens. Pour le faire, il suffit d’aller dans le menu GERER
et sélectionner l'option « Trouver des contacts ».
7.2.9 Gérer la corbeille
La corbeille contient tous les liens qui ont été supprimés. L’utilisateur peut restaurer
des liens supprimés ou vider la corbeille.
Figure 7-21. Visualisation de la corbeille.
Pour restaurer des liens supprimés, il suffit de sélectionner les liens à restaurer en
cochant la boite à cocher et de sélectionner le topique dans lequel ils seront restaurés.
Pour supprimer l'ensemble des liens de la corbeille, il suffit de vider la corbeille en
cliquant sur le lien vider.
7.2.10 Déposer le lien dans mon cartable
Il s’agit maintenant de déposer une référence dans le cartable de l’utilisateur (contexte
du cartable électronique®). Pour le faire il faut sélectionner d'abord les liens à déposer dans le
230
cartable en cliquant sur la coche à gauche du lien puis cliquer sur le bouton « Déposer dans
le cartable ».
A gauche de la page, l'utilisateur consulte les documents du topique « Java » reçu de
lucien. Il y a un seul nouveau document. L'utilisateur peut ajouter ce document à ses propres
topiques (bouton « Ajouter à mes topiques ») ou le supprimer (bouton « Supprimer »),
c'est à dire qu'il ne désire plus y avoir accès. Une fois ajouté à ses propres topiques ou
supprimé, ce document n'apparaîtra plus dans cette page
231
232
Annexe III–8. Scénarios de Simulation
8 Considérations
Pour construire un scénario à simuler, il faut spécifier ce que nous cherchons à
analyser et puis le paramétrer. Pour chacun des scénarios nous cherchons à analyser comment
améliorer l’efficacité du réseau. Nous testons des scénarios définissant des réseaux
thématiques. Pour chaque type de réseau, un sujet différent. Ainsi, chaque scénario a sa
propre sous-base de données, un fichier contenant les données d’un seul sujet, qui sera utilisé
pour la génération du réseau initial, puis, pendant l’évolution du réseau.
Pour rendre l’interprétation des résultats plus simple, nous avons proposé que :
Chaque taxonomie ne se décomposera pas en sous-topiques.
Pour chaque membre il n’y aura qu’un topique. Ceci nous permet de mieux interpréter
les échanges entre membres/topiques, surtout parce que le simulateur connaît toutes les
connexions possibles.
Note importante à la création d’un réseau thématique : si le réseau est défini avec 1
membre = 1 topique, alors le calcul de connectivités pour chaque membre/topique
est :
Connectivité du topique e = (nombre total de topiques) – 1.
Ainsi, le nombre total de connexions possibles dans le réseau s’obtient avec :
Total de connexions possibles =
(nombre total de topiques) * [(nombre total de topiques) – 1]. Par exemple,
dans un réseau thématique de 5 utilisateurs, le nombre total de connexions possibles
sera calculé selon : (5) * [(5) – 1]=20 connexions possibles dans ce réseau.
Les utilisateurs ajoutent de l’information dans leurs topiques. Les utilisateurs potentiels
de notre système y classent leurs informations pendant leurs navigations sur le Web,
parce que la dynamique du système l’exige ; ils veulent que le flux d’informations de
leurs intérêts arrive vers eux [h02;p02;h01;p01]. Ainsi, nous devons simuler le
comportement d’ajout de nouvelles informations dans les taxonomies de chaque
membre. Ces « nouvelles » informations peuvent être de deux types :
o Obtenues d’« ailleurs ». Nous parlons des liens qui ne se trouvent pas dans des
taxonomies d’autres membres crées mais dans le fichier de données pour le
scénario).
o Obtenus des topiques reçus. Les liens venant des topiques que l’utilisateur reçoit.
Avec ces considérations, nous présentons ci-dessous et de manière détaillée, les
scénarios que nous avons testés et analysés.
8.1 Scénario A
De la littérature concernant les réseaux sociaux, a été mesurée la taille tolérable d’un
réseau de contacts. Nous avons donc choisi de créer notre réseau social thématique avec 30
contacts qui interagissent.
Ainsi, nous avons 30 contacts = 30 topiques dans ce premier scénario. Nous
considérons que chaque topique a, à sa création, 2 liens ou références classées. Il y a au moins
233
20% de connectivité par topique, c’est à dire, (30-1)*0,2 connexions possibles par
topique à la création du réseau.
A chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de références
prises (définit à 10%) où, dans le cas échéant, une référence est prise au minimum.
Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques,
alors nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous.
Réseau Initial (scénario A)
Nombre de contacts
Nombre de topiques par contact
Nombre de liens par topique
P de connectivité du graphe au début (par
topique)
P. de réciprocité de relations au début
% de références prises dans un topique
% topiques publics
30
1
2
0,2
0
10%
0%
Tableau 8-1. Données pour la création du réseau initial du scénario A.
Une fois que le réseau est créé, nous devons le faire évoluer à travers un certain
nombre d’itérations. Nous pensons que, d’après nos tests, 15 itérations sont suffisantes pour
obtenir une interprétation représentative de l’évolution du réseau.
De cette façon, les paramètres d’évolution du réseau social doivent prendre en compte
la probabilité qu’une recommandation soit acceptée. Dans ce scénario, étant donné le type du
réseau à tester (thématique), nous considérons que tous les contacts acceptent de recevoir de
l’information, alors la probabilité de recevoir est de 1.
Un autre paramètre ici fait référence à la réciprocité de relations que nous définissons
à 0 parce que notre intention est d’analyser surtout l’impact de recommandations de contacts
et non la réciprocité des échanges. De ce fait, nous définissons à 0,5 la probabilité d’accepter
une liste de recommandation. L’idée est de simuler un « oui, j’accepte la recommandation »
ou un « non, je n’accepte pas la recommandation ».
Itérations (scénario A)
Nombre d'itérations
P. qu'une recommandation de RECEVOIR
soit acceptée
P. de réciprocité
P, d'accepter une liste de recommandation
% d'acceptation de la liste recommandée
(diffuser son topique au propriétaire du
topique recommandé)
15
1
0
0,5
0,1
Tableau 8-2. Données pour l'évolution du réseau initial du scénario A.
Cependant, le fait d’accepter une recommandation ne dit pas que l’utilisateur
recommandé s’intéresse à l’information que le contact recommandé peut lui apporter. Une
manière de rendre évident le degré d’intérêt porté sur le contenu d’un topique, est le
pourcentage de références adoptées. Pour cela, nous définissons à 10% le pourcentage de
références à adopter une fois qu’une recommandation d’accepter est positive. Ces données
sont résumées dans le Tableau 8-2.
234
8.2 Scénario B
Pour ce scénario, nous avons choisi de créer notre réseau social thématique ayant 40
contacts qui interagissent : 40 contacts = 40 topiques. L’idée est d’analyser l’impact d’avoir
un nombre plus élevé de membres dans un réseau thématique.
Nous considérons que chaque topique a, à sa création, 6 liens ou références classées.
Nous voulons vérifier si le fait d’avoir plus de liens est important aussi.
Il y a au moins 20 % de connectivité par topique, c’est à dire, (40-1)*0,2
connexions par topique à la création du réseau.
Pour chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de
références prises (défini à 10%). Le cas échéant, une référence est prise au minimum.
Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques,
donc nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous.
Réseau Initial (scénario B)
Nombre de contacts
Nombre de topiques par contact
Nombre de liens par topique
P de connectivité du graphe au début (par
topique)
P. de réciprocité de relations au début
% de références prises dans un topique
% topiques publics
40
1
6
0,2
0
10%
0%
Tableau 8-3. Données pour la création du réseau initial du scénario A.
Similairement au premier scénario, une fois le réseau créé, nous le faisons évoluer
avec 15 itérations. De cette façon, les paramètres d’évolution du réseau sont : la probabilité
qu’une recommandation soit acceptée est définie à 1, la réciprocité de relations est définie à 0
(pour analyser l’impact des recommandations de contacts du simulateur), nous définissons à
0,5 la probabilité d’accepter une liste de recommandation, pour simuler un « oui, j’accepte la
recommandation » ou un « non, je n’accepte pas la recommandation ». Pour rendre évident le
degré d’intérêt porté sur le contenu d’un topique, nous définissons à 10% le pourcentage de
références adoptées. Ces données sont résumées dans le Tableau 8-4.
Itérations (scénario B)
Nombre d'itérations
P. qu'une recommandation de RECEVOIR
soit acceptée
P. de réciprocité
P, d'accepter une liste de recommandation
% d'acceptation de la liste recommandée
(diffuser son topique au propriétaire du
topique recommandé)
15
1
0
0,5
0,1
Tableau 8-4. Données pour l'évolution du réseau initial du scénario B.
235
8.3 Scénario C
Pour ce dernier scénario, nous avons donc choisi de créer notre réseau social
thématique ayant 40 contacts = 40 topiques pour comparer notre scénario C avec le scénario
B mais ayant les mêmes valeurs des paramètres que le scénario A, mais pas le même nombre
de membres du réseau.
Nous considérons alors que chaque topique a, à sa création, 2 liens ou références
classées.
Il y a au moins 20% de connectivité par topique, c’est à dire, (40-1)*0,2
connexions par topique à la création du réseau.
A chaque relation créée, il n’y a pas de réciprocité mais un pourcentage de références
prises (définit à 10%). Le cas échéant, une référence est prise au minimum.
Finalement, nous imaginons qu’il n’y a pas de contacts désirant publier leurs topiques,
donc nous ne créons pas de topiques publics. Ces données sont résumées dans le tableau cidessous.
Réseau Initial (scénario C)
Nombre de contacts
40
Nombre de topiques par contact
1
Nombre de liens par topique
2
P de connectivité du graphe au début (par
0,2
topique)
P. de réciprocité de relations au début
0
% de références prises dans un topique
10%
% topiques publics
0%
Tableau 8-5. Données pour la création du réseau initial du scénario C.
Une fois que le réseau est créé, nous devons le faire évoluer à travers un certain
nombre d’itérations. Ainsi, la probabilité qu’une recommandation soit acceptée est de 1.
Un autre paramètre ici fait référence à la réciprocité de relations que nous définissons
à 0.
Nous définissons à 0,5 la probabilité d’accepter une liste de recommandation.
Le degré d’intérêt porté sur le contenu d’un topique est défini avec le pourcentage de
références adoptées, que nous définissons à 10%. Ces données sont résumées dans le tableau
ci-dessous.
Itérations (scénario C)
Nombre d'itérations
P. qu'une recommandation de RECEVOIR
soit acceptée
P. de réciprocité
P, d'accepter une liste de recommandation
% d'acceptation de la liste recommandée
(diffuser son topique au propriétaire du
topique recommandé)
15
1
0
0,5
0,1
Tableau 8-6. Données pour l'évolution du réseau initial du scénario C.
236
Annexe IV–9. Logiciels pour l’analyse de
Réseaux Sociaux
9 Liste de logiciels
Pris de http://www.sfu.ca/~insna/INSNA/soft_inf.html dont la dernière mise à jour a
été fait le 22 avril 2004.
AGD (http://www.ads.tuwien.ac.at/AGD/). Une large gamme d’algorithmes pour des
graphiques bidimensionnels et des outils pour implémenter de nouveaux algorithmes. C'est
un produit issu d'une coopération des groupes à Halle, à Köln, à Sarrebruck, et à Wien, dont
son origine vient du projet DFG : «conception, analyse, implémentation et évaluation des
algorithmes de dessin de graphiques » en 1995-2000. Actuellement, AGD est encore
développé par les groupes à Köln et à Wien.
Agna (http://www.geocities.com/imbenta/agna/index.htm). De Marius I. Benta. Applied
Graph & Network Analysis est une application freeware indépendante, conçue par des
scientifiques et chercheurs qui emploient le traitement mathématique spécifique de l'analyse
de données, telles que l'analyse de réseaux sociaux, la sociométrie, etc.
Carter's Archive of S Routines (http://legba.casos.ri.cmu.edu/R.stuff/). Ceci (paquet de
SNA pour R) c'est une bibliothèque de routines d'analyse de réseau et de visualisation; il
utilise l'analyse statistique des données de réseau. Un certain nombre d'outils classiques
d'analyse de réseau sont aussi bien inclus.
daVinci (http://www.informatik.uni-bremen.de/~davinci). Il est un programme de dessin
de digraphes dont sa particularité consiste à dessiner des relations ordonnées.
Doug
White's
software
for
kinship
network
analysis
(http://eclectic.ss.uci.edu/~drwhite/doug.html), utilise des exports du pajek et d'UCInet.
Egonet (http://survey.bebr.ufl.edu/EgoNet/), est un programme pour la collection et
l'analyse des données égocentriques de réseau. Il est conçu pour permettre au chercheur
d'écrire les questions qu'il souhaite poser, entre autres. Une unité de l'analyse est le
répondant. Il est également conçu pour produire une matrice d'adjacence pour chaque
répondant. De Chris McCarty.
EigTool (http://web.comlab.ox.ac.uk/projects/pseudospectra/eigtool/). C'est un outil
graphique très intéressant pour les problèmes Eigen non symétriques.
FATCAT (http://www.sfu.ca/%7Erichards/Pages/fatcat.htm). Programmes d'analyse des
réseaux pour l'analyse catégorique who-to-whom (de réseaux égocentriques ou ordinaires)
par Bill Richards.
gem3Ddraw (http://i44www.info.uni-karlsruhe.de/~frick/gd/index.html). Un programme
de dessin de graphes tridimensionnels.
237
GLAD. Un programme raffiné pour l'analyse de deux modes de Galois lattices. Son
auteur est Vincent Duquenne ([email protected])
GRADAP (http://www.assess.com/Software/GRADAP.htm). Un programme d'analyse de
réseau.
GraphEd (http://www.uni-passau.de/~himsolt/GraphEd/graphed). Un programme de
dessin de graphes et de digraphes, qui inclut beaucoup d'algorithmes pour aider à la
présentation.
Graphlet (http://infosun.fmi.uni-passau.de/Graphlet/). Un outil pour les éditeurs de
graphes et des algorithmes de graphes. Disponible pour des systèmes Unix et Windows
95/98/NT.
GraphPlot (http://coral.wcupa.edu/Psy513WebPage/Sociometryweb/). Un outil de dessin
pour les données sociométriques et plus afin manipuler des nombres illimités individus et
d'objets. De Thomas Treadwell de l' Univ. de Chester en Pennsylvanie.
GraphViz (http://www.research.att.com/sw/tools/graphviz/). Une famille des programmes
des laboratoires Bell -- dot, dotty et neato qui fournissent une manière simple de développer
des graphes des réseaux.
IKNOW (http://iknow.spcomm.uiuc.edu/). "Inquiring Knowledge Networks on the Web".
InFlow (http://www.orgnet.com/). Programme de Valdis Kreb Co. pour l'analyse de
réseaux sociaux.
JUNG (http://jung.sourceforge.net/). Le Framework universel de Java Network/Graph -est une bibliothèque qui fournit une langue commune et extensible pour modéliser, analyser,
et visualiser des données qui peuvent être représentées comme graphes ou réseaux.
Développé par Scott White, Joshua O'Madadhain, Fisher de Danyel, Yan-Biao Boey à UCI.
KliqueFinder
(http://www.msu.edu/%7Ekenfrank/social%20network/kfuserguid.pdf).
Par Ken Frank, il est basé sur un algorithme général pour identifier des cliques (des "clusters"
ou des sous-groupes) des acteurs dans des données d'un réseau.
KrackPlot (http://www.heinz.cmu.edu/~krack). Un programme pour graphes de réseaux.
MatView (http://www.epm.ornl.gov/%7Ekohl/MatView/). Un outil maniable pour
visualiser et explorer des grandes matrices creuses.
MetaSight (http://www.metasight.co.uk/MetaSight.htm), est un ensemble d'outils
d'analyse de réseaux sociaux, qui détermine automatiquement les réseaux sociaux à partir des
échanges du courrier électronique dans de grands organismes. Les solutions de MetaSight
Knowledge Management, incluent les Communautés d'intérêt et les Communautés de
Relations. Ces outils peuvent être contrôlés soit par le propre fournisseur de services IT, soit
pour l'équipe MetaSight.
Moviemol (http://www.kvac.uu.se/~lars/moviemol.html). C'est un programme de chimie
qui a été conçu pour montrer la structure moléculaire dynamique. Il peut être adapté pour
permettre l'affichage de la dynamique des structures changeantes de réseau.
238
MultiNet (http://www.sfu.ca/~richards). C'est un programme graphique interactif, conçu
pour l'analyse exploratoire de réseaux assez grands, complexes et multi-variables (pour des
données égocentriques ou ordinaires). Il inclut, entre autres, quatre genres d'analyse spectrale
et le p*. Par Bill Richards et Andrew Seary.
NEGOPY (http://www.sfu.ca/%7Erichards/Pages/negopy4.html).
l'analyse de réseaux, de Bill Richards.
Programme
pour
NetForm
-Network
Analysis
Software
(http://www.netformstephenson.com/html/download.html). Programme de Karen Stephenson pour l'analyse de
réseaux sociaux.
NetMiner (http://www.netminer.com/). C'est un outil innovant pour l'analyse de données
de réseaux exploratoires, et sa visualisation. Il est développé par Cyram Cie., Ltd.
NetVis (http://www.netvis.org/). Le module NetVis de Jonathon N. Cummings est un
outil libre, conçu pour simuler, analyser, et visualiser les réseaux sociaux en utilisant des
données types csv, des aperçus en ligne, et des équipes de travail géographiquement
dispersées.
Noldus (http://www.noldus.com/), l'éditeur d'un logiciel, MatMan, qui a été
spécifiquement conçu pour faciliter l'examen des hiérarchies dans des données de réseau.
Elles facilitent également l'observation systématique.
PSPAR (http://www.sfu.ca/%7Erichards/Pages/pspar.html%20). Version de matricecreuse PSTAR, d'Andrew Seary.
p* Logit Models (http://kentucky.psych.uiuc.edu/pstar/index.html). Pour des réseaux
sociaux.
Pajek (http://vlado.fmf.uni-lj.si/pub/networks/pajek/default.htm),
l'analyse de réseaux sociaux.
programmes
pour
PermNet ( http://www.meijigakuin.ac.jp/%7Ertsuji/en/software.html), de Ryuhei Tsuji.
Ensemble d'outils de tests de permutation, pour l'analyse de réseaux sociaux.
ReferralWeb (http://www.research.att.com/~kautz/referralweb), d'Henry Kautz et de Bart
Selman. C'est un interface (en Java) à un système pour créer et chercher des réseaux sociaux,
y compris un réseau de 10.000 chercheurs en informatique avec leurs domaines de
spécialisation.
SIENA (http://stat.gamma.rug.nl/snijders/siena.html), de Tom Snijder. C'est un logiciel
pour analyser l'évolution des réseaux.
SNAPS. C'est un programme d'analyse des réseaux créé par Noah Friedkin
([email protected]).
SocioMetrica LinkAlyzer (http://www.md-logic.com/id142.htm). Logiciel qui a été
conçu pour soutenir la construction des données sociométriques à partir de données
égocentriques, par l'assortiment des personnes nommées par des attributs, ajoutant de ce fait
des nœuds liés au graphe du réseau social.
239
Social
Network
Analysis
Functional
Utility
SNAFU
(http://innovationinsight.com/networks.html). C'est un logiciel qui permet l' analyse de réseau
de MacOS et le développement d'algorithmes.
Sparse Matrix Package (http://www-users.cs.umn.edu/%7Eagupta/wsmp.html). C'est un
bon solveur, de haute performance et de mémoire distribuée, pour les équations linéaires et
parallèles. Il est robuste et facile d'emploi.
StOCNET (http://stat.gamma.rug.nl/stocnet/). C'est un logiciel ouvert pour l'analyse
statistique avancée des réseaux sociaux.
STRUCTURE (http://gsbwww.uchicago.edu/fac/ronald.burt/teaching/STRUC.EXE), de
Ron
Burt.
Le
manuel
est
également
disponible
sur
http://gsbwww.uchicago.edu/fac/ronald.burt/teaching/STRUCmanual.pdf.
UCINET (http://www.analytictech.com/ucinet.htm). C'est un bien connu logiciel, très
général, qui a été conçu pour faciliter l'analyse des données de réseaux sociaux.
visone (http://www.visone.de/). Analyse visuelle des réseaux sociaux. Du "Groupe
Algorithms & Data Structures" dans le département Computer & Information Science, et du
groupe " Domestic Politics & Public Administration" dans le Department of Politics &
Management, à l'université de Konstanz ; et d'un réseau des collaborateures, et des membres
de plusieurs universités.
yFiles (http://www.yworks.de/en/products_yfiles_about.htm). C'est une bibliothèque
(Java) qui fournit des algorithmes et des composants pour l'analyse, la vision de graphes, des
diagrammes et des réseaux.
ZO (http://stat.gamma.rug.nl/snijders/#progZO). C'est une collection de programmes de
Tom A.B. Snijder analyser matrices du type 0/1.
240
Annexe V–10. Sur l’utilisation d’un annuaire
10 Utilisation de l’annuaire ODP pour la construction de
taxonomies des membres du réseau à simuler
Dans le cas CO-II mentionné dans le chapitre 4, section 4.2.4.1 nous avons introduit
notre idée d’utiliser un annuaire (ODP) pour que le simulateur puisse obtenir de l’information
liée à des domaines particulières. Ainsi, il obtient des liens à partir des catégories d’ODP pour
avoir un stocke de liens susceptible d’être utilisé pour remplir le contenu des topiques dans
notre système. Celle si est une manière de garantir qu’ils peuvent échanger de l’information
pertinente168.
Dans ce cas CO-II il est très important de noter une découverte issue de certains tests
effectués. Le choix d’utiliser ODP est valide pour le bootstrap des taxonomies personnelles
des membres à simuler. Par contre, il faut trouver ou compléter ces liens sur le Web avec
notre algorithme de filtrage collaboratif (§3.9.1.1) afin d’élargir le nombre de liens dans les
correspondantes catégories ODP. Ceci parce que la structure de liens selon la hiérarchie de
catégories ODP n’est pas adaptée aux algorithmes du type SocialRank (§3.6.1).
En effet, les sous-catégories feuilles de l’arbre de catégories ODP ont des liens qui
seraient considérés par le simulateur comme originaux, car aucune autre catégorie ne
contiendra ces liens. Cette situation se traduit par un pourcentage des informations originales
pas adapté dans les topiques. En effet, trop peu de topiques seront qualifiés d’originaux parmi
l'ensemble des topiques intéressants à recommander, c'est-à-dire, que le nombre de topiques
susceptibles d’être considérés originaux est équivalent au nombre de catégories feuilles qui
est trop petit dans ODP (l’arbre de catégories d’ODP montre en effet peu de catégories feuilles
par rapport au nombre de catégories pères).
De cette manière, le cas (CO-II) pourra être utilisé pour des simulations ultérieures
visant l’échange d’informations hors le contexte d’une communauté thématique mais
nécessitant impérativement de la pertinence dans l’information échangée.
De ce fait, pour assigner aux utilisateurs virtuels des informations contenues dans les
catégories d’ODP selon (CO-II), il faudra construire leurs taxonomies personnelles selon :
Le choix des catégories ODP pour le scénario à simuler. Une fois définies ces
catégories, nous les sauvegardons dans un fichier pour les utiliser dans la génération du
réseau initial mais aussi pendant les itérations correspondantes à l’évolution du réseau.
L’unique catégorie ODP associée à chaque topique virtuel. Pour chaque topique à
créer, il faut associer une catégorie ODP. Cependant, si le scénario le spécifie, deux (ou
plusieurs) topiques peuvent être associés à une même catégorie.
La construction des références dans les topiques se fait grâce à la prise aléatoire
d’URIs des catégories correspondantes dans ODP. Si nous devons construire la
taxonomie des utilisateurs, alors il faut leur créer des topiques et dans ces topiques, il
faudra mettre des références. Pour construire ces références, nous allons prendre
168
La pertinence est vue en termes des topiques ayant de l’information pointant vers liens ayant un
contenu similaire.
241
aléatoirement des URLs dans les catégories correspondantes d’ODP. Par prise aléatoire
d’URIs nous entendons :
Construction d’une liste d’URIs avec liens similaires dans le Web. De cette manière
chaque catégorie a une liste élargie d’URIs à partir desquelles nous construisons des
références pour les topiques qui ne pointent pas sur la même URI.
Validation de références pointant sur des URIs variées. Un scénario peut permettre
que deux ou plusieurs topiques pointent vers la même catégorie ODP. Dans ce cas, le
système doit assigner des URIs différentes à chacun d’entre eux.
10.1 Structure hiérarchique des catégories ODP
Bien qu’au début de la construction du simulateur, l’utilisation d’ODP pour
« bootstraper » la base de données des topiques et des références à utiliser a été prévu comme
un moyen pour ne pas chercher ailleurs de vrais liens (sur le Web), nous avons constaté que la
structure de catégories et de sous-catégories d’ODP (structure hiérarchique) ne reflétait pas le
même type de comportement général des utilisateurs pour la création de leurs taxonomies
personnelles. En effet, ceci parce que la hiérarchie ODP part des catégories plus générales aux
plus spécifiques, un exemple très simple est représenté dans la Figure 4-3 ci-dessous.
Structure ODP ≠ Taxonomie des usagers
Théorie
Objects
Objets
Programmation
Langages
Java
Pratique
C++
Java
Outils
Outils
Figure 10-1. Exemple d’une taxonomie personnelle qui ne suit pas le type de
hiérarchie d’ODP.
De cette manière, plus on descend dans la hiérarchie ODP, plus spécifiques sont les
liens dans leurs sous-catégories. Dans le cas des taxonomies des utilisateurs, rien ne peut
garantir que leur structure suivra ce type de spécification descendante.
Pour que des structures plus similaires à celles des utilisateurs en général puissent être
simulées, nous avons besoin d’« homogénéiser » les liens. Nous détaillons ceci dans la section
suivante.
10.2 Homogénéisation de la base de données
Pour homogénéiser les liens des taxonomies des utilisateurs, nous complétons la liste
de liens de la base de données d’ODP avec des liens similaires trouvés sur le Web, à travers :
une fonction d’arrangement dans le code du simulateur, qui choisi aléatoirement des
liens dans les sous-catégories d’une catégorie et les met dans la catégorie « père » ;
d’autres liens similaires dans le Web : processus d’exploration (crawling) sur le Web.
242
L’« homogénéisation » consiste à construire, à partir d’ODP et du Web, des structures
les plus similaires possibles à celles possiblement formées par des utilisateurs pour la gestion
de leurs taxonomies personnelles.
Liens dans topiques
de l’usager Y
Classification ODP AB
A
B
C
Liens dans topiques
de l’usager Z
BA
Figure 10-2. Les liens (références) des utilisateurs sont complétés avec des
liens similaires trouvés dans le Web.
Sans cette homogénéisation, la structure d’ODP engendre des problèmes169 du type :
quand un topique pointant vers une catégorie ODP feuille (dernières sous-catégories
dans la hiérarchie) est créé, il devient très original.
quand un topique pointant vers une catégorie ODP père (premières catégories dans la
hiérarchie) est créé, il devient très réputé.
169
Ces problèmes se résument à la manque que l’originalité des informations dans les topiques soit bien
répartie.
243
244
Annexe VI–11. Détail conceptuel de SoMeONe
11 SoMeONe selon nos évaluations
Bien que nous ayons décrit les objectifs du système et des utilisateurs dans le chapitre
3, le système SoMeONe a évolué et plusieurs versions ont été implantées. Nous les détaillons
dans cette Annexe afin de mieux comprendre la version qui a été utilisée dans les différentes
phases pendant lesquelles le système a été utilisé.
L’objectif de l’utilisateur du système est l’obtention de l’information pertinente quand il en a
besoin. Par pertinence il faut comprendre l’information qui réponde le mieux à ses besoins
informationnels.
L’objectif du système est d’obtenir une topologie de qualité, c'est-à-dire, optimale. Il s’agit de
permettre un flux d’information efficace vers tous les membres du réseau.
Nous avons décidé de faire deux évaluations pour analyser notre système. Cependant,
les évaluations ont eu lieu pendant le développement de plusieurs versions du système.
« Webothèque »
Université de Savoie-FTR&D
Simulations
UN
ADMINISTRATEUR
DECIDE EN
FONCTION DE
CRITERES A
OPTIMISER
ANALYSE DE
L’OUTIL SUR LE
CONTROLE DE
L’UTILISATEUR
ET
DE PROFIL ET
USAGES
Figure 11-1. Différentes versions de SoMeONe
Dans la première évaluation, nous avons développé l’algorithme de filtrage
collaboratif et nos hypothèses, principes et mécanismes afin d’engendrer une dynamique
d’échanges d’information. Les critères évalués sont la motivation, l’engagement et la
pertinence de l’information échangée. Nos analyses se trouvent détaillées dans le chapitre 4,
section 4.1. D’autres versions ont été développées pour prendre en compte les résultats
obtenus de cette première évaluation. L’important ici a été la mise en place d’un service qui :
s’est montré intéressant : beaucoup l’utilise en nomadisme (§4.1.4.A) ;
a engendré de la motivation à la participation tout en recommandant des contacts
pertinents (§4.1.4.B) ;
permet la gestion de différents profil d’usages (§4.1.4.C)
245
Des versions intermédiaires entre les deux évaluations prennent en compte les résultats
de la première et intègrent :
des interfaces plus claires : espaces différenciés, graphismes, marques, instructions
détaillées, etc. ;
le contrôle absolu de l’utilisateur pour l’obtention d’information au travers de stratégies
(§3.6.2.2). Lui seul choisit une stratégie, capable d’orienter la manière dont
l’information pertinente peut lui arriver ;
de la régulation (§3.1.2) et la possibilité de suivre des tactiques comportementales pour
se maintenir dans le réseau (§3.6.3) ;
l’utilisation d’indicateurs sociaux (§3.9.2) pour :
permettre au système de suivre son objectif ;
donner une conscience sociale aux membres du réseau ;
en résumé le moyen de suivre une dynamique du réseau social grâce à la
recommandation de contacts (dont l’utilisateur décide selon ses stratégies ou des
tactiques comportementales) ;
Dans la dernière évaluation, nous avons intégré la possibilité d’avoir un administrateur
du réseau social qui décide en fonction des critères (§3.6) lequel il veut optimiser. Suivant son
choix, le système peut savoir quelle stratégie le recommandeur peut utiliser pour la
recommandation de contacts.
Un administrateur du réseau social contrôle la topologie du réseau. Selon son état, il décide le
critère à optimiser sur le réseau. Ainsi, de manière similaire à l’objectif du système, l’objectif
de l’administrateur du réseau est d’influencer un flux d’information efficace vers tous les
membres du réseau.
Le recommandeur de contacts est toujours influencé par la stratégie d’obtention
d’information. L’existence d’un administrateur du réseau social n’implique pas que les
utilisateurs n’auront pas le contrôle sur le moyen d’obtenir de l’information. Dans le système
réel, le choix de l’administrateur ne doit influencer que la stratégie par défaut.
Ainsi, dans les simulations, quand l’administrateur du réseau social choisi un critère à
optimiser, les stratégies des utilisateurs (§3.6.2.2) sont les stratégies à appliquer sur le calcul
de recommandation de contacts (§4.2.2.1). Les stratégies de l’administrateur du réseau social
sont alors celles qui lui permettent d’appliquer un critère à optimiser et que nous avons défini
dans la section 4.2.3.
12 Caractère incrémental et non-incrémental de l’algorithme
SocialRank
Il est à noter que les différentes versions du service ont souffert des tests de
performance par rapport à notre algorithme SocialRank. L’exemple le plus important est
l’utilisation de notre mesure pour le calcul de contacts réputés (I.1.7.4). En effet, ce calcul
est coûteux et dans le cas de nos simulations (scénarios représentant des communautés
thématiques), nous avons pu remplacer l’utilisation de la formule (4), section 3.6.1 par celle
de la Définition I-13 section I.1.7.3.
246
Annexe VII–12. Algorithmes de recherche sur
Internet
L'information dans le Web doit pouvoir être identifiée par les sujets qu'elle recouvre,
c'est à dire par son type de contenu. Les évolutions technologiques récentes tiennent compte
de la structure de graphe formé par les pages Web et les liens hypertextes qui les relient,
comme le fait d'ailleurs Kleinberg à travers le modèle HITS (Kleinberg, 1998), ou Page à
travers l’algorithme PageRank (Page et al., 1998) ; le premier pour déceler les pages les plus
pertinentes vis à vis de la requête d'un usager, et le deuxième, pour mesurer l'importance
relative des pages Web, en les classant et en tirant parti de la structure de graphe induite par
les hyperliens. Leur méthode a notamment des applications en recherche d'informations,
navigation et estimation de trafic.
13 Algorithmes
traditionnels
recommandation
de
systèmes
de
Traditionnellement, les systèmes de recommandation ont aidé les utilisateurs à prendre
des décisions dans les espaces complexes d’information, avec par exemple, des suggestions
basées sur les documents antérieurement lus par l’utilisateur. Plus tard, les systèmes de
filtrage collaboratif ont ajouté la possibilité de qualifier des documents afin de pouvoir
assortir des corrélations entre les profils des utilisateurs, les plus similaires.
13.1 Algorithme « coefficient de corrélation »
Upendra Shardanand et Pattie Maes (MIT Media-Lab), comment nous expliquons
dans la section 2.1.3.6, ont étudié le filtrage d'information basé sur le contenu et le filtrage de
l'information sociale qui automatise le "bouche-à-oreille". Ils ont proposé une marque (score)
de la pertinence d’un utilisateur pour en obtenir un coefficient de corrélation entre deux
profils :
S ( x, y ) =
C * ∑ Eval ( x, c ) Eval ( y , c ) − ∑ Eval ( x, c )∑ Eval ( y , c )
c∈C
c∈C
⎢
⎞
2 ⎛
⎢ C ∑ Eval ( x, c ) −⎜ ∑ Eval ( x, c ) ⎟
⎝ c∈C
⎠
⎣⎢ C
2
c∈C
2
⎥ ⎢
⎞ ⎥
2 ⎛
−
*
C
Eval
(
y
,
c
)
Eval
(
y
,
c
)
⎜∑
⎟ ⎥
⎥ ⎢ ∑
⎝ c∈C
⎠ ⎦⎥
⎦⎥ ⎣⎢ C
C est l’ensemble des contenus c pour lesquels on connaît Eval(x,c) et Eval(y,c).
Également ils proposent la prédiction de l’intérêt d’un contenu avec :
∑ S ( x, y ) * ( Eval ( y, c) − Eval ( y ))
I ( c, x ) = Eval ( x ) +
∑ S ( x, y )
y∈U
y∈U
U est l’ensemble des utilisateurs y pour lesquels on connaît Eval(y,c).
247
Ces idées ont été la base de plusieurs autres algorithmes. La problématique évidente
autour de ces deux algorithmes, est qu’on ne peut rien dire des contenus uniquement évalués
par des utilisateurs pour lesquels C est vide et que seuls les utilisateurs pour lesquels C est
non vide peuvent influencer les recommandations.
Également, d’autres projets et systèmes ont étudié la problématique de
recommandation. Comment recommander ? Quels types de données exploiter ? Rashid et ses
collègues, (Rashid et al., 2002) par exemple, ont testé diverses méthodes et algorithmes.
Leurs résultats sont :
-
La stratégie de présentation des « éléments » (items) est très importante.
Le choix de la stratégie de recommandation au bon moment est important. De ces
analyses et preuves, ils ont trouvé deux algorithmes efficaces :
1. L’algorithme de popularité. Cet algorithme essai de trouver une juste proportion entre
l’exactitude et l’effort de l’utilisateur ; par exemple, si l’utilisateur vient de se
connecter au système, il verra d’abord des éléments populaires. Il s’agit d’une tactique
du système pour acquérir et pour raffiner le profil de l’utilisateur, pendant qu’il
navigue entre ces choix. Pourtant, l’effort de l’utilisateur est minimum parce que le
système lui demande peu d’informations et lui donne la plus reconnue. Par contre, la
problématique de cet algorithme est évidente, il ne recommandera que les éléments les
plus populaires, ce qui n’est pas approprié.
2. L’algorithme d’item-to-item. Cet algorithme est basé selon des similarités entre les
éléments, c’est-à-dire, il trouvera des éléments similaires à ceux que l’utilisateur aime
généralement ; c’est un algorithme qui sacrifie la précision de recommandations du
système par moins effort demandé à l’utilisateur.
La stratégie dépende de divers facteurs qu’il faudra également prendre en compte, par
exemples les facteurs sociaux couverts par le type de système de recommandation ; par
exemple, si le système recommande des films (activité que normalement les personnes font
souvent avec leurs connaissances), alors l’utilisateur sera plus tenté à qualifier des éléments
(des films).
13.2 Mesure de cosinus
George Karypis (Karypis, 2000), a proposé des algorithmes pour la recommandation
basée sur « item-to-item ». Il essaie d’obtenir les N éléments plus proches des intérêts des
utilisateurs. Il propose deux algorithmes performants pour calculer les relations entre les
éléments. Le problème critique se trouve au moment de choisir la méthode pour trouver la
similarité entre des éléments. Alors, Karypis propose une méthode basée sur le cosinus. Soit R
une matrice nxm des items “achetés”, n clients, m items :
Nous pouvons voir que la similarité entre deux éléments sera haute si chaque
utilisateur qui achète un des éléments, achète aussi l'autre élément. En outre, une fonction
importante de la similarité à base de cosinus est qu'elle tient compte de la fréquence d'achat
248
des différents éléments (réalisé par le dénominateur). En conséquence, les éléments
fréquemment achetés auront tendance à être semblables à d'autres éléments fréquemment
achetés et pas aux éléments achetés peu fréquemment et réciproquement.
13.3 Théorie probabiliste
Une manière alternative de calculer la similitude entre chaque paire de points v et u est
d'employer une mesure. Cette mesure est basée sur la probabilité conditionnelle d'acheter un
des articles étant donné que les autres articles ont été déjà achetés. En particulier, la
probabilité conditionnelle d'acheter u si v a été déjà acheté P(u|v), est le nombre de clients qui
achètent v et u divisé par le nombre de clients qui ont acheté u :
Freq(uv)
P (u | v) =
Freq(v)
Freq(X) est le nombre de clients qui ont acheté les articles dans l'ensemble X. Notez
qu'en général P(u|v) = P(v|u). Une des limitations d'employer des probabilités conditionnelles
comme mesure de similitude, est que chaque point v, aura des probabilités conditionnelles
élevées aux articles qui sont achetés fréquemment. C'est-à-dire, P(u|v) est haut parce que u
se produit très fréquemment et pas parce que v et u tendent à se produire ensemble. Des
autres limitations se peuvent trouver. Karypis a évolue sa formule en normalisant chaque
sim(v | u ) =
∑
r
∀i:ri ,v i ,u
Freq (v) × ( Freq (u ))α
ligne de la matrice R pour être d'unité de longueur, et définit la similitude entre les points v et
u comme :
Où α est un paramètre qui prend entre une valeur 0 et 1. Puisque les lignes sont normalisées
pour être d'unité de longueur, les clients qui ont acheté plus d'articles tendront à contribuer
moins à la similitude globale; ainsi, soulignant l'importance des décisions d'achat des clients
qui ont acheté peu d'articles.
13.4 Limites des approches
En général, avec ces exemples, on trouve que traditionnellement les algorithmes d'IR
(Information Retrieval) ont des limitations soit sur le nombre de personnes ou de notations,
soit sur la demande d’effort des utilisateurs. Également, ces algorithmes de rang peuvent être
facilement « trompés170 ». Les administrateurs de sites Web peuvent faire leurs sites fortement
classés par l'insertion de quelques mots sans rapport mais populaires. Par exemple "Clinton",
"le sexe", placées stratégiquement (par exemple dans le titre de la page ou comme metadonnées). Ce phénomène est appelé la Persuasion de Moteur de recherche (SEP) ou le
Publipostage excessif du Web. On peut dire que sur des grandes bases de contenus ( le WWW
), par exemple dans un système où il faut évaluer du contenu,
-
les intersections entre contenus évalués risquent d’être souvent vides,
seulement l’avis de peu d’utilisateurs pourrait être pris en compte,
170
Souffrir des sabotages.
249
-
-
les intersections de profils se font surtout sur les contenus les plus populaires,
les contenus évalués par des utilisateurs ayant évalués peu de contenus populaires seront
rarement proposés,
si les recommandations sont la seule source d’information, l’utilisateur ne fera
que renforcer sa dépendance envers les utilisateurs qui apprécient les contenus
recommandés, l’utilisateur n’aura pas le moyen d’exprimer qu’il apprécie autre chose.
Des recherches récentes dans ce secteur se concentrent sur l'extraction de la structure
des liens des ressources du Web (Brin & Page, 1998), (Chakrabarti et al., 1998). L’algorithme de ce
type le plus connu est PageRank (Ridings, 2001-url), qui a été proposé par l'Université de
Stanford et a été appliqué dans le célèbre moteur de recherche Google (http: //
www.google.com/).
14 HITS
Selon (Kleinberg, 1998), la structure d'un réseau dans un environnement maillé par
des hyperliens peut être une source enrichissante d'informations sur le contenu de ce même
environnement à condition que nous disposions de moyens efficaces de la percevoir. Dans
cette étude, l'auteur développe un ensemble d'outils algorithmiques dédiés à l'extraction
d'informations grâce aux structures de graphe induites par ces hyperliens. En particulier, il se
focalise sur l'utilisation des liens pour analyser une collection de pages pertinentes à un sujet
donné et découvrir ainsi les pages qui font le plus autorité pour un tel sujet.
-
Hypothèses: Une page p, par l'inclusion d'un lien vers une page q, adjuge autorité sur q.
Comment utiliser l'information de liens dans la réponse à une large requête de topique ?
D'abord, il faut obtenir les pages qui sont appropriées et autorisées et puis regarder
l'information de liens dans un sous-graphique "approprié" du Web.
Le sous-graphe approprié d'une requête:
o Prendre S comme les plus importantes pages k (disons 200) classées
par AltaVista.
o Pousser S vers T.
o T = S ∪ {p | ∃ liens de p vers une page dans S} ∪ {q | ∃ lien de une
page dans S vers q} (1)
o Considérer le sous-graphe induit par T. Ce c'est la "sous-graphe
approprie''.
Retourner les pages avec le plus grand nombre de "in-links" (liens
entrants) n'est pas satisfaisant. Ce n'est pas seulement le grand grade entrant
d'une page p qui est important, mais aussi la qualité de pages que pointent vers
p. Si des pages plus importantes pointent vers p, signifie que p est plus
autoritaire.
L'idée clé : Des bonnes pages "hubs'' ont liens vers des bonnes pages
"autorités''.
Soit G = (V, E) le sous-graphe "appropriée" induit par T. Soit V = {p1,
p2, …, pn} les n pages dans V. Associer une autorité non-négative de poids ap et
250
un hub non-négative de poids hp avec chaque page p ∈ V. Normaliser les poids
de façon que:
∑a
p∈V
2
p
= 1 et
∑h
p∈V
2
p
=1
(2)
Algorithme (Kleinberg, 1998) :
1. Initialiser: hp = 1, ap = 1 ∀ page p ∈ V.
2. Itérer pour i = 1, 2, 3, …
− Mise à jour de poids d'autorités en utilisant poids de hubs
ap ←
∑h
q
q:( q , p )∈E
, ∀ p ∈ V.
(3)
− Mise à jour de poids de hubs en utilisant poids d'autorités
hp ←
∑a
q:( PA)∈E
q
, ∀ p ∈ V.
(4)
− Normaliser une p et hp tel que (2) se maintien.
Est-ce que les poids d'autorité et de hub convergent autant que la compte itérative
augmente ?
Considérer la matrice d'adjacence A du graphe G. A est nxn et Aij = 1 si (pi, pj
) ∈ E est un arc dans G, et 0 autrement. En termes de A, (3) et (4) deviennent :
a ← A T h et h ← Aa ,
(5)
où h = le vecteur hub de poids et a = le vecteur autorité de poids, tout le deux de taille
n x 1. Les mises à jours itératives mènent vers le suivant :
a (1) = A T h (0)
h (1) = A a (1)
(6)
⇒ h(1) = A A T h(0) ⇒ h(k) = (AAT ) k h (0).
Ici h(k) dénote le vecteur hub en l' itération kth. En conséquence,
− h(k) est un vecteur d'unité dans la direction de (AAT)k h (0) , et
− a(k) est un vecteur d'unité dans la direction de (ATA)k-1ATh(0)
Sous conditions légères :
− h(k) converge vers le vecteur gauche singulier principal de A, et
− a(k) converge vers le vecteur gauche singulier principal de A.
-
Requêtes de pages qui se ressemblent. Quelles pages sont semblables à p ? Si p est une
bonne autorité sur certain topique, en prenant T comme les (200) pages que pointent vers
p, il faut trouver alors des autorités et les prendre comme des pages semblables.
-
Désavantages:
1. Les liens à l'intérieur du même nom de domaine.
2. Il peut y avoir beaucoup de sites dans un nom de domaine que contient beaucoup de
liens à une page particulière.
251
3. Les liens peuvent être automatiquement engendrés et toujours ne confèrent pas
l'autorité sur une page.
4. Il peut recevoir des pages non-pertinentes grâce à "la dérive du topique" ou "la
dilution du topique''.
-
Solutions :
1. Éliminer liens à l'intérieur du même nom de domaine.
2. Normaliser chaque lien pour avoir le poids 1/k, où k est le numéro total de liens du
même nom de domaine.
3. Faites l'analyse de contenu en regardant le texte de la page pour assurer que la page est
appropriée.
4. Enlevez des pages sans rapport et pénalisez les pages qui sont moins appropriées.
Cet échantillon d'algorithme considère seulement une petite partie du graphe du Web,
l'addition de quelques arcs peut potentiellement changer en grand nombre les résultats, ainsi
plus facile de manipuler résultats. Également, si le graphique de voisinage contient plus de
pages sur un sujet différent de la requête, donc l'autorité supérieure et les pages hub sont sur
un sujet différent. Appelé dérive de sujet. Pourtant, il est recommandable, mettre des poids sur
des arcs pour refléter l'importance de liaisons, par exemple, en mettant un poids plus haut si
l'ancre du texte associé à la liaison est appropriée pour faire une requête; normaliser des poids
sortants d'une source simple ou entrants vers un bassin simple, cela soulage le publipostage
excessif de résultats de la requête; éliminer des arcs du le même domaine.
14.1.1 Commentaires
En particulier, nous constatons que les moteurs de recherche actuels :
- Ils indexent typiquement une portion mesurable du Web.
- Ils répondent en l'ordre de quelques secondes.
D’une part, l’indexation de portions du Web élimine les pages récemment introduites,
alors qu’elles pourraient avoir de contenu hautement valable. D’autre parte, le temps de
réponse rapide élimine la possibilité d’analyse profond de réponses. On pourrait se demander,
dans ce cas, s'il n’est pas plus utile de temps réponse plus grands au profit d'une meilleure
pertinence des pages proposées. Malheureusement, il est encore difficile pour eux, de savoir
comment trouver un juste équilibre entre la quantité mis à jour toujours, le temps de réponse
et la qualité. Autrement dit, on est en manque d'un paradigme qui puisse être concrètement
défini et correspondant à une notion humaine de qualité.
15 PageRank
Lancé en 1998, le moteur de recherche Google, classe les pages grâce à la combinaison
de plusieurs facteurs dont le principal porte le nom de PageRank (Page et al., 1998). Les
pages Web sont stockées dans un entrepôt de données. Ensuite les hyperliens sont stockées
séparément pour former un sous graphe du Web. Le classement des pages est fait en utilisant
un indice numérique : le «rang, calculé pour chaque page. Le sous graphe du Web, est alors
utilisé pour le calcul des rangs de page. Le rang d'une page permettra en particulier d'ordonner
les résultats d'une requête d'un usager. Dans (Page et al., 1998), les auteurs proposent un
modèle de conservation du rang dans son calcul : l'algorithme PageRank. Il sert à mesurer
l’importance relative d’une page Web (Ridings, 2001-url), que l'on appelle souvent la
popularité, de la manière suivante :
252
-
Trouver les pages qui ont une relation avec les mots-clés de la recherche.
Trier les pages selon les facteurs trouvés dans les pages (i.e. mots-clés).
Calculer liens entrants de pointeurs du texte
Ajuster les résultats selon les scores PageRank.
Soient T1, T2, ..., Tn : n pages pointant vers une page B. Notons PR(Tk) le PageRank
de la page Tk, N(Tk) le nombre de liens sortants présents sur la page Tk, et d un facteur
compris entre 0 et 1, fixé dans ce cas, à 0,85, PR(T1) est le PageRank d’une page pointant vers
la page A, C(T1) le nombre de liens sortants de cette page et PR(Tn)/C(Tn) signifie qu’on fait
cette opération pour chaque page dirigée vers la page A. Alors le PageRank de la page A se
calcule à partir du PageRank de toutes les pages Tk de la manière suivante :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Cette formule est la plus simple, expliqué sur Internet. Elle ne dépend que de quelques
termes, mais elle est récursive : pour calculer le PageRank d'une page, il faut avoir calculé
celui de toutes les pages pointant vers elle.
Soit, “le PageRank donné à une page A par une page B à travers d’un lien dirigé vers
elle, est diminué par chaque lien dirigé à une autre place qui existes dans la page B.C’est-àdire, le PageRank d’une page est simplement une mesure de son vote; il peut diviser son vote
entre un lien ou deux liens ou plusieurs, mais la totalité de son vote sera toujours la même”
(Ridings, 2001-url).
Deux idées supplémentaires mais essentielles viennent la compléter :
-
l'augmentation de PageRank de la page A est d'autant plus importante que le PageRank de
la page T est élevé. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la
page d'accueil de Google que depuis une page du site de votre petit cousin.
-
l'augmentation de PageRank de la page A est d'autant plus importante que la page T fait
peu de liens. En d'autres termes, si la page T juge qu'il n'y a qu'une page qui mérite un
lien, alors il est normal que le PageRank de la page A augmente plus que dans le cas où de
nombreuses pages obtiendraient un lien.
Si on suppose, l’exemple suivant :
253
Le PageRank d'une page A ne dépend que de trois facteurs :
-
le nombre de pages Tk faisant un lien vers A,
le PageRank de chaque page Tk,
le nombre de liens sortants de chaque page Tk
Il ne dépend donc pas des éléments suivants :
-
le trafic des sites faisant un lien vers A
le nombre de clics sur les liens vers A dans les pages Tk
le nombre de clics sur les liens vers A dans les pages de résultats sur Google.
15.1 Formellement
L’idée implicite de PageRank: si une page u a un lien à une page v, alors l’auteur de u
donne de façon implicite, certaine importance à la page v. Cependant, combien d’importance?
Formellement, on peut dire que Nu est le nombre de pages sortant de la page u, et Rank(v) le
PageRank (importance) de la page v, alors le lien (u,v) donne Rank(u)/ Nu à v , et on calcule le
vecteur d’importances de Rank* sur toutes les pages du Web. Si N est le nombre de pages, on
donne la valeur initiale 1/N. Bv représente l’ensemble de pages dirigées à v. Pour chaque
itération, on fait la propagation de « importances » de la manière suivante (Haveliwala, 1999)
:
∀v Ranki +1 (v) =
∑ Rank (u ) / N
u∈Bv
i
u
Pour chaque u ∈ Bv, le lien (u,v), garanties que Nu >1, à la fin, on obtient un vecteur
Rank* qui contienne le vecteur PageRank sur tout le Web. L’algorithme PageRank peut être
pensé, comme une distribution de probabilité sur toutes les pages, et induit par une
« promenade aléatoire » (random walk) dans le Web.
254
15.1.1 Modèle fonctionnel
Le modèle fonctionnel est intéressant. Soit G = (S,U) le graphe orienté formé par les
pages Web : S et les liens hypertexte qui les relient : U. G est obtenu par une succession de
parcours du Web. Le rang d'une page v respecte la loi de conservation suivante :
⎡ ⎛
⎤
Rank (u ) ⎞
⎟ + (1 − d ) × E (v)⎥
Rank (v) = c ⎢d × ⎜⎜ ∑
⎟
⎣⎢ ⎝ u / u pointe sur v d + (u ) ⎠
⎦⎥
où d est un facteur d'amortissement choisi dans [0, 1], d + (u) le degré externe de u et c une
constante de re-normalisation permettant de garantir que ∑∀v∈S Rank (v) = 1 . De plus, on suppose
que : ∀v ∈ S , R(v) > 0, E (v) > 0 et ∑∀v∈S E(v) = 1 .
E représente donc une loi de distribution sur l'ensemble des pages de S. Généralement, E est
une loi de distribution uniforme : ∀v ∈ S , E (v) = 1 où n=|S|.Mais il a été proposé que cette
n
distribution puisse être «personnalisée» (Brin et al., 1998). Cependant, pourquoi le choix d'un
tel modèle ? En fait, il cache une idée intuitive de propagation de rang assez intéressante.
Ainsi, une page reçoit un rang élevé si la somme des rangs des pages pointant sur elle est
élevée.
0.02 vers E
a
_ ×
c
0.09
0.2
0.03
_ ×
0.19
0.09
0.01
b
0.3
_ ×
d
0.09
_ ×
0.1
0.09
0.09
0.01
n=10
d=0.9
1-d=0.1
Figure 15-1. Une propagation de rang d'une paire de pages à l'autre.
De la figure, on y suppose d = 0,9 et n = 10. En observant la page a sur cette figure, nous
remarquons que : (i) d =90 % de son rang (soit 0,18) est redistribué équitablement sur ses
liens sortants (soit 0,18/2 = 0,09) affectant ainsi le rang des pages pointés par a. (ii)1-d =10 %
de son rang (soit 0,02) est dissipée au profit d'une répartition globale sur l'ensemble du graphe
contribuant ainsi à alimenter chaque page d'un rang égal à (1-d)/n = 0,1/10 = 0,01.
Nous pouvons vérifier par exemple que le rang de la page c est bien 0,19 :
Rank (c) = d ×
Rank (b) 1 − d
0,3 0,1
Rank (a)
0,2
+d× +
+
= 0,9 ×
+ 0,9 ×
+
= 0,19
+
d (b)
n
3 10
d (a )
2
15.1.2 L’algorithme
L’algorithme de (Page et al., 1998) est basée sur une récurrence Rankn +1 = At Rankn . Remarquons
que le facteur µ augmente la stabilité numérique de l'algorithme en forçant la condition
Rank n +1 1 = 1 . Une normalisation alternative et plus robuste, consisterait à multiplier Rank n +1 par
un facteur approprié. Alors, l'utilisation de µ peut avoir un léger impact sur l'influence de E.
Les auteurs n'apportent aucune preuve de la convergence de cet algorithme. Il est listé cidesous :
-
Données :
une matrice sous stochastique A d'un sous graphe du Web G = (S,U)
255
-
un vecteur E positif tel que ||E||1 = 1
un réel e
Résultat : le vecteur propre dominant R de la matrice At
début
R0 = E;
répéter
Rn+1 = At Rn ;
µ = ||Rn ||1 - ||Rn+1||1 ;
Rn+1 = Rn+1 +µE;
d = ||Rn+1 - Rn ||1 ;
jusqu'à δ < ε;
fin
Les résultats empiriques rapportés dans (Page et al., 1998) indiquent une convergence
rapide de l'algorithme en pratique : en quelques dizaines d'itérations, une approximation
raisonnable de R est atteinte sur un graphe de 322 millions de liens. Les auteurs suggèrent que
l'explication pourrait provenir d'une propriété d'expansion du graphe du Web, et font
référence à (Motwani et Raghavan, 1995). En effet, pour un graphe expansif, on sait donner
une borne supérieure pour les valeurs propres de At différentes de la valeur propre principale.
En fait, ces résultats s'appliquent à des graphes non orientés de degré constant, donc pas
directement au problème des pages du Web.
Néanmoins, il est certain que les relations entre la topologie du graphe et la vitesse de
convergence de l'algorithme sont à exploiter.
D’ailleurs, (Kleinberg, 1998), considère un graphe orienté G = (S,U) de matrice
d'adjacence M. La probabilité d'une transition de la page i vers la page j dans [Brin et Page,
1998] peut être perçue, (selon Kleinberg) comme égale à B = d M + 1 − d . Soit la matrice B, la
ij
d + (i )
ij
n
matrice dont les entrées sont les B i j . Le vecteur rang R est alors une solution non nulle et
positive de l'équation Bt R = R, et par conséquent il correspond au vecteur propre dominant de
la matrice Bt. Ce modèle est repris dans (Haveliwala, 1999). Selon cet auteur, l'introduction
du paramètre d'amortissement est destinée à améliorer la «qualité» du PageRank en
garantissant la convergence vers un unique vecteur rang. La matrice A est explicitement
supposée stochastique en éliminant itérativement les pages sans liens.
15.2 Le promeneur aléatoire
Il existe une autre façon d'interpréter le PageRank, basée sur la modélisation du surf
aléatoire d'un internaute sur le Web. Imaginons qu'un internaute se promène en parcourant des
pages, passant de l'une à l'autre en cliquant au hasard sur un lien. Il se peut qu'il se retrouve
bloqué dans un groupe de pages liées entre elles mais fermées sur le reste du Web. Dans ce
cas il saute aléatoirement sur une autre page. Ce brusque changement peut aussi provenir
directement du promeneur qui s'est lassé des pages qu'il visitait ou, qui n'a pas trouvé ce qu'il
cherchait.
Le PageRank d'une page peut alors être vu comme la probabilité qu'à un instant
donné ce surfeur soit précisément sur cette page.
256
Alors, l’idée du comportement aléatoire d'un internaute permet interpréter
l'introduction du vecteur E dans le modèle de rang. En effet, pour échapper aux circuits sans
issue, il est nécessaire «de temps en temps» de sauter aléatoirement vers une page quelconque
du Web. Cependant, les auteurs n'exploitent pas plus loin cette interprétation.
15.3 Les liens pendants
Les liens pendants dans PageRank, sont des iens qui pointent sur des pages sans liens
sortants. Ils affectent le modèle en ce sens qu'il n'est pas clair que leur poids soit redistribué et
il en existe un très grand nombre. Très souvent, ces liens pendants sont de simples pages qui
n'ont pas encore été téléchargées, puisqu'il est difficile d'échantillonner le Web dans sa totalité
(les auteurs disposaient de 24 millions de pages téléchargées, ils leur restaient 51 millions
d'urls 4 à télécharger qui correspondent en fait à ces liens pendants). Puisque les liens
pendants n'affectent en aucune manière le classement des autres pages directement, ils les
détruisent du système jusqu'à ce que tous les rangs de pages aient été calculés. Après que tous
les rangs de pages aient été déterminés, ils peuvent être réinsérés sans affecter le reste du
graphe. Une normalisation supplémentaire des liens devrai être faite localement !
15.4 Propriétés de convergence
Comme nous avons dit, PageRank converge vers une solution sur un graphe de 322
millions de liens contenus dans la base en environ 52 itérations. La convergence de la moitié
des données prend environ 45 itérations. Le graphe du Web constitue la preuve vivante que
cette méthode s'ajuste très bien même avec des collections de grande taille où le facteur
d'échelle est grosso modo linéaire en log n.
S
Y
V+(Y)
Figure 15-2. Un graphe α-expansioniste.
Une des raisons pour laquelle ce calcul converge rapidement (Page et al., 1998), tient
au fait que le Web est un graphe expansionniste (Motwani et Raghavan, 1995). Une
promenade aléatoire dans un graphe est un processus stochastique où à chaque instant nous
nous situons sur un nœud particulier du graphe et nous choisissons un lien sortant
uniformément au hasard pour déterminer le nœud à visiter au temps suivant. Un graphe G =
(S,U)
est
dit
-expansionniste si et seulement si ∀Y ⊆ S
V + (Y )
Y
≥ α (voir Figure 15-2). Où α est le facteur
d'expansion. Un graphe a un bon facteur d'expansion si et seulement si la plus grande valeur
propre est beaucoup plus grande que la seconde valeur propre. On qualifie une promenade
aléatoire sur un graphe de rapidement couplée si elle converge rapidement (temps
logarithmique en la taille du graphe) vers une distribution limite d'une promenade aléatoire du
graphe du Web.
257
15.4.1 Modèle matriciel
Si le calcul itératif converge alors, selon la loi de conservation : la quantité de rang
entrante est égale à la quantité de rang sortante - rien ne se perd ni se crée.
On définit la matrice stochastique A du graphe du Web :
A[u, v]
= 1/Nu s'il existe un lien de u vers v
= 0 sinon
Soit R le vecteur rang associé à l'ensemble des pages Web, on peut affirmer que R = c
A R. R est alors un vecteur propre associé à la valeur propre c. Selon les auteurs, il ne faut
s'intéresser qu'au vecteur propre dominant de A.
Hélas, ce calcul itératif ne fonctionne pas dans le cas général. Considérons par
exemple le cas de deux pages qui pointerait seulement l'une sur l'autre. Et supposons
maintenant l'existence d'une troisième qui redistribuerait un rang strictement positif sur la
première par exemple. Alors, à chaque itération, cette boucle accumulerait du rang mais ne
pourrait en aucun cas le redistribuer puisqu'il n'existe aucun lien sortant. Cette boucle forme
donc une sorte de trappe que les auteurs appellent un puits de rang :
rd
ra
rb
rc
Pour que le calcul itératif converge, il faut et il suffit que :
ra=rc+rd
rb=ra
rc=rb
On voit que tout dépend de la valeur de r d . Deux cas peuvent se présenter :
1. soit r D = 0 : D'où nous en déduisons que r a = r b = r c
2. soit r D ≠0 : Et dans ce cas pour que le système converge, il faut admettre ∞ comme
solution.
Pour résoudre ce problème de puits de rang, les auteurs introduisent la notion opposée
de source de rang. Alors, dans un fonction de rang pondéré généralisée, soit E un vecteur
associant à chaque page Web un rang initial correspondant à la probabilité de zapper sur cette
page. Dans ces conditions, on peut alors définir la fonction de rang R' définie par l'équation
suivante :
⎛
⎞
R' (u )
+ E (v) ⎟⎟
R' (v) = c⎜⎜ ∑
⎝ u∈Bv N u
⎠
avec c maximal et ||R’||=1. Il s’ensuit que
obtient :
∑
i =n '
i =1 i
r = 1.
∑
i =n
r' = 1
i =1 i
comme
∀i ∈ {1,2,..., n − 1, n}ri' ≥ 0 .
On
Les auteurs en déduisent ensuite que R’=c(A+E×1)R’ où 1 désigne le
vecteur ligne ne contenant que des 1. En effet, comme
∑
i =n '
i =1 i
r = 1 obtient
alors : 1 × R’ = I 1 . Il
en découle que : E = E ×1×R’ et par conséquent R'
est bien un vecteur propre de la matrice (A +E × 1). Ceci, évoque des souvenirs
intuitifs sur les parcours aléatoires de graphe, soit à une distribution probabiliste d'une marche
aléatoire du graphe du Web. Intuitivement, elle simule donc le comportement d'un internaute
surfant sur le Web.
258
15.4.2 L’algorithme
Voici une version de leur algorithme qui, au bout d'un certain nombre d'itérations,
converge vers la solution du système. Cette solution produit un ordre partiel sur toutes les
pages puisqu'elle permet associer à chacune d'elle une importance relative :
Données :
- la matrice d'adjacence A du graphe du Web
- le vecteur E
- un réel ε
Résultat : Le vecteur rang R associé à l'ensemble des pages du Web
début
Soit un vecteur S = E;
R 0 = S;
répéter
R i+1 = AR i ;
d = ||R i ||1 ||R i+1 ||1 ;
R i+1 = R i+1 + dE;
δ = ||R i+1 - R i || 1 ;
jusqu'à δ < ε;
fin
Remarquons que le facteur d augmente le taux de convergence et maintient ||R||1 . Une
normalisation alternative consisterait à multiplier R par un facteur approprié. L'utilisation de d
peut avoir un léger impact sur l'influence de E. La présence de la ligne R i+1 = R i+1 + dE peut
paraître intrigante dans la mesure où selon ses auteurs elle vise à maintenir une norme
constante. En fait, elle est nécessaire en ce sens que chaque multiplication matricielle A R i
induit un certain nombre de divisions lié à la stochasticité de la matrice A. Elle maintient donc
la norme ||R||1 exacte à la précision machine prés.
259
260
16
Bibliographie
16.1 Référencée
(Adamic, 2000-url)
Adamic Lada A., Zipf, Power-laws, and Pareto - a ranking tutorial,
http://www.hpl.hp.com/shl/papers/ranking/, 2000.
(Adamic et al., 2001) L. Adamic, R. Lukose, A. Puniyani, and B. Huberman. Search in power law networks.
Physical Review E, vol. 64, 046135, 2001.
(Adams,1965) Adams, S. “Status congruency as a variable in small group performance, Social forces”, 32, p.
16-22.
(Adar et Huberman, 2000) E. Adar and B. Huberman. “Free riding on gnutella”. Technical report, Xerox
PARC, 2000.
(Adar et al., 1999) Adar E., Karger D., et Stein L., Haystack: Per-user information environments. In
Proceedings of the 1999 Conference on Information and Knowledge Management, CIKM, 1999.
http://www.hpl.hp.com/shl/people/eytan/p413-adar.pdf
(Agosto et al., 2003) Agosto L., Plu M., Vignollet L., Bellec P., SOMEONE: A cooperative system for
personalized information exchange, dans le livre « Enterprise Information Systems V », édité par
Olivier Camp, ESEO, Angers, France - Joaquim B.L. Filipe Escola Superior de Tecnologia de Setúbal,
Portugal - Slimane Hammoudi, ESEO, Angers, France - Mario G. Piattini, Universidad de Castilla-La
Mancha, Ciudad Real, Spain, Eds Kluwer.
(Aguzzoli et al., 2001) Aguzzoli, S. Avesani, P. Massa, P. “Compositional Recommender Systems Using
Case-Based Reasoning Approach”, 2001 ACM SIGIR Workshop on Recommender Systems, 2001,
Radisson Hotel New Orleans, LA – USA
(Andrews 2000-url) Andrews Paul, Bookmarking service offers new way of personalizing the Web,
http://seattletimes.nwsource.com/news/technology/html98/paul_20000102.html, 2000.
(Angot et Josserand, 1999) Angot J. et Josserand E. 1999, “Analyse des réseaux sociaux”, in Thiétart R-A. et
coll., Méthodes de recherche en managent, Chapitre 14, Collection Gestion Sup., Paris : Dunond,
pp.397-421.
(Ardichvili et al., 2002) Ardichvili A., Page V. et Wentling T. 2002 Motivation and barriers to participation in
Virtuel Knowledge Sharing Communities of Practice. Journal of Knowledge Management, 19 March
2003, vol. 7, iss.1, pp. 64-77(14).
(Armstrong et al. 1995) Armstrong R., Freitag D., Joachims T., et Mitchell T., WebWatcher: A learning
apprentice for the World Wide Web. In Proceedings of AAAI Spring Symposium on Information
Gathering from Heterogeneous Distributed Environments, March 1995. http://www2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-6/web-agent/www/webagent-plus/webagent-plus.html
(Baranger-url) M. Baranger, Chaos, Complexity, and Entropy: a Physics Talk for Non-Physicists
http://www.necsi.org/projects/baranger/cce.html
(Bardini, 1996). Bardini, Thierry, Changement et réseaux socio-techniques : de l’ inscription à l’ affordance, in
: Reseaux, n. 76, CNET, 1996.
261
(Barnes, 1954) Barnes J. A. "Class and Committees in a norwegian Island Parish", Human Relations, 7, pp.
39-58.
(Bar-Yan, 1997) Y. Bar-Yam, Dynamics of Complex Systems. Addison-Wesley, Reading Mass, 1997.
Beaver et Rosen, 1978) Beaver, D. et Rosen, R., Studies in scientific collaboration. Part 1 the professional
origins of scientific authorship, Scientometrics, 1, 65-84, 1978.
(Berners-Lee et al. 1996) 2001Berners-Lee Berners-Lee, T., Fielding, R., and H. Frystyk, 1996. Hypertext
Transfer Protocol HTTP/1.0., RFC 1945 MIT/LCS, UC Irvine, May.
(Boltanski et Thévenot, 1987) Boltanski L. et Thévenot L., 1987, “Les économies de la grandeur”, Cahiers du
Centre d’études de l’Emploi, n°31, Paris : PUF.
(Bourdieu, 1986) Bourdieu, P.,1986. The forms of capital. In J. Richardson (Ed.), Handbook of theory and
research for the sociology of education (pp. 241-258). New York: Greenwood.
(Borgatti, 1998-url) Borgatti Steve,
http://www.analytictech.com
1998
Social
Network
Analysis,
Instructional
Web
Site,
(Bricklin, 2001) Dan Bricklin. The Cornucopia of the Commons: How to get volunteer labor.
http://bricklin.com/cornucopia.htm, 2001.
(Brin et Page, 1998) Brin S. and Page L, 1998, The anatomy of a large-scale hypertextual (Web) search
engine. In The Seventh International World Wide Web Conference.
(Broadbent et Weil, 1997) Broadbent, M., Weil, P. Management by maxim: how business and IT managers
can create IT infrastructures. Sloan management review, 38(3), p.77-92.
(Budzik et al. 1998) Budzik J., Hammond K.J., Marlow C., et Scheinkman A., Anticipating information needs:
Everyday applications as interfaces to Internet information servers. In Proceedings of the 1998 World
Conference of the WWW, Internet and Intranet, Orlando, Florida, 1998. AACE Press.
(Budzik et al. 2000) Budzik Jay, Hammond Kristian J., Birnbaum Larry, et Krema Marko., Beyond similarity. In
Proceedings of the 2000 Workshop on Artificial Intelligence and Web Search. AAAI Press, 2000.
(Budzik et Hammond, 2000) Budzik J. et Hammond, K.J., User interactions with everyday applications as
context for just-in-time information access. In Proceedings of the 2000 International Conference on
Intelligent
User
Interfaces,
New
Orleans,
Louisiana,
ACM
Press,
2000.
http://dent.infolab.nwu.edu/infolab/downloads/papers/paper10080.pdf
(Burt, 1982) Burt Ronald S. Toward a Structural Theory of Action. Networks Models of Social Structure,
Perception and Action, New York, Academic Press.
(Canny, 2002) J. Canny. Collaborative Filtering with privacy. In IEEE Conference on Security and Privacy,
Oakland, CA, USA, May 2002.
(Chakrabarti et al., 1998) S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan, D. Gibson and J. Kleinberg.
Automatic resource compilation by analyzing hyperlink structure and associated text. Proc. 7th
International World Wide Web Conference, http://decweb.ethz.ch/WWW7/1898/com1898.htm, 1998.
(Clement, 1990) Clement, A. Cooperative Support for Computer Work: A Social Perspective on the
Empowering of End Users, Proc. of CSCW 90, ACM Press, pp.223-236.
(Cohen, 1998) Cohen, D., Towards a knowledge context : report on the first annual U.C. Berkeley forum of
knowledge and the firm. California Management Review, 40(3), p.22-39, 1998.
(Collot, 1993) Collot, B. De l'importance des médias électroniques dans l'existence de systèmes éducatifs
vivants: les réseaux. in Derrien, C., bedecarrats, O. & Morne, J.J. (Eds.). Ecoles en réseaux.
Télématique et pédagogie Freinet, p 65-78.
(Constant et al. 1994) ConstantD., Kiesler, S., et Sproull, L., What’s mine is ours, or is it ? Information
Systems Reseach, 5(4), 400-422, 1994. http://www.itsdocs.fhwa.dot.gov/jpodocs/repts_te/8v201!.pdf
(Cook et al., 1983) Cook Karen , Richard M. Emerson et May R. Gillmore, 1983 “The Distribution of Power in
Exchange Networks : Theory and Experimental Results”, American Journal of Sociology 89:275-305.
(Cronin, 1995) Cronin B., The scholar’s courtesy: the role of acknowledgement in the primary communication
process. London : Taylor Graham.
262
(Delgado et al. 2001) Delgado Joaquin, Ishii Nahoiro et Ura Tomoki, Content-based collaborative filtering :
Actively
learning
to
classify
and
recommended
documents,
2001.
http://wwwishii.ics.nitech.ac.jp/~jdelgado/raap-final.pdf
(Denoue et Vignollet, 2000) Denoue L. et Vignollet L., L'importance des annotations : application à la
classification des documents du web, Document Numérique, numéro spécial « L'indexation », Volume
4, n°1-2, pp. 37-57, 2000.
(Desalles, 2001) Desalles J.L. L’origine politique du langage, La Recherche, 341, 31-35, 2001.
(Dixon 2000) Dixon N.M., Common Knowledge: How companies thrive by sharing what they know, Boston
Harvard Business Scholl Press, 2000.
(Dyer et Nobeoka, 2000) Dyer, J. H., & Nobeoka, K. (2000). Creating and managing a high-performance
knowledgesharing network: the Toyota case. Strategic Management Journal, 21(3), 345-367.
(Eveland et al., 1994) Eveland, D. J., Brown, W. & Mattocks, J. The Role of "Help Networks" in Facilitating
Use of CSCW Tools, Proc. of CSCW 94, ACM Press, pp.265-274.
(Flake et al. 2000) Gary Flake, Steve Lawrence, and C. Lee Giles., Efficient identification of web communities.
In Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages
150–160, Boston, MA, August 20–23 2000. http://www.neci.nec.com/~lawrence/papers/webkdd00/web-kdd00.pdf
(Forsé, 2002) Forsé Michel, "Les réseaux sociaux chez Simmel : les fondements d'un modèle individualiste et
structural", in Deroche-Gurcel Lyliane et Watier Patrick (dir.), La sociologie de Georg Simmel, Paris,
Presses Universitaires de France, pp.63-107
(Freeman, 1979) Freeman L.C. “Centrality in social networks: conceptual clarification”, Social Networks,
1:215-239, 1979.
(Garton et al., 1997) Garton, L., Haythornthwaite, C., & Wellman, B. (1997). Studying online social networks.
Journal
of
Computer-Mediated
Communication,
3(1).
Available
online
at:
http://207.201.161.120/jcmc/vol3/issue1/garton.html
(Gensollen, 2003-url) Gensollen M. 2003 “Biens Informationnels et communautés mediates”,
http://www.enssib.fr/gdr/pdf/ecoles/sept2003/01-01gensollen.pdf, mai 2003.
(Ghosh, 1998) Rishab Aiyer Ghosh, 1998. “Cooking pot markets: an economic model for the trade in free
goods and services on the Internet”. First Monday, volume 3, number 3, a Peer-reviewed Journal on
the Internet (March).
(Glover et al. 1999) Glover, Eric J., Lawrence Steve, Michael D. Gordon., William P. Birmingham et C. Lee
Giles, Web Search – Your Way. Communications of the ACM, 1999, 2000.
http://www.eecs.umich.edu/~compuman/papers/cacm1.pdf
(GMD-FIT, 2000) The social web research program, http://orgwis.gmd.de/projects/SocialWeb.
(Goldberg et al., 1992) Goldberg, D. Nichols, D. Oki, B. M. Terry, D. “Using Collaborative Filtering to Weave
an Information Tapestry”, Communications of the ACM, Vol. 35, No. 12, December 1992
(Gokhale, 1999) Gokhale, A. Improvements to Collaborative Filtering Algorithms. Thesis computer science
department, WPI, May 1999.
(Goldberg et Roeder, 2000) Goldberg, K. and Roeder, T. Eigentaste : A constant time collaborative filtering
algorithm. Technical Report M00/41, UCB Electronics Research Laboratory, 2000.
(Good et al. 1999) Good Nathaniel, Shafer J. Ben, Konstan Joseph A., Borchers Al, Sawar Bradul, Herlocker
Lon et Riedl John, Combining collaborative filtering with personal agents for better recommendations,
AAAI/IAAI, 1999. http://www.cs.umn.edu/Research/GroupLens/aaai-99.pdf
(Granovetter, 1985) Granovetter, M., 1985, “Economic action and social structure: the problem of
embeededness”, American Journal of Sociology 91:481-510.
(Grather et Prinz, 2001) Wolfgang Grather et Wolfgang Prinz, The social web cockpit, support for virtual,
2001.
(Greer et al., 1998) Greer, J., McCalla, G., Collins, J., Kumar, V., Meagher, P. & Vassileva, J. Supporting Peer
Help and Collaboration in Distributed Workspace Environments, International Journal of Artificial
Intelligence in Education, 9.
263
(Guernsey, 2003) Lisa Guernsey. Making Intelligence a Bit Less Artificial. New York Times, 5 January 2003.
(Hall, 2001) Hall Hazel, Social exchange for knowledge exchange, Paper presented at Managing Knowledge:
conversations and critiques, University of Leicester Management Centre, 10-11 April 2001.
(Hansen, 1999) Hansen, M. T., The search-transfer problem : the role of weak ties in sharing knowledge
across organization sub-units. Administrative Science Quarterly, 44(1), 82-111, 1999.
(Hardin, 1968) Hardin, G. (1968) « The Tragedy of Commons », Science 162, 1243-1248.
(Hargadon, 1998) Hargadon, A. B., 1998. Firms as knowledge brokers. California Management Review,
40(3),209-227.
(Hart et al., 2000) A. Harth, M. Bauer, and B. Breutmann. Iowl collaborative Filtering in a distributed
environment: An agent-based approach. Technical report, University of Applied Sciences - Wurzburg Germany, 2000.
(Hartigan, 2000) Hartigan Patti, Free riders who don't share in
http://www.hpl.hp.com/shl/people/huberman/BostonGlobe.htm,%202000
the
digital
community.
(Héber-Suffrin, 1992) Héber-Suffrin C., 1992, Echanger les Savoirs, Desclée de Brouwer.
(Héber-Suffrin et Héber-Suffrin, 1993) Héber-Suffrin C. et Héber-Suffrin M., 1993, Le cercle des savoirs
reconnus, Desclée de Brouwer.
(Héber-Suffrin, 1998) Héber-Suffrin C., 1998, Les savoirs, la réciprocité et le citoyen, Desclée de Brouwer.
(Herlocker et al., 2000) J.L. Herlocker, J.A. Konstan, and J. Riedl. Explaining Collaborative Filtering
Recommendations. In Proc. of CSCW 2000.
(Herlocker et al., 2004) Herlocker, J, Konstan, J., Terveen, L., and Riedl, J. Evaluating Collaborative Filtering
Recommender Systems. ACM Transactions on Information Systems 22 (2004), ACM Press, 5-53.
(Jarvenpaa et Leidner, 1999) Jarvenpaa, S.L., Leidner, D.E. Communication and trust in global virtual teams,
Organization science, 10(6), p. 791-815.
(Jin et al., 2001) Jin Emily M., Girvan Michelle, and Newman M. E. J., The structure of growing social
networks, Phys. Rev. E 64, 046132 (2001).
(Kamvar et al., 2003) S. Kamvar, M. Schlosser, and H. Garcia-molina. Eigenrep: reputation management in
p2p network. In Proc. of WWW, 2003.
(Kanawati et Malek, 2000) Kanawati Rushed et Malek Maria, 2000. Informing the design of shared
bookmarks systems, In Proceedings of RIAO2000. Paris, France. Pp. 170-180.
(Karypis, 2000) Karypis George, Evaluation of Item-Based Top-N Recommendation Algorithms. (University of
Minnesota, Department of Computer Science / Army HPC Research Center), http://wwwusers.cs.umn.edu/~karypis/publications/Papers/PDF/itemrs.pdf, 2000.
(Kautz et al., 1997) Kautz, H. Selman, B. Shah, M. “Referral Web: Combining Social Networks and
Collaborative Filtering”, Communications of the ACM 40(3), March 1997, 63-65
(Kautz et al., 1997b) Kautz, H., Selman, B., et Shah, M. 1997. The Hiden Web, AI Magazine, vol. 18 No. 2,
pp. 27-36.
(Kessler, 1963) Kessler M., Bibliographic coupling between scientific papers. American documentation,
14:10—25, 1963.
(Key,
2000)
Key
Peter,
Web
Designers
build
site
with
global
http://www.bizjournals.com/philadelphia/stories/2000/11/27/newscolumn2.html
reach,
2000.
(Kim et al., 2002) B. Kim, C. Yoon, S. Han, and H. Jeong. Path Finding strategies in scale-free networks.
Physical Review E, vol. 65, 027103, 2002.
(Kleinberg, 1998) Jon Kleinberg, Authoritative Sources in a Hyperlinked Environment. In Proceedings of 9th
ACM-SIAM Symposium on Discrete Algorithms, 1998. Extended version in Journal of the ACM
46(1999).
Also
appears
as
IBM
Research
Report
RJ
10076,
http://www.cs.cornell.edu/home/kleinber/auth.ps, May 1997.
264
(Krackhardt, 1992) Krackhardt, D., The strength of strong ties: the importance of philos in organizations. In N.
Nohira & R. Eccles (Eds), Organizations and Networks : Structure, form and action (p.216-239).
Boston: Harvard Business School, 1992.
(Kreps et Wilson, 1982) Kreps, D.M. et Wilson 1982, “Reputation and Imperfect information”, Journal of
Economic Theory 27:253-279.
(Kreps, 1990) Kreps, D.M. 1990, “Corporate culture and economic theory”, 90-143, in:J.E. Alt; K.A. Sheple
(eds.), Perspectives on positive political economy, Cambridge: Cambridge University Press.
(Labalme et Burton, 2001) F. Labalme and K. Burton. Enhancing the internet with reputations: an openprivacy
white paper. Web page, March 2001.
(Lauwrence, 2000) Lawrence Steve, Context in Web Search, IEEE Data Engineering Bulletin, Volume 23,
Number 3, pp. 25-32, 2000. http://www.neci.nec.com/~lawrence/papers/context-deb00/contextdeb00.pdf
(Lave et Wenger, 1991) Lave, J. and Wenger, E.: Situated Learning: Legitimate Peripheral Participation.
Cambridge University Press, 1991.
(Lawlor, 2000) Lawlor Julia, Web services offer solutions to bookmark overload, NY Times, Juliet 13 2000.
http://www.nytimes.com/library/tech/00/07/circuits/articles/13basi.html
(Levien, 2000-url) R. Levien. Advogato Trust Metric. http://www.advogato.org/trust-metric.html, 2000.
(Lueg, 1997) Lueg, C., Social filtering and social reality. In Delos Workshop on Collaborative Filtering,
Budapest, Nov 1997.
(Lueg, 1998) Lueg, C. Considering collaborative filtering as groupware : Experiences and lessons learned. In
2nd International Conference on Practical Aspects of Knowledge Management (PAKM), 1998.
(Luhmann, 1988). Familiarity, confidence, trust: problems and alternatives. In Gambetta, D. (Ed) Trust:
Making and breaking cooperative relations, Oxford, Basil Blackwell, p. 95-107.
(Maltz et Enhrlich, 1995) Maltz, D. and Enhrlich, K. Pointing the way : active collaborative filtering. In
Conference on human factors in computing systems (CHI), Denver,Colorado USA, May 1995.
(Markoff, 1999) Markoff John, On the web, as elsewhere, popularity us self-reinforcing, NY Times, 1999.
http://www.tgc.com/dsstar/99/0629/100852.html
(Markoff, 2000) Markoff John, More taking than giving in the web, NY Times, 2001.
http://www.meehawl.com/Webstore/Gnutella%20-20Tragedy%20of%20the%20Commons/21shar.html
(Markus, 1987) Markus, M.L. Toward a critical mass theory of interactive media. Communication research,
14, p.491-511.
(McJones, 1997-url) P. McJones. Eachmovie collaborative Filtering data set. http://research.compaq.com/
SRC/eachmovie/, 1997.
(Meadows, 1998) Meadows, A. Communicating research. San Diego, CA: Academic Press. 1998.
(Merali, 2000) Merali, Y. Self-organising communities. In S. Rock (Ed.), Liberating knowledge (pp.80-87).
London: IBM/CBI, 2000.
(Midleton, 2003) Middleton S.E. Capturing knowledge of user preferences with Recommender Systems.
Faculty of Engineering and Applied Science Electronics and Computer science, Doctor of Philosophy,
University of Southmapto, 2003.
(Milgram, 1967) S. Milgram, Psychology Today 2, 60 (1967).
(Millen et Patterson, 2002) Millen David R. et John F. Patterson. Stimulating social engagement in a
community network. Proceedings of the 2002 ACM conference on Computer supported cooperative
work, New Orleans, Louisiana, USA, p.306 - 313, 2002.
(Miller et al., 1997) Miller, B.N., Riedl, J.T. and Konstan, J.A. Experiences with grouplens : Making usenet
useful again. In Usenix Winter Technical Conference, Jan 1997.
(Molm, 2001) Molm, L. D. Theories of social exchange and exchange networks. In G. Ritzer & B. Smart
(Eds.), Handbook of social theory (pp. 260-272). London: Sage. 2001.
265
(Motwani et Raghavan, 1995) R. Motwani and P. Raghavan. Randomized algorithms. In Cambridge
university press, 1995.
(Nahapiet et Ghoshal, 1998) Nahapiet J. et Ghoshal S., 1998. Social capital, intellectual capital, and the
organizational advantage. Academy of Management Review, 23(2), 242-266.
(Nowak et Sigmund, 2000) Nowak, M. A., K. M. Page and K. Sigmund, 2000. Fairness versus reason in the
ultimatum game. Science 289: 1773-1775.
(O'Dell et Jackson Grayson, 1998) O'Dell, C. & Jackson Grayson, C. (1998). "If we only knew what we know:
identification and transfer of internal best practices." California Management Review, 40(3), 154-174
(Olson, 1965/1978) Olson, M. La Logique de l'Action Collective. Paris: PUF.
(O’Reilly et associés, 2001) O’Reilly & Associates, 2001 Peer-to-Peer: Harnessing the Power of Disruptive
Technologies, A. Oram, editor.
(Page et al., 1998) Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation
ranking: Bringing order to the web. Technical report, Stanford Digital Library Technologies Project,
1998.
(Palme, 1995) Palme, J. Electronic mail. Artech House Publishers, 1995.
(Perriault 1996) Perriault J. La communication du savoir à distance. L’Harmattan 1996.
(Plu et al., 2003) Plu M., Agosto L., Bellec P., Van De Velde W. “The Web of People: A dual view on the
WWW”, to present on “The Twelfth International World Wide Web Conference”, 20-24 May 2003,
Budapest, HUNGARY. Best Alternate Track Paper.
(Plu et al., 2004) Plu M., Agosto L., Vignollet L., Marty JC., A contact recommender system for a mediated
social media, 6th International Conference on Enterprise Information Systems, Portugal, 14-17 April
2004.
(Popescul et al., 2001) Popescul A., Ungar L., Pennock D., et Lawrence S. Probabilistic models for unified
collaborative and content-based recommendation in sparse-environments. In Proc. 17th Conf.
Uncertainty in Artificial Intelligence, pages 437-444, 2001.
(Prax 2003) Prax Jean-Yves. Le manuel du Knowledge Management : Une approche de 2e génération,
2003.
(Preece, 2000) Preece, J. Online Communities: Designing Usability, Supporting Sociability. Chichester, UK:
John Wiley & Sons, 439 pages, 2000.
(Rashid et al., 2002) Rashid, A.M., Albert, I., Cosley, D., Lam, S.K., McNee, S., Konstan, J.A., & Riedl, J.
(2002). Getting to Know You: Learning New User Preferences in Recommender Systems. In
Proceedings of the 2002 International Conference on Intelligent User Interfaces, San Francisco, CA,
pp. 127-134, http://www-users.cs.umn.edu/~cosley/research/papers/getting-to-know.pdf, 2002.
(Reynaud, 1989) Reynaud J-D., 1989, Les règles de jeu. L’action collective et la régulation sociale, Collection
U, Paris : Armand Colin.
(Reix, 1995) Reix, R. Systèmes d'information et management des organisations. (3ème Ed.). Paris, Vuilbert
(1ère Ed: 1995).
(Resnick et al., 1994) Resnick, P., Lacovou, N., Suchak, M., Bergstrom, P. and Riedl, J. An open architecture
for collaborative filtering of netnews. In Conference on Computer Supported Co-operative Work, pages
175–186.
(Resnick et Varian, 1997) P. Resnick, H. R. Varian. "Recommender systems", Communications of the ACM,
3, 40, 1997, p. 56-58.
(Ridings,
2001-url)
Ridings
Chris,
www.goodlookingcooking.co.uk/PageRank.pdf, 2001.
PageRank
Explained,
http://
(Rioux, 2000) Rioux, K., Sharing information found for others in the web : a preliminary examination. In D.
Kraft (Ed.), Proceedings of the 63rd Annual Meeting of the American Society for Information science
(Vol. 37, p. 68-77). Medford, New Jersey : Information Today, 2000.
266
(Rodes et Starner, 1996) Rhodes Bradley J. et Starner Thad., Remembrance Agent: A continuously running
automated information retrieval system. In Proceedings of the First International Conference on the
Practical Application of Intelligent Agents and Multi Agent Technology, pages 487–495, 1996.
(Rodes, 2000a) Rhodes Bradley., Just-in-Time Information Retrieval. PhD thesis, Massuchesetts Institute of
Technology, 2000.
(Rodes, 2000b) Rhodes Bradley J., Margin Notes: Building a Contextually aware associative memory. In
Proceedings of the International Conference on Intelligent User Interfaces, IUI 00, 2000.
(Rojo, 1995-url) Rojo, A. Participation in scholarly electronic forums. Ph. D. Thesis. university of Toronto. (En
ligne): http://www.digitaltempo.com/e-forums/thindex.html
(Rojo et Ragsdale, 1997) Rojo, A., Ragsdale, R.G. A process perspective on participation on scholarly
electronics forums. Science Communication, 18(4), p. 342-361, 1997.
(Sarwar et al., 2000) B. Sarwar, G. Karypis, J. Konstan, and J. Riedl. Application of dimensionality reduction in
recommender systems -a case study, 2000.
(Schafer et al., 1995) J.B. Schafer, J. Konstan, and J. Riedl. Recommender systems in e-commerce. In
Proceeding of the ACM Conference on Electronic Commerce, Pittsburgh, PA, USA, November 1999.
(Shardanand95) U. Shardanand, P. Maes."Social Information Filtering : Algorithms for Automating
Word of mouth", in : CHI'95 : Mosaic of creativity, ACM, p. 210-217, Denver, Colorado, mai, 1995.
(Schein et al., 2002) A. Schein, A. Popescul, L. Ungar, and D. Pennock. Methods and metrics for cold-start
recommendations, 2002.
(Sen et al., 2002) S. Sen, A. Biswas, and S. Debnath. Believing others: pros and cons. Artificial Intelligence,
142(2):179- 203, December 2002.
(Shardanand et Maes, 1995) U. Shardanand, P. Maes."Social Information Filtering : Algorithms for
Automating Word of mouth", in : CHI'95 : Mosaic of creativity, ACM, p. 210-217, Denver, Colorado,
mai, 1995.
(Shirky, 2000-url) Clay Shirky. What is p2p ... and what isn't? http://www.openp2p.com/pub/a/
p2p/2000/11/24/shirky1-whatisp2p.html, November 2000.
(Sinha et Swearingen, 2001) Sinha, R. et Swearingen K., 2001. Comparing Recommendations made Online
Systems and Friends ; Proceedings of the DELOS-NSF Workshop on Personalization on
Recommender Systems in Digital Libraries.
(Snowden, 2000) Snowden, D., Liberating Knowledge. In S. Rock. (Ed.) Liberating Knowledge (p. 105-111).
London: IBM/CBI, 2000.
(Spears et al., 2000) Spears, R., Postmes T., Wolbert A., Lea M. et Togers P. Social Psychological Influence
of ICT’s on Society and ther Policy Implications (Research Report). Amsterdam, the
Netherlands:Infodrome, 2000.
(Sperturs, 1996) Ellen SPERTUS, Parasite : mining structural information on the web. 1996.
(Sproull et Kiesler, 1991) Sproull, L. & Kiesler, S. Connections: New ways of working in the networked
organization, MIT Press.
(Swearingen et Sinha, 2001) K. Swearingen and R. Sinha. Beyond algorithms: An hci perspective on
recommender systems, 2001.
(Thibault et Kelly, 1952/1959) Thibault J.W. et Kelly H. H., 1952. The Social Psychology of Groups, New
Yoerk: John Wiley & Sons.
(Trevor, 2001) Trevor Robie, 2001. PageTracker: A Portable Bookmarking Tool Used for Fine-Grain Update
Notification, 2001.
(Turner, 1982) Turner, J.C. Towards a cognitive redefinition of the social group, in H. Tajfel (Ed.) Social
identity and intergroup relations, Cambridge; Cambridge University Press.
(Vignollet et al., 2005) Vignollet L., Plu M., Marty J.C., Agosto L., Regulation mechanisms in an open social
media using a contact recommender, 2nd International Conference on Communities and
Technologies, Milano, Italy, 13-16 June 2005
267
(Von Krogh, 1998) Von Krogh, G., Care in knowledge creation, California Management Review, 40(3), 133153, 1998.
(Wasko et Faraj, 2000) Wasko, M., et Faraj, S., 2000. "It is what one does"; why people participate and help
others in electronic communities of practice. Journal of Strategic Information Systems, 9(2/3),155-173.
(Wasserman et Faust, 1994) Wasserman Stanley et Faust Katherine, Social Network Analysis. Methods and
Applications, Cambridge (Mass.),Cambridge University Press, 825 p.
(Watts et Strogatz, 1998) D.J. Watts, S.H. Strogatz, Nature 393, 440. 1998.
(Weber, 1968) Weber Max (1968), Economy and Society, : An Outline of Interpretive Sociology, New York
Bedminster Press, 1968.
(Weisband et al., 1995) Weisband, S., Schneider, S., & Connolly, T. Computer-mediated communication and
social information. Academy of Management Journal, 38(4), 1124-1151, 1995.
(Wenger, 1996) Wenger, E. Communities of Practice: The Social Nature of Learning, HealthCare Forum
Journal, pp.20-26.
(Wilson, 1985) Wilson 1985, “Reputations in games and markets”, 27-62, in: A.E. Roth, Game-theorical
models of bargaining, Cambridge: Cambridge University Press.
(Zaslow, 2002) Jeffrey Zaslow. If TiVo Thinks You Are Gay, Here's How to Set It Straight. The Wall Street
Journal, 26 November 2002.
16.2 Consulté
(Aberer et Despotovic, 2001) Karl Aberer and Zoran Despotovic. “Managing trust in a peer-2-peer information
system”. In CIKM, pages 310{317, 2001.
(Amblard et Ferrand, 1998) Amblard et Ferrand. Acters du Colloque Modèle et Systèmes Milti-Agents pour la
gestion de l ‘environement et des territoires, Clermont-Ferrand, 5-8 Octobre, 1998, N Ferrand (ed),
Cemagref, p. 153-168. “Modélisation Multi-Agents de l’évolution de Réseaux Sociaux“ Frederic
AMBLARD, Nils FERRAND, Cemagref, LISC.
(Asnicar et Tasso, 1997) Asnicar, F. A. Tasso, C. “ifWeb: a Prototype of User Model-Based Intelligent Agent
for Document Filtering and Navigation in the World Wide Web”, In Proceedings of the Sixth
International Conference on User Modeling, Chia Laguna, Sardinia, June 1997.
(Baeza-Yates et Ribiero-Neto, 1999) Ricardo Baeza-Yates and Berthier Ribiero-Neto. Modern Information
Retrieval. Addison Wesley / ACM press, 1999
(Bala et Goyal, 2000) Bala, V., Goyal, S. “A Noncooperative Model of Network Formation”, Econometrica, 68,
1181-1229.
(Balabanovic et Shoham, 1997) Balabanovic, M. Shoham, Y. “Fab: Content-Based, Collaborative
Recommendation”, Communications of the ACM 40(3), March 1997, 67-72.
(Bauer et Dengler, 2002) Bauer, M. Dengler, D. “Group Decision Making Through Mediated Discussions”,
Workshop on Recommendation and Personalization in e-Commerce (RPeC02), Malaga, Spain.
(Beugnard et Pahn, 2002) Beugnard A and Phan D., 2002. Moduleco, a multi-agent modular framework for
the simulation of network effects and population dynamics in social sciences, markets & organizations.
http://www-eco.enst-bretagne.fr/~phan/moduleco/ModulecoGreyPaper.pdf
(Borgman, 2000) Borgman, C., 2000 “Scholarly communication and bibliometrics revisited”. In B. Cronin & H.
B.Atkins (Eds.), The web of knowledge (pp. 143-162). Medford, NJ: Information Today.
(Breese et al., 1998) J. Breese, D. Heckerman, and C. Kadie. Empirical analysis of predictive algorithms for
collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Arti_ cial
Intelligence,Madison, WI, July 1998.
(Bueno et al., 2001) Bueno, D. Conejo, R. David, A. A. ”METIOREW: An Objective Oriented Content Based
and Collaborative Recommending System”, Twelfth ACM Conference on Hypertext and Hypermedia,
Hypertext 2001, Århus, Denmark
268
(Burke, 2000) Burke, R. “Knowledge-based Recommender Systems”, In: A. Kent (ed.): Encyclopedia of
Library and Information Systems, 2000, Vol. 69, Supplement 32.
(Burt, 1992) Burt Ronald S. Structural Holes. The Social Structure of Competition, Cambridge (Mass.),
Harvard University Press.
(Crozier et Freidberg, 1977) Crozier et Freidberg, “L’acteur et le système”, Seuil, 1977.
(Davenport et Cronin, 2000) Davenport, E., & Cronin, B., 2000. The citation network as a prototype for
representing trust in virtual environments. In B. Cronin & H. B. Atkins (Eds.), The web of knowledge
(pp.517-534). Medford NJ: Information Today.
(Degenne et Forsé, 1994) Degenne Alain et Forsé Michel. Les réseaux sociaux. Une approche structurale en
sociologie, Paris, Armand Colin, coll. "U", 263 p.
McAdams, S. Winsberg, S. Donnadieu, S. De Soete, G. et Krimphoff, J. (1995) "Perceptual scaling of
synthesized musical timbres: common dimensions, specificities, and latent subject classes".
Psychological Research,58, 177-192.
(Forsé et Langlois, 1997) Forsé Michel et Langlois Simon, "Réseaux, structures et rationalités", L'Année
sociologique, vol. 47, n° 1, pp. 27-35.
(Fu et al., 2000) Fu, X. Budzik, J. Hammond, K. J. “Mining Navigation History for Recommendation”, In
Proceedings of the 2000 Int. Conf. On Intelligent User Interfaces (IUI'00). New Orleans, Louisiana
(Hardin,1968) Garrett Hardin. The tragedy of the commons. Science, 162:1243{1248, 1968.
(Glance, 2001) Glance Natalie S., Putting Recommender Systems to Work for Organizations, Xerox
Research Centre Europe, 2001.
(Glance et al., 2001) Glance Natalie, Meunier Jean-Luc, Bernanrd Pierre et Arregui Damian, Collaborative
Document Monitoring, Proceedings of the 2001 International ACM SIGGROUP Conference on
Supporting Group Work – Volume 2001, Boulder, Colorado, USA, Sept. 30 - Oct. 3, 2001.
http://www.xrce.xerox.com/research/ct/publications/home.html
(Granovetter, 2000) Granovetter, M. 2000, “Action économique et structure sociale : le problème de
l’encastrement”, in Le marché autrement. Les réseaux dans l ‘économie, Collection Sociologie
économque, Paris : Desclée de Brouwer, pp. 75-114.
(Grather et Prinz, 2000) Wolfgang Grather et Wolfgang Prinz, The Social Web Cockpit: A Tool to Support
Knowledge Sharing Communities, 2001.
(Harth et al., 2000) A. Harth, M. Bauer, and B. Breutmann. Iowl collaborative Filtering in a distributed
environment: An agent-based approach. Technical report, University of Applied Sciences - Wurzburg Germany, 2000.
(Haveliwala,
1999)
Haveliwala
Taher
H.,
http://dbpubs.stanford.edu/pub/1999-31 , 1999.
Efficient
Computation
of
PageRank,
(Hayes et al., 2002) C. Hayes, P. Massa, P. Avesani, and P. Cunningham. An on-line evaluation framework
for recommender systems. In Workshop on Personalization and Recommendation in E-Commerce,
Malaga, 2002. Springler.
(Hirai et al., url) Jun HIRAI, Siram RAGHAVAN, Hector GARCIA-MOLINA, Andreas PAEPCKE. WebBase : A
repository
of
web
pages.
Computer
Science
Department,
Stanford
University.
http://www9.org/w9cdrom/296/296.html
(Jouet, 2002) Jouet Josiane, “Discours publicitaires et médiatiques”, Les nouvelles technologies : quels
usages, quels utilisateurs ?, Dossiers de l’audiovisuel n°103, mai-juin 2002, p 22.
(Ketchpel et Garcia-Molina, 1999) S. Ketchpel and H. Garcia-Molina. A sound and complete algorithm for
distributed commerce transactions. Distributed Computing, 12(1), 1999.
(Klein, 2002) Klein Isabelle, “Les pages personnelles, des dispositifs de médiation entre espace public et
espace privé”, Les nouvelles technologies : quels usages, quels utilisateurs ?, Dossiers de
l’audiovisuel n°103, mai-juin 2002, p 49.
(Knoke et Kuklinski, 1982) Knoke D. et Kuklinski J.H., Network analysis, Quantitative Applications in the
Social Sciences, 28, Beverly Hills, Sage, 1982.
269
(Konstan et al., 1997) J. A. Konstant, B. N. Miller, D. Maltz, J. L. Herlocker, L. R. Gordon, J. Riedl. "GroupLens
: Applying collaborative filtering to Usenet News", Communications of the ACM, 3, 40, 1997, p. 77-87.
(Krackhardt, 1987) Krackhardt, 1987, “Cognitive social structures”, Social Networks, n°9, pp. 109-134.
(Krackhardt, 1990) Krackhardt, 1990, “Assessing the political landscape : structure, cognition and power in
organizations”, Administrative science quarterly, n°35, pp. 342-369.
(Krackhardt et Hanson, 1993) Krackhardt et Hanson, 1993, “Informal Networks : the company behind the
chart”, Harvard Bussiness Review, Vol. 71, n°4, juillet-aout, pp. 104-111.
(Lazeaga, 1994) Lazeaga, 1994, “Analyse de réseaux et sociologie des organisations”, Revue Française de
Sociologie, Vol. 35, n°2, pp. 293-320.
(Linton, 1999) Linton, F. “OWL - A Recommender System for IT Skills”, Workshop Interacting with
Recommender Systems, CHI' 99,Pittsburgh, Pennsylvania, USA.
(Manjoo, 2002-url) Farhad Manjoo. Gnutella bandwidth bandits. salon.com/tech/feature/2002/08/08/gnutella
developers/, August 2002.
(Marsh, 1994) S. Marsh. Formalising Trust as a Computational Concept. PhD thesis, Univ. of Stirling,
Scotland, 1994.
(Martel et Vignollet, 2002) Martel Christian, Laurence Vignollet, 2002. Educational Web Environment based
on the metaphor of electronic schoolbag, ARIADNE 2002, Lyon, France.
(Mcdonald et Ackerman, 2000) McDonald, D. W. Ackerman, M. S. “Expertise Recommender: A Flexible
Recommendation System and Architecture”, In Proceedings of the ACM 2000 Conference on CSCW,
Philadelphia, PA USA, December 2000
(Mooney et Roy, 2000) Mooney, R. J. Roy, L. “Content-Based Book Recommending Using Learning for Text
Categorization”, Proceedings of DL-00, 5th ACM Conference on Digital Libraries, 2000, San Antonio,
US, ACM Press, New York, US.
(Moreno, 1954) Moreno Jacob L. (1934), Who Shall Survive ?, trad. fr. Fondements de la sociométrie, Paris,
Presses universitaires de France,1954.
(Moreno, 1960) Moreno Jacob L. "Political prospects of sociometry", International Journal of Sociometry and
Society, 2, pp. 3-6.
(Moulin et al., 1999) Moulin Yvette, Chatagnon Pascal et Perriault Jacques, Les réseaux d'echanges
reciproques des savoirs, Conference-debat du 13 fevrier 1999.
(Mui, 2002) L. Mui. Computational Models of Trust and Reputation: Agents, Evolutionary Games, and
SocialNetworks. PhD thesis, Massachusetts Institute of Technology, 20 December 2002.
(Mugny et al., 1995) Mugny, G., Oberlé, D. et Beauvois, J.L. Relations humaines, groupes et influence
sociale. Presses Universitaires de Grenoble; Grenoble.
(Mullins, 1973) Mullins Nicholas C. Theories and Theory Groups in Contemporary American Sociology, New
York, Harper & Row, 1973.
(Nisbett et al., 2001) Nisbett, R.E., Peng, K., Choi., & Norenzayan, A., 2001. Culture and systems of Thought:
Holistic vs Analitic Cognition. Psychological Review, 108, 201-310.
(Oram, 2001) Andy Oram, editor. Peer-to-peer: harnessing the power of disruptive technologies. O'Reilly and
Associates, March 2001.
(Rahman et Hailes, 2000) Alfarez Abdul-Rahman and Stephen Hailes. Supporting trust in virtual communities.
In HICSS, 2000.
(Reliance, 2000-url) Reliance, The Relative Project, solution libre pour la gestion de liens,
http://www.reliance.fr/RelativeWeb/ , 2000.
(Reix, 2000) Reix, R. Systèmes d'information et management des organisations. (3ème Ed.). Paris, Vuilbert
(1ère Ed: 1995).
(Resnick et al., 2000) P. Resnick, R. Zeckhauser, E. Friedman, and K. Kuwabara. Reputation Systems.
Communication of the ACM, 43(12), December 2000.
270
(Rousseau et al., 1998) Rousseau, D.M., Sitkin, S.B., Burt, R.S. & Camerer, C. Not so different after all: a
cross-discipline view of trust, Academy of management review, 23(3), p. 393-404.
(Salton et McGill, 1998) Salton G. et McGill, M.J. Introduction to modern information retrieval, Mc Graw Hill
1998.
(Small, 1973) Small H. Co-citation in the scientific literature: A new measure of the relationship between two
documents. J. Amer. Soc. Info. Sci., 24, 1973.
(Smith, 1992-url) Smith, M. Voices from the Well: the logic of the virtual commons. Sociology UCLA. (En
ligne): http://www.sscnet.ucla.edu/soc/csoc/papers/voices/Voices.htm.
(Simmel, 1908) Simmel Georg (1908), Les Pauvres, Paris, Presses Universitaires de France, coll.
"Quadrige", trad. fr. 1998 par Bernard.
(Svensson et al., 2001) Svensson, M. Höök, K. Laaksolahti, J. Waern, A. “Social Navigation of Food
Recipes”, In Proceedings of SIGCHI’01, Seattle, WA, USA, April 2001
(Swearingen
et
Sinha,
2001-url)
Swearingen
http://www.rashmisinha.com/articles/musicDIS.pdf
K.
et
Sinha,
R.,
2001.
(Terveen et al., 1997) Terveen, L. Hill, W. Amento, B. McDonald, D. Crester, J. “PHOAKS: A System for
Sharing Recommendations”, Communications of the ACM 40(3), March 1997, 59-62.
(Voss et Kreifelts, 1997) Voss, A. Kreifelts, T. “SOAP: Social Agents Providing People with Useful
Information”, Proceedings of the international ACM SIGGROUP conference on Supporting group work
(GROUP'97), Phoenix AZ, 1997, pp 291-298.
(Wasfi, 1999) Wasfi, A. M. A. “Collecting User Access Patterns for Building User Profiles and Collaborative
Filtering”, In Proceedings of the 1999 International Conference on Intelligent User Interfaces, pages 5764, 1999.
(Watts, 1999) D.J. Watts, Small Worlds. Princeton University Press, Princeton, New Jersey, 1999.
(Weber, 1965) Weber Max (1904-1917), Essais sur la théorie de la science, Paris, Plon, 1965.
(Zacharia et al., 1999) Giorgos Zacharia, Alexandros Moukas, and Pattie Maes. Collaborative reputation
mechanisms in electronic marketplaces. In HICSS, 1999.
271