Géométrisation et Exploration du Sens

Transcription

Géométrisation et Exploration du Sens
MÉMOIRE DE DEA DE SCIENCES COGNITIVES
ANNÉE 2003 – 2004
EHESS
Université
Paris VI
Ecole
Polytechnique
Ecole Normale
Supérieure
GÉOMÉTRISATION ET EXPLORATION DU SENS
NABIL ABDELLAOUI
Sous la direction de : BERNARD VICTORRI
[email protected]
2
3
Avant-propos
La polysémie est-elle source d’ambiguïté ou de liberté ? Et pourquoi les mots les plus
courants d’une langue sont-ils aussi les plus polysémiques ? Ces questions sont au cœur de la
réflexion sur la polysémie, phénomène naturel appréhendé intuitivement avec une grande
facilité, mais paradoxalement ardu lorsqu’il s’agit de le formaliser. Ploux et Victorri (1998)
ont proposé un modèle mathématique permettant la visualisation et la désambiguisation du
sens, implémenté dans un logiciel nommé Visusyn. Ce travail s’inscrit dans le cadre de ces
recherches, en y intégrant des méthodes de visualisation multi-échelle développées par B.
Gaume (en cours), et de nouveaux algorithmes d’exploration de graphe.
A partir d’un dictionnaire de synonymes, modélisé par un graphe dont les sommets
sont les unités lexicales et les arêtes les relations de synonymie, le résultat obtenu est une
cartographie globale de l’espace sémantique du français, montrant sous forme de ‘continents’
les régions les plus denses de ce graphe : une constellation d’adjectifs, une seconde de verbes,
et quelques autres de noms. Des ‘zooms’ sur chacune de ces régions permettent des
visualisations de plus en plus locales : d’une carte conceptuelle de tous les verbes du français,
jusqu’au voisinage d’une localité particulière. Ce parallèle entre carte géographique et
géométrie de l’espace sémantique est rendu possible grâce à la structure du dictionnaire des
synonymes, dite petit monde hiérarchique, commune par ailleurs à plusieurs autres réseaux
de terrain.
Ces représentations pourront servir pour les méthodes automatiques de calcul du sens,
les outils informatiques de traitement du langage, la psycholinguistique, la linguistique
cognitive, et de manière générale, suggèrent des aspects cognitifs intéressants.
4
GÉOMÉTRISATION ET EXPLORATION DU SENS
TABLE
Avant-propos...................................................................................................................................................2
1 - INTRODUCTION.............................................................................................................................................4
2 - LE MODÈLE DE PLOUX & VICTORRI......................................................................................................6
2.1 SYNONYMIE......................................................................................................................................................6
2.2 GRAPHE SYMÉTRIQUE ASSOCIÉ À UN DICTIONNAIRE DE SYNONYMES...................................................................6
2.3 CLIQUE............................................................................................................................................................7
2.4 UNE MÉTRIQUE POUR L’ESPACE DES CLIQUES.....................................................................................................8
2.5 ANALYSE DES DONNÉES..................................................................................................................................10
2.6 L’EXEMPLE DE SEC.........................................................................................................................................12
2.7 DU LOCAL AU GLOBAL....................................................................................................................................13
3 - ANALYSE THÉORIQUE...............................................................................................................................18
3.1 GRAPHES PETIT MONDE...................................................................................................................................18
3.2 GRAPHES SANS ÉCHELLE.................................................................................................................................20
3.3 LE PETIT MONDE HIÉRARCHIQUE DE LA SYNONYMIE.........................................................................................20
3.4 CLIQUES, GANGS ET CLUSTERS........................................................................................................................21
3.5 ETIQUETAGE D’UN CLUSTER............................................................................................................................24
3.6 REMARQUES SUR LE MODÈLE..........................................................................................................................25
4 – BALLADES ALÉATOIRES DANS LE MONDE HIÉRARCHIQUE DE CLIQUES.............................26
4.1 LE MONDE HIÉRARCHIQUE DE CLIQUES............................................................................................................26
4.2 PRINCIPE........................................................................................................................................................28
4.3 RÉSULTATS....................................................................................................................................................31
5 – BOULES LES PLUS DENSES DANS LE MONDE HIÉRARCHIQUE DE CLIQUES.........................34
5.1 CALCULS PRÉLIMINAIRES................................................................................................................................34
5.2 TEST..............................................................................................................................................................37
5.3 ALGORITHME UTILISÉ ET IDÉES DE DÉVELOPPEMENT........................................................................................39
6 – ASPECTS COGNITIFS.................................................................................................................................40
7 – PERSPECTIVES.............................................................................................................................................45
7.1 DES AXES CONCEPTUELS DES VERBES DU FRANÇAIS À LA PSYCHOLINGUISTIQUE................................................45
7.2 VISUALISATION ET NAVIGATION COGNITIVES...................................................................................................46
7.3 ALGORITHMIQUE DES GRANDS GRAPHES & INTELLIGENCE ARTIFICIELLE...........................................................46
8 – RÉFÉRENCES................................................................................................................................................48
5
1 - Introduction
La description sémantique des unités lexicales est un enjeu important pour le traitement
automatique des langues. Comme on le sait bien, ce n’est pas un problème simple. Cela est dû
en grande partie à l’omniprésence de la polysémie, qui touche beaucoup d’unités de la langue,
et en premier lieu, les mots les plus usuels : en général, plus une unité est utilisée
couramment, plus elle présente d’acceptions différentes, et plus sa structure sémantique est
complexe1.
Les approches classiques (analyse sémique, décomposition en primitives, réseaux
sémantiques hiérarchiques, etc.), outre qu’elles ne sont pas particulièrement adaptées pour
traiter les problèmes posés par la polysémie, sont forcément limitées dans leur ambition : elles
réclament un travail d’analyse considérable pour chaque unité étudiée, et elles sont souvent
restreintes à un domaine spécifique, ce qui rend difficilement envisageable le traitement de
tout le lexique par ces méthodes.
Aussi se tourne-t-on de plus en plus vers des méthodes automatiques ou semiautomatiques, rendues possibles par le progrès technologique qui permet aujourd’hui de
disposer facilement de nombreuses ressources textuelles : corpus de grande taille,
dictionnaires électroniques, etc. L’idée générale est d’utiliser ces ressources pour décrire la
sémantique des unités à partir d’analyses statistiques des relations qu’elles entretiennent les
unes avec les autres.
On peut distinguer deux types de travaux qui vont dans cette direction : certains opèrent
avant tout sur l’axe syntagmatique grâce à l’analyse de corpus (cf. entre autres Hindle D.
1990, Grefenstette G. 1994) : chaque unité est caractérisée sémantiquement par l’ensemble
des unités avec lesquelles elle entre en relation syntaxique. D’autres travaux (cf. entre autres,
Warnesson I. 1992) se placent directement sur l’axe paradigmatique en utilisant les données
de dictionnaires électroniques, et, en particulier, en se servant de la relation de synonymie
qu’ils permettent de mettre en évidence.
1.
Cette constatation vaut bien sûr autant pour les unités grammaticales (appartenant à des classes
« fermées » : déterminants, prépositions, conjonctions, etc.) que pour les unités lexicales proprement
dites (appartenant à des classes « ouvertes » : noms, verbes, adjectifs, etc.). Nous ne nous intéressons
ici qu’aux unités lexicales, les unités grammaticales méritant à notre avis des traitements plus
spécifiques.
6
L’étude que nous présentons ici s’inscrit dans cette dernière lignée. Il s’agit en effet
d’utiliser des dictionnaires de synonymes pour décrire la structure sémantique d’unités
lexicales. L’objectif est d’obtenir des vues globales de l’ensemble du lexique, ainsi que des
zooms sur des régions particulières.
Nous allons donc d’abord préciser les bases linguistiques et le modèle mathématique sur
lesquels se fondent notre travail (chapitres 2 et 3), avant de présenter des algorithmes utilisés
pour obtenir une cartographie d’un dictionnaire de synonymes représenté par un graphe
(chapitres 4 et 5). Enfin, nous discuterons les résultats obtenus dans la perspective des
sciences cognitives.
7
2 - Le modèle de Ploux & Victorri
2.1 Synonymie
Deux unités lexicales sont en relation de synonymie si toute occurrence de l’une peut
être remplacée par une occurrence de l’autre dans un certain nombre d’environnements sans
modifier notablement le sens de l’énoncé dans lequel elle se trouve.
Cette relation est toujours réflexive et symétrique, mais elle n’est pas transitive : une
unité peut être paraphrasable par une première unité dans certains environnements, et par une
deuxième unité dans d’autres, sans que ces deux unités soient elles-mêmes synonymes : il
suffit pour cela que les deux ensembles d’environnements en question soient disjoints. Pour
reprendre l’exemple de Ploux et Victorri, défendre et interdire sont synonymes parce qu’ils
sont paraphrasables l’un par l’autre dans des énoncés tels que défendre de fumer et interdire
de fumer. De même, défendre et soutenir sont synonymes parce que défendre les droits de
l’homme et soutenir les droits de l’homme ont sensiblement le même sens. En revanche,
interdire et soutenir ne sont pas synonymes car il n’existe pas d’environnement dans lesquels
on puisse les permuter sans modifier considérablement le sens de l’énoncé dans lequel ils se
trouvent.
2.2 Graphe symétrique associé à un dictionnaire de synonymes
Un graphe symétrique G = (V,E) est la donnée d’un ensemble non vide fini V de
sommets, et d’un ensemble E  (V x V) de couples de sommets formant des arêtes, avec
(r,s)E  (s,r)E. La relation de synonymie étant symétrique, nous ne nous intéresserons ici
qu’aux graphes symétriques.
Le logiciel Visusyn, ainsi que ce travail de DEA, repose sur l'analyse du graphe du
dictionnaire électronique des synonymes (D.E.S.) du laboratoire CRISCO. La base de départ
est constituée de sept dictionnaires classiques (Bailly, Benac, Du Chazaud, Guizot, Lafaye,
Larousse et Robert) dont ont été extraites les relations synonymiques. Les sommets du graphe
sont des mots de la langue française. Deux mots sont reliés par un arc lorsqu’un des
8
dictionnaires signale une relation synonymique entre eux. Le graphe G=(S,V) correspondant
possède 49133 sommets (S) et 198549 arcs (V).
Si on élimine de S les unités qui forment des clusters (groupes de sommets fortement
connectés) séparés du reste du graphe, on obtient un graphe dit connexe, c’est à dire qu’on
peut passer de n’importe quel sommet à un autre par un chemin à travers les synonymes. En
réalité, en éliminant ces composantes séparées de la composante connexe principale, on
ignore les mots rares qui possèdent un ou deux synonymes déconnectés du lexique fréquent ;
on obtient donc un graphe connexe GC = (S’,V’) de 44877 sommets au lieu de 49133, plus
pratique à étudier.
2.3 Clique
C’est la notion de clique qui est au centre de notre travail sur le graphe des synonymes.
Une clique (sous-graphe complet maximal 2) est un ensemble le plus grand possible de
sommets du graphe tous reliés deux à deux, « le plus grand possible » voulant dire qu’il
n’existe pas de sommet supplémentaire qui soit relié à tous les sommets d’une clique. En
d’autres termes, pour notre application, une clique est un ensemble d’unités lexicales qui ont
la propriété d’être toutes synonymes les unes des autres, aucune autre unité ne pouvant être
rajoutée à l’ensemble sans que l’on perde cette propriété.
Prenons, à titre d’illustration, le graphe de la figure 1, dont les sommets u1, u2, …, u10
représentent des unités lexicales, et dont les arêtes indiquent la relation de synonymie.
2.
Il faut noter que ce que nous appelons clique ici est appelé parfois clique maximale dans la
littérature. Pour une présentation de la théorie des graphes, voir par exemple Bergé C. 1970, Gondran
M. & Minoux M. 1975, ou encore Labelle J. 1981.
9
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
Figure 1 : Exemple de graphe
Les ensembles {u1, u2, u4}, {u2, u4, u5, u7}, {u1, u3}, {u7, u8, u10} sont des exemples de cliques,
alors que l’ensemble {u1, u2, u4, u6} n’est pas une clique, puisque u2 et u6 ne sont pas
synonymes. De même {u6, u9} ne forme pas une clique parce qu’elle n’est pas maximale : ces
deux unités sont toutes deux synonymes de u10 et c’est donc {u6, u9, u10} qui constitue une
clique. Comme on peut le constater, deux cliques peuvent être disjointes, ou avoir une ou
plusieurs unités en commun.
2.4 Une métrique pour l’espace des cliques
La théorie des graphes offre de nombreuses techniques qui permettent de mettre en
évidence différentes caractéristiques de la structure d’un graphe. Elles sont donc a priori
exploitables pour décrire les relations qu’entretiennent les cliques du graphe. Les recherches
menées par Ploux, après plusieurs tentatives en ce sens, ont montré que la stratégie qui
permettait la meilleure exploitation de l’information contenue dans les cliques, consistait à les
considérer comme des points dans un espace métrique continu, c’est à dire dans lequel on a
défini une distance entre éléments. Précisément, c’est une métrique bien connue en analyse de
données3, la métrique du 2, qui s’est avérée satisfaisante
Concrètement, si l’on considère le graphe du dictionnaire des synonymes G = ( S , V ),
et qu’on appelle les unités lexicales appartenant à S : u1, u2, …, un. . Alors toute clique ck peut
3.
Pour une introduction à toutes les notions d’analyse de données utilisées dans la suite de cet article,
voir par exemple Bouroche J.-M. & Saporta G. 1994, Diday E. et al. 1982, Bry X. 1995 ou encore
Volle M. 1997.
10
être considérée comme un point dans un espace à n dimensions, de coordonnées pour tout i
allant de 1 à n : xki égale 0 ou 1 suivant que le synonyme correspondant appartient ou non à la
clique ( xki = 1 si ui  ck et xki = 0 si ui  ck ).
La distance entre deux cliques ck et cl est alors donnée par la métrique du 2, que l’on
peut définir de la façon suivante :
x  x ki x li 
 

d (ck, cl) = 
xl 
i 1 x i  x k 
n
2
p
n
j 1
i 1
2
n
p
avec xi   x ji , x k    x ki , et x    x ji .
i 1 j 1
Cette distance possède les deux caractéristiques suivantes. D’une part, chaque
synonyme, en tant que vecteur de base de l’espace, intervient dans le calcul avec un « poids »
plus faible si le synonyme est présent dans un grand nombre de cliques : les synonymes qui
sont les moins spécifiques jouent un rôle moins important dans la discrimination des sens de
l’unité. D’autre part, les coordonnées de chaque clique sont divisées par le nombre d’éléments
de la clique : on crée donc d’autant plus de distance si la clique est de petite taille, prenant
ainsi en considération l’importance relative d’une unité par rapport au reste de la clique.
Reprenons encore une fois les exemples de Ploux et Victorri pour donner une idée
intuitive de ces définitions ; considérons deux couples de cliques, issues de l’analyse du verbe
interdire. Parmi ses nombreuses cliques, on en trouve beaucoup qui caractérisent des nuances
de son sens usuel, comme les deux suivantes :
c26 : défendre, inhiber, prohiber, proscrire
c32 : empêcher, inhiber, paralyser, supprimer
Mais on trouve aussi des cliques qui correspondent à un sens bien différent, que l’on trouve
surtout dans les emplois adjectivaux du participe passé, comme dans l’énoncé :
Devant tant de mauvaise foi, Jean est resté tout interdit.
Parmi les cliques qui caractérisent ce type d’emplois4, on trouve :
4.
On peut se poser la question de savoir s’il s’agit vraiment d’emplois du verbe, ou plutôt d’un
adjectif dérivé du verbe. Ainsi le Petit Robert possède une entrée interdit (adj.) qui relève (entre
autres) ces emplois. Mais le même Petit Robert signale aussi à l’entrée interdire un sens (vieilli,
certes) du verbe pour ces mêmes emplois (avec comme exemple ce vers de Regnard : Et ce brusque
discours a de quoi m’interdire).
11
c46 : paralyser, pétrifier
On s’aperçoit que les cliques c46 et c32 possèdent un synonyme en commun (paralyser, qui
peut prendre lui aussi les deux sens) et diffèrent par 4 autres synonymes en tout, tandis que les
cliques c32 et c26, qui ont aussi un synonyme en commun (inhiber), diffèrent par pas moins de
6 autres synonymes. La figure 2 montre les distances calculées entre ces cliques, à gauche la
distance dite canonique qui crée de la distance de manière identique pour toutes les
coordonnées, et sans considérer le nombre d’éléments de chaque clique, et à droite, la distance
du 2 , qui rend bien l’intuition qu’on a quant à la séparation des 3 sens de défendre :
c46
c46
c26
c32
distance canonique
c26 c32
distance du 2
Figure 2 : Comparaison de deux distances
La distance du 2 confère donc à l’ensemble des cliques une structure géométrique qui
semble respecter la notion intuitive de proximité entre sens d’une unité. La voie est ainsi
ouverte à la construction automatique de l’espace sémantique associé à une unité, si l’on
accepte d’identifier chaque clique à un point de cet espace sémantique.
2.5 Analyse des données
Le problème, c’est que l’ensemble des cliques, dans la représentation que nous avons
choisie, est « plongé » dans un espace de très grande dimension (égale au nombre de
synonymes de l’unité étudiée). Il est de ce fait peu maniable, et surtout cela masque une
propriété importante postulée pour l’espace sémantique : son petit nombre de dimensions. Si
cette hypothèse est exacte, l’ensemble des cliques n’occupe pas de manière plus ou moins
homogène l’espace engendré par les synonymes. Il est au contraire confiné à une région que
l’on doit pouvoir décrire comme une approximation d’un sous-espace de faible dimension.
Pour en juger, on dispose d’une batterie de méthodes d’analyse des données, fondées sur
la détermination d’une suite d’axes orthogonaux, centrés sur le centre de gravité d’un nuage
12
de points, tels que la projection du nuage de points sur l’espace engendré par ces axes soit la
moins « déformée » possible en un sens particulier, ou la plus étalée, c’est à dire séparant les
points au maximum, ce qui est parfois équivalent à la condition précédente. Ces axes sont
ordonnés par importance décroissante : si un petit nombre d’axes suffit à rendre compte de
l’essentiel de la « dispersion » de cet ensemble de points, on peut alors considérer avec une
bonne approximation que ces points se situent tous sur le petit sous-espace engendré par ces
axes. Dans notre cas, cela signifie que si un petit nombre d’axes suffit pour représenter les
cliques associées à une unité, l’espace sémantique associé à cette unité est approximativement
contenu dans le sous-espace correspondant.
La version de base de ces outils statistiques se nomme analyse en composantes
principales (ACP), mais la plus adaptée à la projection des cliques, dont on mesure la
proximité à l’aide de la distance du 2, est l’analyse des correspondances. L’algorithme
implémenté dans cette étude, ainsi qu’un excellent inventaire des méthodes de réduction du
nombre de dimensions des données, dont certaines constituent une direction prometteuse de
recherche pour l’amélioration du modèle (cf. 3.4 et 3.6), se trouvent dans le manuel en
ligne Applied Multivariate Statistical Analysis
(http://www.quantlet.com/mdstat/scripts/mva/htmlbook/).
L’analyse des correspondances donne des résultats très convaincants pour l’étude de
l’espace sémantique associé à une unité lexicale. Plusieurs exemples particulièrement
significatifs sont décrits en détail dans Ploux et Victorri (1998) ou dans Manguin & Victorri
(1999). Nous citerons ici le cas de sec, étudié par F. Venant (RECITAL, 2004), pour illustrer
le modèle.
2.6 L’exemple de sec
Pour déterminer automatiquement les paramètres de l’espace sémantique associé à une
unité polysémique, le logiciel Visusyn analyse le sous graphe dont les sommets sont l'unité
étudiée et tous ses synonymes, l'hypothèse étant que ce sous-graphe contient dans sa structure
toute la sémantique de ce mot. Pour résumer le modèle de Ploux & Victorri, il s’agit de :
1 - Calculer toutes les cliques contenant l’unité lexicale ‘sec’ comme définies en 2.3
2 - Calculer les distances entre ces cliques (cf. 2.4) et trouver la meilleure projection en 2
dimensions pour visualiser ces distances (cf. 2.5)
13
L’unité lexicale sec possède 63 synonymes, et est présente dans 94 cliques, dont voici
la projection dans les deux premières dimensions les plus pertinentes :
Figure 3 : Espace sémantique de sec
La sémantique de sec étant bien connue, nous pouvons ici valider notre hypothèse de
travail en vérifiant qu'on a bien obtenu, de façon totalement automatique, à partir de la
topologie du graphe, une visualisation qui rende compte des différents sens de sec et qui les
organise en fonction de leur proximité sémantique. On peut en effet regrouper les sens de sec
en six acceptions principales, que l'on retrouve sur notre figure.
1. qui manque d’eau : du sable sec (centre de l'espace)
2. maigre, décharné : un homme grand et sec (en haut du quart supérieur gauche)
3. stérile, improductif : rester sec aux questions du professeur (en bas du quart supérieur
gauche)
4. qui manque de sensibilité, qui ne se laisse pas attendrir, égoïste : un cœur sec (quart
inférieur droit et bas du quart supérieur droit)
5. bref, abrupt, qui manque de douceur : un coup sec (haut du quart supérieur gauche)
6. seul : un atout sec (centre haut)
Bien que ces sens soient très différents, ils peuvent être reliés les uns aux autres par
une «ressemblance de famille» à la Wittgenstein. Les sens (1), (2) et (3) se rejoignent lorsque
sec qualifie de la végétation. De même les sens (3) et (4) sont liés : une personne sèche au
sens d’égoïste est quelqu’un de stérile en termes d’empathie et de don de soi. On sent aussi
14
une relation entre le sens (5), qui s’applique à des événements, et le sens (4) qui caractérise un
comportement mal dégrossi. L'organisation des différentes cliques au sein de l'espace
sémantique rend compte de ces relations.
2.7 Du local au global.
Le problème des visualisations obtenues est qu'elles sont locales. On ne peut visualiser
le graphe de synonymie qu'au voisinage d'un de ses sommets. Le système de
désambiguïsation sur lequel travaille l’une des équipes du LaTTICe est une extension de
Visusyn. Pour désambiguïser un mot, il s’appuie d’une part sur l’espace sémantique calculé
par Visusyn, et d’autre part sur des calculs de cooccurrences issues de la base Frantext
catégorisée. L’une des lacunes de ce système de désambiguïsation réside dans son incapacité
à avoir une ‘vue d’ensemble’ (Venant, 2004). En effet, pour analyser l’influence d’un mot sur
le sens d’un autre, il faudrait disposer de dimensions plus globales dans lesquelles on
projetterait une variété plus diverse de cliques, et non pas des cliques voisines seulement.
Autrement dit, si l’on utilise la métaphore de la carte géographique : Visusyn permet de
représenter des cartes détaillées d’un petit secteur du graphe des synonymes ; mais il ne
permet pas de visualiser des cartes départementales, régionales, nationales, ou mondiales, ce
qui est donc une direction intéressante de recherche. L’une des méthodes (B. Gaume, en
cours) qui solutionnent ce problème est la définition d’une chaîne de Markov dont les états
sont les unités lexicales, et d’observer les phases de la convergence d’une ballade aléatoire
vers l’état stationnaire correspondant au processus stochastique – on désignera ce type
d’approche par ‘ballade ou exploration aléatoire’ dans le reste du document. Une seconde
approche (F. Venant, 2004) consiste à ne considérer que les unités dont la densité dépasse un
certain seuil d, et d’extraire les composantes connexes du sous-graphe obtenu, nommées dnoyaux. Ces noyaux sont ensuite enrichis et étiquetés, et jouent le même rôle que les cliques
dans le modèle de Ploux et Victorri, car ils ne diffèrent de ces dernières que par la
connectivité interne, qui est totale pour les cliques, partielle pour les noyaux. Les définitions
et détails de calcul de ces deux procédés ne seront pas abordés ici, mais nous reviendrons sur
certaines de leurs propriétés à travers une analyse théorique de la problématique d’exploration
de graphe, ainsi que la comparaison de certains résultats.
15
Pour éclairer cette idée du passage du local au global, observons les résultats obtenus
par ces méthodes appliquées aux verbes du français : visualisés globalement, ces derniers
forment les triangles conceptuels que voici :
a – d-noyaux :
Figure 4 : Visualisation des noyaux de densité 1 (pour des
explications détaillées de cette méthode, voir F. Venant (à
paraître)
Dans cette visualisation, les verbes s’organisent en un triangle dont on peut identifier
les différents sommets. En bas à gauche se regroupent les verbes exprimant une action
constructive : produire ou construire mais aussi créer, exciter, attiser. Beaucoup de ces
verbes sont réunis dans un noyau assez important étiqueté par faire (ce noyau contient entre
autres donner, former, créer, façonner, former…). A l’opposé le sommet du haut est
résolument destructeur. Il s’agit d’ôter quelque chose : matière, valeur ou estime. On trouve
ainsi : évider, dévaluer, restreindre, avilir, amoindrir, diminuer. L’axe menant d’un pôle à
l’autre passe par deux noyaux importants étiquetés par battre et arrêter. Le troisième sommet
est consacré à la notion de départ : décamper, partir, se sauver… Le passage de la notion
16
dépréciative à la notion de départ se fait de façon subtile le long de l’arête du triangle :
d’amoindrir à s’affaiblir, de décliner à s’amenuiser on finit par disparaître, s’éclipser et puis
s’enfuir. On pourra noter que cette visualisation fait apparaître quelques noyaux importants
qui résument l’organisation décrite ici. Ce sont amoindrir-diminuer ; battre-rosser, arrêter,
passer, faire, exhorter, décamper. Lorsqu’on diminue le seuil de densité, le triangle se
resserre petit à petit. Le rapprochement des sommets valorisants et dépréciatifs conduit à la
formation d’un gros noyau étiqueté par calmer-faire-moderer.
17
b – Ballade aléatoire :
Figure 5 : Triangle conceptuel des verbes du français (200 verbes).
Visualisation obtenue grâce à l’exploration aléatoire du graphe des
synonymes du français (travaux actuels de B. Gaume).
le verbe changer se trouve au cœur de ce triangle conceptuel (marqué d’un cercle, il
est approximativement sur l’intersection des 3 bissectrices du triangle). Dans l’angle négatif,
on trouve les verbes détruire, briser, casser, défaire, troubler, diminuer, frapper. Le verbe
déchirer y est entre couper et blesser. Dans l’angle positif , on trouve les verbes faire,
prendre, produire, assembler, agir, écrire … Le verbe « dire » y est entre « composer » et
« révéler ». Si l’on remonte depuis l’angle positif vers l’angle négatif en parcourant le côté
actif on rencontre les verbes produire, faire, porter, déterminer, entraîner, façonner, exciter,
travailler, agiter, frapper, battre, troubler, écraser, briser, détruire. Remarquons que dans
les résultats de Venant, battre joue aussi le rôle d’interface entre deux angles productif et
destructif.
18
Il ne s’agit pas ici d’analyser en détail cette méthode d’exploration aléatoire, ni ses
résultats, mais de cerner la problématique du passage du local au global, et de remarquer
certaines régularités qui semblent être robustes par rapport à la méthode d’exploration
envisagée : les axes productif/positif, destructif/négatif, évasif sont communs à deux
méthodes faisant appel à des approches indépendantes; et d’autre part, certains verbes
s’articulent logiquement par rapport à notre intuition, et ne varient pas de position d’une
méthode à l’autre. Ce caractère robuste et interprétable tend à mettre en évidence une
propriété forte du lexique français, qui pourrait donc avoir un fondement cognitif. Telle est
l’hypothèse sous-jacente à mon stage de DEA, dont la problématique est donc l’exploration
globale du graphe lexical, en partant des résultats locaux obtenus par Visusyn. Nous verrons
que des indices théoriques et l’expérimentation de deux méthodes renforcent l’hypothèse
d’une organisation cognitive hiérarchique du lexique, observable à différentes échelles par
une cartographie en nombre limité de dimensions.
19
3 - Analyse théorique
Grâce au développement de nouvelles technologies informatiques, les recherches en
traitement automatique des langues s’appuient de plus en plus sur des ressources lexicales à
grande échelle (corpus, ontologies, dictionnaires électroniques …). Ces ressources permettent
d’obtenir de façon automatique des informations sémantiques sur les mots et les relations
qu’ils entretiennent entre eux. Ces relations peuvent être représentées naturellement par des
réseaux lexicaux, ou graphes (voir 2.2). Les sommets en sont les mots d’une langue, les arcs
ou arêtes (respectivement orientés, non orientées) représentent une relation particulière, en
l’occurrence dans cette étude, la relation réflexive de synonymie. Nous verrons que ces
réseaux lexicaux partagent avec d’autres graphes de terrain (réseaux sociaux, Internet,
réseaux électriques, réseaux de neurones,…) une structure et une topologie très particulière,
dite ‘petit monde’ , ou small-world en anglais. De plus, nous pensons que la structure
particulière de ces graphes est porteuse d'une information très riche sur les phénomènes sous
jacents. Avoir accès à la structure d'un graphe lexical permettrait non seulement d’avoir une
meilleure connaissance de l'organisation du lexique mais aussi d'automatiser l'accès à cette
connaissance, ce qui peut être fondamental pour des systèmes de désambiguïsation
automatique comme le nôtre. C'est pourquoi nous voulons « géométriser » ces graphes, c'est à
dire les plonger dans un espace bi ou tri dimensionnel qui rende compte de leur topologie.
Nous verrons par ailleurs que cette direction de recherche est porteuse de profondes
implications pour les sciences cognitives.
3.1 Graphes petit monde
Les graphes traditionnellement étudiés sont soit complètement réguliers soit
complètement aléatoires. Dans un graphe régulier, chaque sommet a le même nombre d’arcs
qui joignent un petit nombre de voisins dans un motif très clusterisé. Dans un graphe aléatoire
chaque sommet est connecté arbitrairement à des sommets qui eux-mêmes se connectent
aléatoirement à d’autres sommets. L’introduction des graphes aléatoires par Paul Erdös a
permis de faire considérablement avancer l’étude des grands graphes (graphes présentant
plusieurs milliers de sommets). Cependant il reste très insatisfaisant de modéliser un réseau
réel par un graphe aléatoire. En fait, la plupart des réseaux réels sont intermédiaires entre les
réseaux ordonnés et les réseaux aléatoires. C’est pourquoi Watts et Strogatz (1998) ont
20
cherché un modèle qui leur corresponde mieux. Ils ont ainsi défini ce qu’on appelle les «petits
mondes » et ont déterminé des paramètres permettant de les caractériser. Le concept de petit
monde formalise le fait que même quand deux personnes n’ont aucun ami en commun, il n’y
a qu’une petite chaîne d'amis qui les séparent. Ramené aux graphes, ce résultat se traduit par
le fait que la distance entre deux sommets quelconques est faible en moyenne. Ce phénomène
est surprenant mais non caractéristique d’une organisation. Erdös et Reniyi (1960) ont en effet
montré qu'on le trouve dans les graphes aléatoires. Il fallait donc pousser un peu plus avant
pour caractériser les graphes de terrain. Ce qui est donc étonnant, ce n’est pas tant que le
monde soit petit, mais qu’il le soit bien que chacun d’entre nous possède un groupe de
connaissances très resserré, dont la taille est faible par rapport à la population totale, et au sein
duquel les gens ont de fortes chances de se connaître entre eux. Formellement, cela se traduit
par le fait que dans le graphe correspondant, si A est relié à B et B est relié à C, alors A a plus
de chance d’être relié à C qu’à n’importe quel autre sommet du graphe. C’est ce qu’on appelle
le clustering. Les graphes aléatoires sont faiblement clusterisés. Les graphes réguliers le sont
fortement.
Ce qui va caractériser nos graphes de terrain, et en faire quelque chose d’intermédiaire entre
les graphes réguliers et les graphes aléatoires, c’est qu’ils sont peu denses et possèdent à la
fois une distance moyenne courte et un fort taux de clustering. C’est pourquoi Watts et
Strogatz ont choisi pour caractériser les « petits mondes » les deux paramètres L et C :
• L, distance moyenne entre deux sommets, est un indice de la connectivité globale : L est
donc très grand pour un graphe régulier et très petit pour un graphe aléatoire.
• C, coefficient de clustering, est un indice de la richesse de la cohésion locale. Il est défini de
la manière suivante : si un sommet S a k voisins alors il peut exister au maximum n= k(k-1)/2
arcs entre ces k sommets. Soit m le nombre d’arcs qu’il y a effectivement entre ces k sommets
alors le coefficient de clustering CS associé au sommet S est m/n. Le coefficient global C est à
égal à la moyenne des CS quand S parcourt l’ensemble des sommets du graphe.
Pour savoir si on a affaire à un graphe de type petit monde, on compare les coefficients
C et L à ceux d’un graphe aléatoire ayant le même nombre de sommets (n) et le même
nombre moyen d’arcs par sommets (k). Pour un graphe petit monde on a C>>C aléatoire.k/n alors
que L est du même ordre de grandeur que Laléatoire. ln(n)/ln(k)
21
3.2 Graphes sans échelle.
Les travaux de Watts et Strogatz ont attiré l'attention sur les graphes de terrain. On a
cherché à mieux les caractériser encore. Barabasi et al. (1999) ont ainsi montré qu’ils font
partie d’une autre classe très intéressante de graphes, les graphes sans échelle. Cela signifie
que la répartition des degrés des sommets suit une loi de puissance : la probabilité P(k) qu’un
sommet du graphe considéré aie k voisins décroît en suivant une loi de puissance P(k)=k - où
 est une constante caractéristique du graphe, alors que dans le cas des graphes aléatoires,
c’est une loi de Poisson qui est à l’œuvre. La structure sans échelle se traduit donc par la
présence d'un très grand nombre de sommets de faible degré et d'un nombre faible mais non
négligeable de sommets de très haut degré. Ceci donne aux graphes sans échelle une structure
qui peut être vue comme hiérarchique : localement, des sommets de très haut degré sont reliés
à des sommets de moins haut degré, eux-mêmes reliés à des sommets de degré encore
moindre, et ainsi de suite jusqu'à la masse des sommets de très faible degré, ressemblant en
cela à la structure d’un arbre dont la racine est du plus haut degré, et dont les branches se
développent dans un nombre décroissant de directions, jusqu’aux feuilles qui seraient reliées à
un seul sommet parent, mais dont le nombre aurait cru exponentiellement.
Les lois de puissance sont depuis considérées par de nombreux analystes de graphes
comme la signature de l'activité humaine. Ces premiers travaux ont suscité l’enthousiasme des
théoriciens et beaucoup d’études ont été menées pour analyser les graphes divers des sciences
sociales ou de la biologie. Cependant, Gaume (2003) est le premier à mettre en évidence la
structure de petit monde hiérarchique des graphes lexicaux. L’idée qui sous tend ses travaux
est d’exploiter cette structure pour accéder de manière complètement automatique à une
meilleure connaissance de l’organisation du lexique. C’est dans le même esprit que nous
travaillons.
3.3 Le petit monde hiérarchique de la synonymie
Nous avons introduit le graphe du dictionnaire des synonymes G, et sa version
connexe GC, en 2.2. Ce dernier contient 44877 unités lexicales, et 195794 relations de
synonymie, sur un maximum possible de relations de plus d’un milliard (44877 * 44876 / 2).
Il s’agit donc bien d’un graphe peu dense, c’est à dire qu’il a peu d’arcs relativement au
nombre de ses sommets, et son degré moyen est 8.1. Le calcul des indicateurs L et C de Watts
22
et Strogatz le classe dans la catégorie des petits mondes (Venant, 2004). Nous avons de plus
vérifié que la distribution des degrés (figure 6) suit une loi de puissance, ce qui implique que
nous avons affaire à un petit monde hiérarchique ; et c’est donc cette structure de graphe petit
monde sans échelle qu’il va nous falloir exploiter dans la mise en place de nos outils de
visualisation. L’objectif est double puisque l’algorithmique des petits mondes en est encore à
ses prémices. Nos outils pourraient dépasser le cadre du lexique et s’appliquer à d’autres
graphes des sciences humaines, pour peu qu’ils soient eux aussi des graphes petit monde sans
échelle.
Figure 6 : Le nombre de synonymes suit une loi de puissance, d’où la
structure hiérarchique du graphe des synonymes.
3.4 Cliques, gangs et clusters
Nous avons explicité le graphe sur lequel nous allons travailler, et à partir de ce
dernier, nous avons défini un espace métrique de cliques (cf. 2.2, 2.3 et 2.4). Nous avons vu
que les cliques modélisent le sens et sont disposées dans un espace à plusieurs dimensions, où
la distance qui les sépare correspond à la proximité sémantique. Il reste à définir maintenant
ce que l’on entend par échelle. Partons de la représentation la plus fine : on visualise des sens
23
précis, c’est à dire des cliques, mais on ne peut en observer que quelques centaines au
maximum. Ensuite, au fur et à mesure que l’on augmente l’échelle, on devrait plutôt voir des
groupes de cliques très proches, c’est à dire des régions denses dans l’espace des cliques, dont
l’équivalent dans le graphe des synonymes est un sous-graphe très connecté, non pas à 100%
comme les cliques, mais suffisamment pour être porteur de sens. De telles régions seront
appelées clusters, et se caractérisent par leur connectivité, coefficient de clustering, ou
cohésion, trois synonymes désignant le rapport du nombre de connexions sur le maximum
possible, égal à n * (n-1) / 2 pour un cluster contenant n sommets. D’autres critères pour
caractériser un cluster sont la distance moyenne entre ses éléments, ou alors la distance
maximale. Le besoin de trouver les clusters dans un graphe dépasse largement le seul spectre
de cette étude, allant de la recherche quantitative en finance (analyse des cours boursiers
fortement corrélés pour construire des produits financiers sûrs), jusqu’à la génétique
(détection de groupes fonctionnels dans un code génétique). D’où une littérature abondante
sur les méthodes de clustering (l’article de Zhao et Karypis présente globalement
l’avancement des travaux en ce sens), et une multitude de logiciels dédiés à cette tâche. Des
tests ont été menés grâce au logiciel METIS, développé par George Karypis à l’université du
Minnesota, et qui s’est avéré efficace pour des études de grands réseaux computationnels du
type petit monde. Les résultats étaient insatisfaisants et nous ont poussé à rechercher d’autres
approches plus spécifiques à notre réseau lexical. En fait, la plupart des méthodes génériques
partitionnent le graphe, parfois de manière hiérarchique, et créent des frontières en fonction
des dimensions les plus pertinentes pour séparer des groupes. Or, cette création de frontières
n’est pas adaptée à l’hypothèse de continuité de sens dans notre modèle ; et d’autre part, il est
probable que la visualisation multi-échelle de notre graphe nécessite un réagencement des
frontières à chaque niveau de zoom, ce que ne permettent pas les algorithmes classiques de
clustering.
Une autre possibilité de définition de zones denses avait été explorée, consistant à
définir un s-gang comme un ensemble d’unités lexicales dont la cohésion dépasse le seuil s, et
maximal pour l’inclusion, c’est à dire que l’on ne peut étendre à d’autres unités et conserver
une cohésion supérieure à s. Ainsi, un 1-gang est une clique, un s-gang de seuil moindre
contient plus d’éléments voisins les uns des autres, sans pour autant qu’ils soient connectés à
100% ; enfin, le seul 0-gang est le graphe de synonymes tout entier. Cette définition a
l’avantage de compléter le modèle des cliques de manière cohérente et continue, mais elle se
24
heurte à la difficulté du calcul des gangs, compte tenu de l’explosion exponentielle du nombre
de gangs potentiels à explorer.
Devant le nombre de pistes différentes, et voulant éviter l’introduction de seuils
spécifiques à une approche particulière, nous avons choisi la définition de la notion d’échelle
qui soit la plus simple et la plus indépendante des choix techniques : une échelle est la donnée
du nombre de points à visualiser, et d’un domaine à étudier, soit dans le graphe des
synonymes (GC), soit dans l’espace des cliques. Ainsi, on définit de manière précise et
objective l’objectif que doivent atteindre nos algorithmes, en leur laissant la liberté de définir
les seuils appropriés.
Enfin, il reste une question à soulever : à supposer que l’on ait repéré une région dense
dans l’espace des cliques à une certaine échelle, comment la projeter géométriquement ? En
choisissant le point le plus représentatif ? ou en considérant l’ensemble de ses points ? Dans le
premier cas, un cluster est géométriquement identique à une de ses cliques centrales 5. Dans
l’autre, on pourrait choisir de calculer le centre de gravité de toutes ses cliques, mais cette
méthode n’a pas été explorée faute de temps, et ne correspond pas à l’objectif visé : identifier
le cluster par un point géométriquement représentatif. Pour comprendre ce problème, il faut
utiliser l’analogie de la carte géographique : pour représenter la région Rhône-Alpes, faut-il
utiliser les coordonnées de Lyon, le centre de gravité de toutes les localités, ou une position
géométriquement centrale? Dans tous les cas, ce qu’il est essentiel de remarquer est qu’un
cluster peut être représenté par un point dans l’espace des cliques, puisqu’il dépend du même
système de coordonnées (une dimension par unité lexicale). Lorsqu’on appréhende les
clusters en tenant compte de toutes les cliques qu’ils contiennent, on utilise l’analyse des
correspondances pour les visualiser en 2 ou 3 dimensions, ce qui donne de bons résultats à
condition que les clusters aient des dimensions communes. Si on choisissait de les représenter
par leurs centres, donc par des cliques, on aurait à calculer une distance plus fidèle à la notion
de proximité mais fastidieuse en temps de calcul (comme on le verra en 4.1, la distance du 2
est efficace pour mesurer la proximité entre cliques voisines, mais lorsque ces dernières sont
éloignées, elle est très peu discriminante), puis il faudrait faire appel à d’autres outils
mathématiques de projection (multidimensional scaling : ACP à partir d’une matrice de
Le concept de centre d’un cluster n’a pas été défini jusqu’ici, car il n’est utilisé dans cette étude que
pour une classe particulière de clusters : les boules centrées sur une clique, qui seront discutées plus
loin.
5
25
distances). Cette deuxième possibilité semble plus cohérente avec le modèle théorique, mais
étant moins immédiate, n’a pas été suffisamment explorée dans le temps imparti par le DEA,
il s’agit néanmoins d’un point essentiel sur lequel il faudra revenir ultérieurement. Dans cette
étude, de bonnes visualisations ont été obtenues en considérant un cluster comme un point de
l’espace des cliques, dont les coordonnées sont définies par celles des cliques de la région en
question : pour la dimension associée à un synonyme i, 1 si l’une des cliques de la région
contient ce synonyme, 0 sinon.
3.5 Etiquetage d’un cluster
Résumons nous. Nous souhaitons visualiser l’espace des cliques engendré par le
graphe des synonymes, à différentes échelles. Les cliques modélisent un sens précis de la
langue française, que nous pouvons assimiler à des quartiers ou à des bourgades dans la
métaphore d’une carte géographique. Nous avons défini la notion de cluster à partir d’un
ensemble de cliques très proches les unes des autres, et nous avons vu qu’on peut situer un tel
ensemble dans la même base de coordonnées que les cliques : nous avons donc affaire à des
villes, des pays ou des continents, selon la taille du cluster. Enfin, nous avons choisi de définir
une carte par son domaine, ainsi que le nombre de localités que l’on souhaite y voir
apparaître. Nous avons donc formalisé le cahier des charges du parfait explorateur du graphe
des synonymes et de l’espace des cliques, auquel il ne reste plus qu’à regrouper les positions
géographiques en quartiers et en villes pour tracer des cartes. Mais avant de voir quelques
algorithmes permettant ce clustering, il reste à lui préciser comment il va nommer ces
clusters. Pour les cliques, l’ensemble des synonymes peut être affiché, il n’y a donc pas de
problème pour les plus petites localités; mais pour un grand cluster de plus de 1000 unités
lexicales, cela devient impossible.
Le principe adopté est le suivant : parmi les synonymes membres d’un cluster, il s’agit
de choisir ceux qui couvrent le plus d’autres membres par leurs synonymes, et qui rayonnent
le moins vers des unités qui n’appartiennent pas au cluster, et il s’agit aussi de choisir le
moins de termes pour recouvrir l’ensemble du cluster. Les notions de rayonnement et de
couverture, par rapport à un cluster, sont définies comme suit : la couverture d’une unité est le
nombre de ses synonymes appartenant au cluster ; son rayonnement est le nombre de ses
synonymes qui n’y appartiennent pas. Pour une unité donnée, la somme de la couverture et du
rayonnement et donc égale au nombre total de ses synonymes.
26
A partir de là, plusieurs stratégies sont possibles : choisir ceux qui recouvrent le plus
parmi ceux qui rayonnent le moins, ou l’inverse ; sélectionner les termes simultanément ou un
par un ; accorder des coefficients à chaque critère ; etc. A ce moment, nous n’avons pas eu
l’occasion de comparer différentes méthodes, et nous sommes contentés d’implémenter un
algorithme satisfaisant : choisir l’unité qui rayonne le moins vers l’extérieur parmi celles qui
recouvrent le plus l’intérieur du cluster ; puis recommencer en ignorant les unités qui ont déjà
été recouvertes, jusqu’à la couverture de l’ensemble du cluster ou l’atteinte d’une limite de 15
unités.
3.6 Remarques sur le modèle
Le modèle défini par le chapitre précédent, ainsi que l’extension introduite le long de
cette analyse théorique est discutable sur plusieurs de ses modalités, en particulier : la
distance utilisée; la méthode de projection sur les facteurs les plus pertinents ; la
dénomination d’une région. Les différents choix qui sous-tendent cette étude sont basés soit
sur la capacité de calcul des machines, soit sur des justifications théoriques plus ou moins
ancrées dans la linguistique et les sciences cognitives, soit sur les résultats empiriques
auxquels ils conduisent. En réalité, il s’agit d’une première tentative qui a l’avantage de partir
d’un modèle formel et d’arriver jusqu’à des résultats concrets pour l’étude cognitive de la
langue. La plus grande partie de ce travail consiste donc en développements informatiques et
en recherche de visualisations automatiques de la cartographie du sens ; car il s’agit avant tout
de montrer que c’est possible. Ultérieurement, les différentes modalités du modèle devront
être réévaluées pour donner une cohérence théorique prenant en considération la théorie des
graphes, les fondements mathématiques des outils statistiques d’analyse des données ; et les
concepts de la linguistique cognitive.
27
4 – Ballades aléatoires dans le monde hiérarchique de
cliques
Nous avons adapté le principe d’exploration aléatoire au modèle décrit dans les
chapitres précédents (Ballade aléatoire dans un petit monde lexical, B. Gaume, 2004). Ce
chapitre présente notre démarche et ses résultats.
4.1 Le monde hiérarchique de cliques
Revenons au modèle de Ploux et Victorri, nous avons vu que ce dernier considère le
graphe connexe GC = (S’,V’) où S’ est l’ensemble des unités lexicales du dictionnaire, et V’
l’ensemble des arêtes reliant deux unités si elles sont synonymes (cf 2.2). Ce graphe contient
des cliques, que l’on peut représenter par des points dans un espace métrique, et on sait que la
distance la plus satisfaisante est celle du 2, qui tient compte de la rareté des unités lexicales et
de la taille des cliques, en plus du nombre d’éléments communs.
On calcule toutes les cliques à partir de ce graphe GC, qui sont au nombre de 107384.
Considérons une clique c1, on peut calculer sa distance ( 2 ) à n’importe quelle autre clique.
Mais on remarque que si cette distance discrimine correctement les cliques lorsque celles ci
ont un ou des éléments communs avec c1, elle n’est plus aussi pertinente lorsque les deux
cliques n’ont aucune unité en commun, car elle ne considère alors que la rareté des
composants et leur nombre. Ainsi, dans le graphe de la figure 7, la clique {u 1 , u2 , u3} est à
égale distance de {u4 , u5 , u6} et de {u7 , u8 , u9}, bien que u2 et u4 soient synonymes, car les
deux dernières cliques sont strictement identiques en taille et en rareté de leurs éléments dans
l’ensemble des cliques.
u1
u2
u3
u4
u5
u6
u7
u9
u10
u8
Figure 7 : Exemple de graphe
Cette faiblesse de la distance du 2 ne pose pas de problème pour les visualisations
locales obtenues jusqu’à présent à l’aide de Visusyn, mais elle devient un handicap lorsqu’on
essaie de passer à un niveau plus global. L’une des manières de contourner ce problème
consiste à ne considérer cette distance qu’entre cliques qui contiennent un synonyme
28
commun. Ce choix a l’avantage d’accélérer les calculs, et permet la construction d’un
nouveau graphe symétrique valué Gcliques = (S’’,V’’), où S’’ représente l’ensemble des cliques,
V’’ l’ensemble des relations de voisinage entre ces dernières (arêtes) – deux cliques étant
voisines si elles possèdent un élément commun - , chaque arête étant munie par ailleurs d’une
longueur, c’est à dire la distance du 2 entre les deux cliques voisines. En conséquence de
cette définition de voisinage, chaque clique est voisine d’elle même : V’’ contient donc toutes
les arêtes reliant une clique à elle même, dont la distance associée est naturellement nulle. On
verra que cette propriété de réflexivité du graphe Gcliques jouera un rôle technique par la suite.
Maintenant, en plus de la distance du 2 entre deux cliques voisines, on peut définir la
distance du chemin le plus court entre deux cliques quelconques comme étant la somme
minimale de la longueur des arêtes qui permettent de passer d’une clique à l’autre (cf Labelle,
Théorie des graphes, pour des études détaillées des graphes valués symétriques et réflexifs, et
des algorithmes du chemin le plus court). On remarque alors que ce chemin le plus court
existe toujours (Gcliques est connexe), car il existe toujours un chemin dans le graphe connexe
des synonymes, et chaque synonyme est au moins présent dans une clique. Enfin, puisqu’une
clique a plus de voisines qu’un synonyme, et que le chemin le plus court entre deux cliques
contient au maximum autant de pas que le chemin le plus court entre deux synonymes
contenus dans ces cliques, Gcliques a beaucoup de chances d’avoir un L très petit, donc d’être un
petit monde (dans la mesure où il n’est pas aléatoire). Néanmoins, ne disposant pas de
définition formelle de ce qu’est un graphe valué petit monde, nous nous contenterons de
remarquer qu’il a un L petit, et qu’il est muni d’une structure hiérarchique (étude de la
distribution du nombre de voisins et autres indices repérés en chapitre 5) ; d’où le titre de cette
rubrique : le monde hiérarchique de cliques.
Remarquons à ce stade que le graphe Gcliques est plus ‘artificiel’ que GC, car si ce
dernier contient des synonymes reliés entre eux, Gcliques est un réseau de cliques, eux mêmes
composés de synonymes, ce qui paraît au premier abord trop compliqué pour être un bon
modèle. Pour l’instant, nous avons justifié cette construction par la faiblesse de notre distance
initiale entre cliques, mais notre motivation est avant tout cognitive : il pourrait s’agir d’une
approximation plus fidèle de la notion intuitive de tissu associatif entre les différents sens de
la langue. En effet, une clique modélise un sens précis bien plus qu’un mot sec, qui pris seul,
contient une variété de potentiels de sens. De plus, dans le graphe GC, les arêtes sont toutes
identiques en longueur : deux mots sont synonymes ou ne le sont pas ; par contre, dans Gcliques ,
les relations sont quantifiées, ce qui permet une meilleure représentation de la proximité plus
29
ou moins grande qui existe entre deux sens. Enfin, les deux graphes GC et Gcliques pouvant être
déduits l’un de l’autre, étudier le graphe Gcliques ne néglige aucune information contenue dans
GC, et les résultats de cette étude montrent qu’il s’agit d’une stratégie fructueuse. Ainsi, si les
méthodes de passage du local au global citées comme exemple en 2.7 partaient du graphe GC,
celle de ce chapitre utilise le graphe Gcliques.
En pratique, deux versions de ce graphe ont été calculées : la première à partir du
graphe global GC (44877 synonymes, 195794 relations de synonymie) ; et une seconde à
partir de la restriction de GC aux verbes GCVerbes (9043 verbes, 50959 relations de
synonymie). On dispose donc de deux graphes valués reliant les cliques : Gcliques (107384
cliques) ; et Gcliques-verbes (27712 cliques).
4.2 Principe
On dispose des graphes Gcliques et Gcliques-verbes. Considérons un explorateur qui se trouve
à un sommet du graphe (une clique c 0 par exemple) à un instant t. On suppose que ce
voyageur peut se balader aléatoirement en parcourant les arêtes du graphe, avec une
probabilité de passer de c0 à c1 qui varie inversement à la distance entre c 0 et c1. Bien sûr, si c0
et c1 n’ont aucune unité lexicale en commun, aucune arête ne les relie, la probabilité de passer
de l’une à l’autre est donc nulle. Par ailleurs, on veut que cette probabilité soit nulle pour une
distance tendant vers l’infini, et maximale pour une distance nulle, c’est à dire que le plus
probable pour notre explorateur est de rester au même endroit (rappelons que le graphe Gcliques
est réflexif). Il existe différentes manières de définir de telles probabilités, dont deux ont été
essayées et ont donné des résultats très similaires, prouvant la robustesse de ce modèle
d’exploration stochastique par rapport au choix des probabilités de transition. Les deux
fonctions testées sont :
a - p(c0 , c1) =  . ( 1 / (1 + distance(c0 , c1)) )
b – p’(c0 , c1) =  . exp( - distance(c0 , c1) )
Dans les deux cas,  est un coefficient multiplicateur permettant d’avoir une somme des
probabilités de transition égale à un. Les résultats présentés ici utilisent la distribution des
probabilités de transition p(c0 , c1) =  . ( 1 / (1 + distance(c0 , c1)) ) ; mais pour simplifier, il
suffit de se souvenir que notre explorateur voyage d’un point à l’autre avec d’autant plus de
probabilité que la distance est courte.
30
Notre voyageur situé en c0 à l’instant t0 peut donc explorer le graphe ou rester au
même sommet selon des probabilités bien définies. Ce comportement modélise à notre avis la
notion de glissement possible entre les variations différentes d’un sens. De plus, à chaque
étape  (nombre entier de pas effectués depuis t 0), le comportement de l’explorateur est
indépendant de son passé, et ne dépend que de sa localité actuelle, il décrit donc ce que l’on
appelle une chaîne de Markov. Grâce à la connexité et la réflexivité du graphe Gcliques, Deux
caractéristiques de cet outil mathématique sont précieuses pour nous : (i) quelque soit le point
de départ de notre explorateur, que ce point de départ soit défini par un sommet particulier ou
par des probabilités, et à chaque instant , on peut calculer les probabilités de présence de cet
explorateur dans chacun des sommets; de plus, (ii) ces probabilités dépendent de moins en
moins de l’état de départ, et convergent vers un état stationnaire (probabilités fixées pour
chaque sommet), indépendant du point de départ. En d’autres termes, cet outil permet de
suivre la trace de l’explorateur, et garantit que si on le laisse se balader aléatoirement assez
longtemps, on n’a pas besoin de connaître son point de départ pour connaître les régions ou il
doit se trouver, et dans notre cas, le calcul de cet état stationnaire montre qu’il se trouve dans
un sommet avec une probabilité d’autant plus forte si ce sommet possède beaucoup de voisins
très proches, ce qui correspond à l’intuition naturelle qu’on pourrait avoir au sujet de notre
explorateur, qui devrait se trouver dans les régions les plus denses, plus souvent que dans les
villages perdus, compte tenu de son caractère aléatoire, n’appréciant guère la beauté de la
rareté.
Revenons à la problématique définie au chapitre 3 : visualiser l’espace des cliques à
différentes échelles. On a vu que le moyen adopté pour définir une visualisation était la
donnée d’un domaine et du nombre N de localités à afficher. Cela revient dans le cadre de
notre modèle stochastique à choisir des sommets qui pourraient être le point de départ de
notre explorateur, et à sélectionner les N sommets où il se trouve avec le plus de probabilité
après  pas. Pour reprendre l’appellation introduite par Gaume, qui a utilisé le même principe
sur le graphe des synonymes, on appellera la sélection des N cliques aux probabilités les plus
importantes après  pas, au départ d’un liste de cliques E, munie chacune d’une même
probabilité : Extraction(N,,E). Si E contient tous les sommets du graphe, c’est à dire que
l’explorateur part de n’importe quelle clique de manière équiprobable, on appellera la
sélection ainsi obtenue extraction universelle, qui correspond au cas particulier
Extraction(N,,),  désignant l’ensemble de toutes les cliques. On répond donc au cahier
31
des charges du commanditaire de l’exploration du graphe des cliques, avec une réserve
cependant, ce dernier n’est pas censé spécifier de paramètre . En pratique, on choisit ce
dernier de manière à laisser le temps à l’explorateur de se stabiliser sur les régions denses,
sans trop s’éloigner du domaine défini par E, car rappelons que pour  assez grand (>60),
l’état de l’explorateur ne dépend plus de ses points de départ. Comme indiqué en 3.6, une
deuxième couche d’analyse théorique et expérimentale pourrait permettre d’automatiser le
choix de  ; au niveau de cette étude, nous focaliserons notre attention sur les résultats et leur
interprétation cognitive, ainsi que les applications qu’ils pourraient promettre.
32
4.3 Résultats
a – Extractions universelles
Figure 8 : Extraction ( 350 , 11 , ) : Les cliques les plus fréquentes
correspondent aux adjectifs, néanmoins, quelques continents sont
encore visibles…
Figure 9 : Extraction ( 350 , 30 , ) : A gauche, les deux premières
composantes principales montrent que seules quelques cliques de N3
sont encore présentes, tout le reste correspondant aux adjectifs.
A droite, on a une meilleure visualisation de ce continent d’adjectifs
grâce aux deuxième et troisième composantes principales.
33
On voit sur les schémas précédents que l’exploration aléatoire du graphe des cliques met en
évidence les 5 régions les plus denses de ce graphe : trois zones correspondant aux concepts
d’aspect (N1), d’assemblage (N2) et d’effervescence (N3) ; une zone caractérisée par les
cliques du verbe prendre (V); et enfin, un continent d’adjectifs, qui contient beaucoup plus de
localités que les autres zones denses. Cela signifie que notre explorateur aléatoire du graphe
Gcliques passe la majeure partie de son temps à se balader dans les sens adjectivaux, nombreux
et proches les uns des autres, plus que tous les autres groupes de sens. Si on le laisse se
balader plus longtemps que 30 pas de temps, il n’atteint plus les autres régions denses que très
rarement, et on observe donc que les adjectifs si on sélectionne les cliques les plus fréquentes
dans sa balade.
Finalement, compte tenu de la construction théorique de cette méthode, et à la lumière de ces
résultats, on peut déduire que c’est une bonne méthode de détection de zones denses dans un
domaine, mais qu’elle se stabilise essentiellement sur une petite région, au lieu de sélectionner
une variété de localités recouvrant tout le domaine. C’est comme si notre explorateur, auquel
on aurait demandé d’explorer la France, finissait par passer tout son temps entre Paris et ses
banlieues, et oubliait de nous signaler Lyon et Marseille. C’est en effet ce qu’on observe,
puisque les visualisations montrent les régions les plus denses et leur voisinage seulement. En
l’occurrence : les adjectifs (positifs quantitatifs, positifs qualitatifs, et quelques négatifs) ; et
quelques voisinages remarquables comme celui de prendre ou du concept d’effervescence. Si
cette cartographie ne correspond pas à ce qu’on attendait, elle a du moins le mérite de dresser
un portrait optimiste de la langue française, qui semble accorder plus de possibilités de
variations sémantiques, donc plus de richesse, aux adjectifs positifs, en plus des concepts de
description (N1), d’union (N2) et d’effervescence (N3).
Dans une étude ultérieure, il faudra chercher à améliorer le processus d’exploration ou
de sélection, de sorte à exclure une région une fois repérée comme dense, et partir ainsi à la
recherche de la seconde région la plus dense, et ainsi de suite, c’est ce principe qui est à
l’œuvre dans la seconde méthode présentée dans ce document (chapitre 5). Mais avant de
passer à cette seconde approche, observons quelques résultats intéressants fournis par notre
explorateur aléatoire, dont on peut dans certains cas compenser la fâcheuse tendance à ne
sélectionner que les banlieues de la plus grande capitale, en lui demandant un très grand
nombre de localités. Aux chapitres 6 et 7, ces visualisations seront analysées, avec celles du
chapitre suivant, dans une perspective cognitive.
34
b – Continent des verbes
Figure 10 : Extraction ( 350 , 45 , Verbes) : A gauche, les deux premières composantes principales montrent
des axes conceptuels des verbes du français ; à droite, une vue en 3D montre des séparations entre 3 régions :
donner de l’information ou de l’énergie, respectivement en jaune et en vert (dire, provoquer, exciter, créer, etc.) ;
prendre – recevoir (en bleu); détruire (en rouge)
Figure 11 : Extraction ( 1000 , 45 , Verbes) : En sélectionnant 1000 verbes au lieu de 350, on voit apparaître
l’axe évasif. Ainsi, avec les deux axes productif (provoquer) et destructif (détruire), on retrouve le triplet
conceptuel observé par Gaume (figure 5) et Venant (figure 4)
35
5 – Boules les plus denses dans le monde hiérarchique
de cliques
Contrastant avec le processus stochastique présenté dans le chapitre précédent, qui est
une méthode de sélection des cliques à afficher, ce chapitre présente une méthode de calcul de
clusters (cf. 3.4). Il s’agit cette fois de mesurer le nombre de cliques à une distance r à la
ronde, à partir d’une clique centrale c0; autrement dit, de mesurer la densité en cliques de la
boule centrée sur c0 . Ensuite, les boules les plus denses sont sélectionnées et affichées en
utilisant les mêmes méthodes de projection que précédemment. Cette méthode, qui ne
nécessite pas l’introduction du graphe des cliques (cf 4.1), a été exclusivement testée sur
l’espace des cliques associées au graphe de synonymie des verbes (GCVerbes), dans une
version encore loin de répondre entièrement aux objectifs fixés au chapitre 3. Cependant, elle
est présentée ici pour conférer à son principe une validité empirique, renforcée par des
mesures cohérentes avec ce que l’on sait des réseaux géographiques réels et de notre monde
hiérarchique de cliques.
5.1 Calculs préliminaires
Tout d’abord, nous avons calculé, pour chaque rayon r compris entre 0.01 et 0.3 (avec
des sauts de 0.01), et pour chaque clique c 0, le nombre de cliques contenues dans la boule
centrée sur c0 et de rayon r; par conséquent, à rayon fixé, nous avons associé à chaque clique
une densité, correspondant au nombre de cliques contenues dans son voisinage. Ce calcul
nous a conduit aux constatations suivantes :
- En dessous de r = 0.01, aucune clique ne possède de voisine suffisamment proche pour être
incluse dans sa boule.
- Pour r variant entre 0.03 et 0.1, on observe une forte progression de la taille de la boule la
plus dense (annoncer; dire; déclarer; exposer; indiquer; montrer; révéler; signaler; signifier),
figure 12.
- Enfin, pour ces dernières valeurs de r, la distribution des densités suit approximativement
une loi de puissance, au sens ou le nombre de cliques d’une densité donnée décroît en
puissance. (figure 13).
36
Figure 12
Figure 13 : la distribution des densités suit une loi de puissance
Rappelons que notre souci est de choisir un rayon en fonction du nombre de boules
que l’on veut sélectionner, et du domaine d’étude, en l’occurrence, l’espace des cliques des
verbes du français. Cette méthode n’a pas été testée sur l’espace global ou sur des régions
spécifiques, faute de temps. A ce stade, nous n’avons pas encore trouvé d’algorithme
théoriquement justifié pour sélectionner le rayon approprié à l’obtention d’une visualisation
satisfaisante. Mais les calculs préliminaires indiquent clairement les conditions que doit
valider une stratégie de choix de ce rayon. Premièrement, elle doit classer les cliques en
fonction de la proximité de leurs voisines et non pas de leur nombre, même si le nombre de
voisines (cliques contenant des synonymes communs, plus proches en général que les autres)
est souvent une cause de leur proximité. Deuxièmement, elle doit tenir compte du fait que la
37
distribution des densités suit une loi de puissance, ce qui implique qu’il existe une clique de
taille maximale, et que le nombre de cliques de densité moindre va augmenter en puissance
pour atteindre rapidement son maximum, correspondant à une densité égale à 1 : en d’autres
termes, il faut savoir que si la clique la plus dense est centre d’une boule contenant N autres
cliques, un nombre limité d’autres cliques auront une densité du même ordre de grandeur que
N, ensuite les centres moins denses deviendront de plus en plus nombreux, et leur densité va
baisser considérablement, il faudra donc arrêter la sélection des cliques avant cette explosion
du nombre de boules, dont la densité sera beaucoup plus petite que N, quitte à sélectionner
moins de cliques que prévu par le paramètre d’échelle. On aurait pu s’attendre à cette
propriété si on avait considéré la métaphore géographique : si on classe les localités par
densité, il est connu que la distribution de leur population suit aussi une loi de puissance
(Narushige SHIODE & Michael BATTY, Power Law Distributions in Real and Virtual
Worlds). De manière plus claire, si on classe les localités géographiques françaises par
population, Paris devrait apparaître en premier, suivie de quelques grandes villes, puis
quelques dizaines de villes moyennes, puis des centaines de petites villes, puis par des milliers
de villages, des dizaines de milliers de bourgades, et peut-être des centaines de milliers de
maisons isolées (boules de densité égale à 1).
38
5.2 Test
Figure 14 : Axes conceptuels obtenus par la visualisation des 100 boules les
plus denses dans l’espace des cliques associé au graphe de synonymie des
verbes du français (r=0,05).
La première remarque concernant cette visualisation, c’est qu’elle contient quelques boules
(ou clusters de cliques) beaucoup plus denses que les autres, ce qui explique les pôles que
l’analyse en composantes principales tend à éloigner du centre, constituant ainsi des axes:
- la boule centrée sur ‘dire;donner;exposer;indiquer;montrer;révéler’ contient 363 cliques.
- la boule centrée sur ‘déterminer;faire;pousser;produire;provoquer;soulever’ : 257 cliques
- la boule centrée sur ‘abattre;anéantir;briser;cesser;détruire;supprimer’ : 215 cliques.
- 5 boules contiennent entre 100 et 200 cliques.
- 10 boules contiennent entre 50 et 100 cliques.
- Les 82 boules restantes contiennent entre 22 et 49 cliques.
Maintenant, au delà de ces considérations quantitatives, on note une ressemblance
frappante avec les axes mis en évidence par les méthodes abordées jusqu’ici. En effet, les axes
destructif/négatif et évasif sont encore une fois détectés. Quant à l’axe productif/positif de
Venant (figure 4), Gaume (figure 5), et l’exploration aléatoire du monde des cliques (figures
10 et 11), il est cette fois décomposé en deux directions : une direction positive
« énergétique » caractérisée par provoquer et exciter ; et une seconde plus productive définie
par arranger composer façonner former préparer. Mieux encore, cette deuxième direction
39
semble être une interface entre l’excitation positive et la production d’information, ce dernier
concept étant l’objet de l’axe en haut à droite. Cet axe informatif n’est pas présent dans les
visualisations de Gaume et Venant, mais d’après des entretiens téléphoniques récents avec
Gaume, il semblerait que cela soit lié au nombre de verbes sélectionnés dans son exploration
aléatoire. La convergence de toutes ces méthodes semble indiquer que ces axes conceptuels
des verbes du français soient une propriété forte. Enfin, si on zoome sur l’étoile en ignorant
les deux clusters éloignés du centre (‘dire ;donner…’ et ‘abattre ;anéantir…’), on observe
comment les axes principaux rendent compte de la disposition des autres boules.
Figure 15 : Libellés des centres des boules denses
La figure 15 montre, en plus des axes conceptuels mis en évidence dans la figure 14, la
répartition des cliques dans ces axes et aux interfaces entre ces derniers. Ainsi, on remarque
qu’une boule centrée sur ‘considérer, estimer, examiner, juger, penser, peser, regarder, voir’
joue un rôle de transition entre les axes productif et informatif. De même, ‘exciter, harceler,
tourmenter, travailler, turlupiner’ se situe entre les axes positif et négatif. Enfin, on passe de
l’axe négatif à l’informatif par ‘atteindre, bouleverser, frapper, saisir, toucher, troubler,
émouvoir’. Ces résultats nous semblent encourageants et seront rediscutés en chapitre 6 ; pour
l’instant notons simplement que ces cartes sont intuitivement cohérentes avec la cognition,
tout en étant issues exclusivement de l’information contenue dans la structure du graphe des
synonymes, sans aucun apport ou orientation favorisant l’apparition d’un concept particulier.
40
5.3 Algorithme utilisé et idées de développement
L’algorithme utilisé ici est le suivant, r et N étant deux paramètres fixés :
- Pour chaque clique c0, on calcule le nombre de cliques contenues dans la boule de centre c0
et de rayon r.
- On choisit celle qui en contient le plus, que l’on considère comme un cluster représentant
une zone dense.
- On réitère les deux premières étapes en ne considérant comme centres des boules que les
cliques qui n’ont pas encore été admises dans un cluster, et ce, jusqu’à la sélection du nombre
N de boules denses.
Par rapport à la méthode stochastique du chapitre 4, cet algorithme a l’avantage de ne pas
rester dans une zone dense une fois qu’il l’a repérée, car les cliques voisines d’un centre dense
ne seront plus autorisées à être centre d’un nouveau cluster. En d’autres termes, lorsque Paris
aura été sélectionnée comme centre d’une région dense, un cluster l’englobera avec toutes ses
banlieues, et elles ne pourront plus donner naissance à d’autres clusters, ce qui corrige la
faiblesse de la méthode d’exploration stochastique, qui en sélectionnant Paris comme dense,
sélectionne aussi ses banlieues par ‘diffusion’.
Deux aspects restent à améliorer dans cet algorithme : étant donné une région et un
nombre cible de clusters (N), on devrait être capable de choisir automatiquement un rayon r,
en tenant compte des observations en 5.1. Par exemple, connaissant N, on pourrait évaluer
approximativement la taille en cliques de nos clusters, pour recouvrir l’ensemble du domaine
(ordre de grandeur = Nombre total / N). Ensuite, on pourrait simuler un calcul des N boules
les plus denses à un rayon r i, choisi par rapport à la courbe de la clique la plus dense ; puis
progressivement affiner notre choix jusqu’à ce que les boules sélectionnées répondent à
l’attente en nombre et en taille, en ajoutant un critère d’arrêt supplémentaire par rapport à
l’algorithme de base : on arrête la sélection lorsque la taille des boules chute au delà d’un
seuil critique, quitte à ne pas en sélectionner N, mais plutôt un nombre du même ordre de
grandeur. Enfin, une piste intéressante serait le calcul des boules denses après avoir classé les
cliques grâce à l’exploration aléatoire, ainsi, l’algorithme ferait un réel travail d’exploration
cohérent avec l’intuition géographique.
41
6 – Aspects cognitifs
Considérons la conversation suivante, entre deux personnes qui se rencontrent pour la
première fois dans une table de restaurant universitaire :
-
Comment ça va, avec les examens ?
-
Je n’en ai pas, je n’étudie plus à Paris V, je suis juste venu imprimer un mémoire
-
Ah bon, tu fais quoi ?
-
Un DEA de Sciences Cognitives, je suis inscrit à l’EHESS, boulevard Raspail.
-
C’est quoi ça ?
-
C’est les sciences qui essaient de comprendre l’intelligence, ce qui se passe dans le
cerveau, ce genre de trucs…
-
Ca doit être intéressant…
-
C’est vrai (elle ne pense pas ce qu’elle dit, ca serait donc trop long de lui expliquer ce que
je fais). Tu ne serais pas indienne par hasard ?
-
Non, Mauricienne !
-
Ah oui ? J’ai habité un an avec un Mauricien, et il était d’origine indienne, comme toi je
pense !
-
Ah bon ? Il est de quelle ville ?
-
Curepipe.
-
Moi, je suis de Phœnix, c’est juste à côté.
-
Je sais, toute l’île est petite de toute façon. Je crois qu’il allait au King collège.
-
C’est pas vrai ! Moi aussi, c’est là que je suis allée, Il s’appelle comment ?
-
Kaushal Mohee. Mais on l’appelle Kaush…
-
Mohee ! Je connais sa sœur, on était au lycée ensemble !
-
Manjula ?
-
Tu la connais aussi ? C’est incroyable, le monde est petit !
Il est donc vrai que le monde est petit, et il est de plus hiérarchique, car sinon, ces deux
personnes ne pourraient trouver aussi rapidement ce qui les relie. On sait que les réseaux de
connaissances sont des petits mondes hiérarchiques, analysons donc leur conversation à la
lumière de ce que l’on sait sur cette structure. Si on établissait une cartographie globale de
leurs graphes respectifs, on trouverait, pour chacun d’eux, un continent familial, un axe
d’amis d’enfance, un axe de copains de fac, ainsi de suite…Comme X et Y sont des étrangers,
il est probable que leurs cartes générales contiennent chacune un cluster correspondant aux
42
connaissances parisiennes. Si on zoome sur Paris, on pourrait voir apparaître des plus petits
clusters de personnes fortement connectés, les étudiants de Paris V, les étudiants en Sciences
cognitives, les joueurs de l’équipe de football, ainsi de suite. On remarque que nos
interlocuteurs, compte tenu du contexte ou ils se sont rencontrés, ont choisi de se placer
directement à cette échelle pour trouver des points communs. Malheureusement, cette
stratégie a échoué car X n’est que de passage à Paris V, et Y n’est pas passionnée de Sciences
cognitives. X décide alors de prendre du recul et de chercher dans la région du graphe
correspondant à l’Inde, car Y a une beauté indienne, et X a des amis indiens, d’origine
indienne, ou vivant en Inde. Or il se trouve qu’elle est Mauricienne, ce qui tombe bien
puisque X a eu un colocataire Mauricien, il zoome donc aussitôt sur le voisinage de ce
dernier, où il trouve trois clusters : les deux sœurs de Kaush, ses collègues de lycée, et ses
copains mauriciens qu’il a connus à Lyon. Y fait de même et ouvre la carte de ses
connaissances en Ile Maurice. Il suffit alors de quelques questions réponses pour cerner la
connaissance commune : Manjula !
Ce scénario, bien qu’inhabituel, n’est pas du tout choquant. Pourtant, sans une
structure hiérarchique petit monde, ce serait un miracle qu’un marocain et une mauricienne, a
priori deux personnes prises au hasard dans la planète, détectent une connaissance commune
dans leur graphe des connaissances, et ce en quelques secondes. Et pourtant, ce genre
d’expériences est suffisamment fréquent pour attester que la moyenne du plus court chemin
reliant deux personnes prises au hasard est très courte, et que notre système cognitif est
particulièrement efficace pour le détecter. C’est cette idée fondamentale qui est derrière la
motivation de ce travail de DEA. En effet, bien que la majorité de cette étude consiste en
recherches algorithmiques et en développement informatique, a priori détachés des sciences
cognitives, il s’agit, à notre sens, d’un travail essentiellement orienté vers ces dernières.
Lorsqu’on sait que les réseaux sémantiques ou de cooccurrences, les mémoires associatives,
les réseaux neuraux ou sociaux, et les graphes de terrain en général… sont des graphes
hiérarchiques petit monde, l’exemple de cette conversation doit alors être compris comme une
simple illustration de ce qui pourrait être un phénomène fondamental dans la dynamique des
systèmes complexes fondés sur des réseaux, comme le cerveau humain, ou la société
humaine : le phénomène petit monde !
43
Le cours de DEA de J.P. Nadal sur les modèles statistiques, la théorie de l’information
et les réseaux de neurones prouve les faits suivants :
-
Les réseaux de neurones modélisent de mieux en mieux les mémoires associatives à court
et à long terme.
-
Dans certains modes d’apprentissage, ces réseaux peuvent coder l’information en
calculant les composantes principales des données qu’ils ont à traiter (ils ne calculent pas
de valeurs propres d’une quelconque matrice, mais un processus d’auto-équilibration
permet de converger vers la structure adéquate à l’analyse en composantes principales ou
indépendantes, ACP-ACI)
-
Enfin, dans d'autres configurations, ces réseaux peuvent catégoriser les informations.
Lorsqu’on compile ces informations, avec ce que l’on sait des capacités humaines à traiter des
graphes relationnels, et qu’on remarque que les réseaux de nos connaissances sociales, de nos
connaissances sur les objets, sur les catégories d’objets, ou sur les mots, sont munis d’une
structure de petit monde hiérarchique, il est clair que cette dernière joue un rôle dans la
cognition, et que les outils mathématiques et algorithmes utilisés dans cette étude rendent
compte de processus cognitifs en œuvre dans les traitements de ces graphes, d’une manière
qui reste à déterminer de manière plus précise, mais bel et bien vraisemblable. Ainsi, une
approche qui n’a pas été abordée au cours de cette étude, mais qui pourrait être la voie idéale
de recherche, est l’utilisation d’un réseau de neurones pour le traitement du dictionnaire des
synonymes.
Si un modèle de neurones formels ne constitue aucunement une preuve, les arguments
précédents constituent néanmoins un indice vers une vraisemblance neurologique pour
l’hypothèse d’une aptitude cognitive à traiter les petits mondes hiérarchiques ; mais on peut
aussi trouver à notre hypothèse une logique anthropologique, les deux approches pouvant
éventuellement se rejoindre dans la perspective des théories cognitives de l’évolution. En
effet, le caractère social de l’homme peut être une justification de cette capacité à traiter de
grands graphes, car le réseau social humain est exceptionnellement grand par rapport aux
autres mammifères, et il est particulièrement hiérarchique. Ainsi, le développement et la
complexité de sa société aurait forcé l’homme à développer les stratégies cognitives utiles au
traitement des petits mondes hiérarchiques. « L'homme est un animal politique plus que
n'importe quelle abeille et que n'importe quel animal grégaire », affirme Aristote dans La
Politique, avant de justifier le langage, la perception du bien, du mal, du juste et de l’injuste.
En effet, les mots sont le reflet de notre relation avec le monde, et la structure de petit monde
44
hiérarchique qui sous-tend notre lexique pourrait être le résultat du plagiat d’une stratégie
développée d’abord pour représenter notre réseau social. Cela expliquerait par exemple la
polysémie des entités lexicales, qui comme les entités sociales, peuvent avoir plusieurs
casquettes. On pourrait aussi soutenir le cheminement inverse, c’est à dire que l’homme aurait
d’abord développé les stratégies de traitement de graphes pour appréhender un monde qu’il a
perçu comme de plus en plus complexe ; néanmoins, ce n’est pas l’ordre des causes qui nous
intéresse ici, mais le fait essentiel suivant : à un niveau cognitif, à l’interface entre langage,
représentation du réseau social, et mémoire, le phénomène petit monde hiérarchique joue un
rôle fondamental.
Toujours dans la même veine, considérons maintenant un autre raisonnement : un concept
de base en psychologie sociale est celui des Théories Implicites de la Personnalité, sousjacentes à la formation d’impression sur autrui (TIP, suggérées par Asch dans les années 4050, formalisées par Bruner et Tagiuri en 1956). L’idée générale est que tous les humains sont
des psychologues disposant de théories statistiques classant les autres en catégories
hiérarchisées ; ils sont en fait « capables » de se former une impression complète sur une
personne à partir de très peu d’informations initiales. En d’autres termes, lorsqu’on perçoit
une personne comme chaleureuse au premier contact, on devine immédiatement qu’elle est
généreuse, heureuse, bonne vivante, et moins fiable qu’une personne froide (Asch, 1946), car
on la place immédiatement dans un « continent » statistiquement établi. S’il s’avère que cette
personne chaleureuse est de plus mauricienne, on zoome sur nos cartes psychologiques sur le
cluster des insulaires, avec les traits de nonchalance et de bonne humeur qui lui sont associés,
et on affine ainsi progressivement notre description psychologique de notre interlocuteur, et
ce à travers des cartographies hiérarchiques. Dans la perspective des sciences cognitives, on
parle plutôt de théories de l’esprit pour désigner cette compétence de psychologue de l’être
humain, mais encore une fois, il ne s’agit pas ici de discuter les différentes manières
d’appréhender ce vaste sujet d’étude, mais de remarquer le fait suivant : il ne serait pas
étonnant que le graphe qui relie les traits de personnalité corrélés soit un petit monde
hiérarchique. En effet, les traits les plus indépendants peuvent être reliés par des chaînes très
courtes ; ne connaît-on pas tous des personnages paradoxaux ? Par exemple, entre sensible et
inhumain, on trouve les différents chemins suivants : sensible - irritable - colérique - violent inhumain - fanatique - passionné - sensible - pénible - pitoyable - misérable - inhumain
(remarquons au passage le parallèle entre la petitesse du monde des traits psychologiques, et
celle du monde de la synonymie). A partir de là, ce qui devient surprenant, c’est que les
45
chercheurs en psychologie différentielle, dont le métier est d’utiliser les statistiques, et en
particulier les outils de clustering et d’analyse en composantes principales, pour classer les
êtres humains en fonction des dimensions les plus pertinentes, arrivent à des traits primaires
(continents du graphe des traits de personnalité) qui sont similaires aux traits qui sont mis en
évidence par les psychologues sociaux de manière empirique, en observant les inférences que
font les êtres humains en situations sociales, en particulier dans la formation d’impressions.
De manière plus claire : le psychologue différentiel définit des traits de la personnalité,
analyse leur corrélation à partir des données expérimentales ou issues des tests cliniques et
professionnels, établit un graphe à partir de ces traits (probablement un petit monde
hiérarchique), utilise des algorithmes de clustering et des outils statistiques d’analyse en
composantes principales, et déduit enfin que les 5 composantes primaires qui constituent la
personnalité sont le névrosisme, l’extraversion, l’ouverture, l’agréabilité et la conscience (Big
five mesurées par le test NEO PI-r, Paul T. Costa. et Robert R. Mc Crae, 1985, 1990) ; de
leur côté, les psychologues sociaux trouvent que lorsque l’animal social homo sapiens
rencontre une nouvelle personne, il commence par évaluer sa ‘bizarrerie’ (névrosisme ?), son
extraversion, son ouverture d’esprit, décide si elle est sympathique, et porte un jugement sur
son intelligence, il affine ensuite ses mesures en considérant des facettes plus spécifiques.
Conclusion : l’homo sapiens fait du clustering et de l’ACP sur le petit monde hiérarchique des
personnalités, de manière mathématiquement équivalente à ce que fait le psychologue
différentiel avec ses statistiques et son ordinateur.
46
7 – Perspectives
7.1 Des axes conceptuels des verbes du français à la psycholinguistique
Nous avons décrit les moyens techniques mis en œuvre pour analyser un dictionnaire
des synonymes, modélisé par un graphe hiérarchique petit monde, et nous avons montré que
certains résultats récurrents semblent robustes par rapport à la méthode de calcul, indiquant
une propriété forte du dictionnaire des synonymes. En particulier, nous pensons que le graphe
des verbes du français repose globalement sur les axes conceptuels suivants : informatif ;
productif ; positif ; négatif ; et évasif. A l’origine de ces axes, donc au centre du graphe, on
trouve des sens vagues, caractérisés par le verbe faire (exploration aléatoire, boules denses),
passer (Venant), ou changer (Gaume). Cette structure est donc robuste, cohérente et
interprétable, mais quelles en sont les implications ? Des études menées par Duvignau et
Gaume (2002, 2003 et 2004), tendent à montrer un intérêt en psycholinguistique, dans la
compréhension des mécanismes d’acquisition des verbes par exemple ; mais on pourrait aller
au delà et se demander si cette structure n’est pas à relier aux théories cognitives de
l’évolution. En effet, de même que ces axes conceptuels auraient des implications au niveau
du développement de l’individu, il pourrait s’agir d’indices concernant le développement du
langage au niveau de l’espèce humaine. Cette conjecture est d’une part cohérente avec la
structure hiérarchique du réseau sémantique, car on a vu que l’une des manières d’expliquer
cette propriété était de considérer les sommets les plus denses comme les ‘parents’ de
sommets descendants, qui au fur et à mesure que l’on descend dans l’arbre généalogique, sont
de plus en plus nombreux, et de moins en moins denses ; d’autre part, les axes calculés sont
eux mêmes génétiquement vraisemblables : il ne serait pas étonnant qu’aux origines du
langage, l’homme devait simplement transmettre un message positif (production, excitation),
un signal de fuite, ou un ordre de destruction (axes positif, évasif et négatif , récurrents dans
toutes les méthodes de calcul). Bien sûr, il ne saurait être question ici de démontrer une
hypothèse génétique du langage, mais cette conjecture est simplement soulevée pour montrer
l’étendue du rayonnement que peut avoir l’étude de la structure d’un dictionnaire des
synonymes dans toutes les disciplines des sciences cognitives. Spécialement quand on sait que
les méthodes développées sur un dictionnaire des synonymes sont immédiatement
transposables à d’autres graphes hiérarchiques petit monde, et que les cartographies globales
sont très peu sensibles au bruit et aux variations locales. Une piste intéressante de recherche
serait par exemple la comparaison des cartographies de différentes langues, ainsi que celles
47
d’une même langue à différentes époques, ou à partir de dictionnaires spécialisés, pour repérer
les régularités et les différences cognitives qui seraient la cause ou la conséquence de déficits
ou de particularités historiques ou culturelles d’un lexique donné. Enfin, par leur caractère
objectif et automatique, ces mêmes travaux pourraient servir des outils psychologiquement
fondés pour la traduction et le résumé automatique, l’aide à la rédaction, la fouille de données,
la classification hiérarchique, la terminologie, ou encore la comparaison de dictionnaires.
7.2 Visualisation et navigation cognitives
Gaume pense que les graphes d’origine linguistique, outre leur intérêt propre dans
l’étude des grands corpus linguistiques, peuvent aussi nous permettre de mieux comprendre
les propriétés structurelles des graphes de terrains dans leur ensemble comme le réseau
Internet par exemple (Barabasi & Albert & Jeong & Bianconi, 2000). En effet, tout comme
les dictionnaires des synonymes, le web est un petit monde hiérarchique dont le nombre de
sommets est de l’ordre du milliard. Si les verbes du français décrivent des axes conceptuels,
quel est la forme du web ? A partir du principe d’exploration aléatoire à différentes échelles,
Gaume a développé un outil de navigation qui permet d’atteindre n’importe quel sommet du
graphe en quelques clics, chaque clic diminuant l’échelle d’un facteur de 100. Ainsi, pour un
graphe des 9043 verbes, il suffit de 3 clics pour atteindre une cible (2 seraient suffisants si
chaque verbe était accessible par un chemin unique, ce qui n’est pas le cas). Ainsi, un moteur
de recherche Internet, basé sur la visualisation multi-échelle du graphe reliant les pages,
permettrait d’accéder aux pages les moins denses, les localités isolées du web, en 4 ou 5 clics.
Cela permet à Gaume d’envisager un outil de navigation pour le web, dont l’ergonomie
d’accès est cognitivement fondée. Mais en transposant le même raisonnement, d’autres
graphes peuvent aussi être explorés de la même manière : celui des symptômes médicaux, en
particulier ceux des maladies psychiatriques, qui sont parfois considérés dans une approche
athéorique et purement statistique (DSM 4) ; le graphe des relations de libres associations
pour un patient en psychothérapie ; les mémoires associatives…
7.3 Algorithmique des grands graphes & intelligence artificielle
Comme le souligne Gaume, la structure de petit monde hiérarchique permet une
navigation et un accès très efficace à l’information recherchée, une dynamique d’acquisition
du général vers le particulier, une excellente robustesse en cas de déficit, ainsi qu’un
48
raisonnement à granularité variable. Toutes ces propriétés étant caractéristiques de la
cognition en général, et des mémoires associatives en particulier. En automatisant ces aspects,
parallèlement à ce qu’il apporte dans la compréhension de la cognition, le développement
d’algorithmes spécialisés dans la manipulation des petits mondes hiérarchiques pourra servir
pour l’intelligence artificielle, en permettant, grâce à la visualisation d’un graphe à l’échelle
appropriée, la diminution de l’espace de travail et la baisse de la complexité. Pour prendre
l’exemple le plus simple, qui est équivalent à celui qui a été illustré par la conversation du
chapitre 6, il suffit de considérer le problème du chemin le plus court dans un très grand
graphe hiérarchique. Un algorithme classique devrait traiter beaucoup trop d’information s’il
ne commençait pas par simplifier le problème. En se plaçant d’abord à un niveau de
visualisation grossière, un algorithme plus intelligent pourrait repérer une trajectoire
globalement, puis il n’aurait qu’à zoomer sur les parties pour détailler son itinéraire. Ainsi, il
ferait chuter considérablement la complexité de ses calculs.
49
8 – Références
BARABASI A-L, ALBERT R., JEONG H. (1999), Scale free characteristics of random networks:
The topology of the World Wide Web. Physica A, 281:69.77, 2000.
BERGÉ C. (1970) : Graphes et hypergraphes, Paris, Dunod.
COLOMBO T., GUÉNOCHE A, QUENTIN Y. (2003) . Recherche de zones denses dans un graphe.
Application aux gènes orthologues. http://www.inist.fr/uir/jim03/colomb.pdf.
ERDÖS P., RENIYI A. (1960), Publ. Math. Inst. Hung.Acad. Sci 5,17-61
GAUME B. (2003), Analogie et Proxémie dans les réseaux petits mondes, Regards croisés sur
l’analogie. RIA, n°spécial, Vol 5-6, Hermès Sciences.
GAUME B. (2004), Ballades aléatoires dans les Petits Mondes Lexicaux, I3 Information
Interaction Intelligence, CEPADUES édition (à paraître).
GAUME B., DUVIGNAU K., GASQUET O. ET GINESTE M-D. (2002). Forms of Meaning, Meanings
of Forms. Journal of Experiment and Theoretical Artificial Intelligence, 14(1): 61-74.
GONDRAN M. & MINOUX M. (1979) : Graphes et algorithmes, Paris, Eyrolles.
GREFENSTETTE G. (1994) : Explorations in Automatic Thesaurus Discovery, Dordrecht,
Kluwer.
HONESTE M.L., Approche cognitive de la fonction adjectivale, Actes du colloque sur
l’adjectif ,Caen, 2001.
JACQUET G. (2003). Polysémie verbale et construction syntaxique : étude sur le verbe jouer.
Actes TALN 2003, pages 469-479.
LABELLE J. (1981) :Théorie des graphes, Montréal, Modulo.
MANGUIN J.L., « Construction d’espaces sémantiques associés aux verbes de déplacement
d’objets à partir des données des dictionnaires informatisés des synonymes », Syntaxe et
Sémantique, 2, 287-300, 2001.
MANGUIN & VICTORRI, « Représentation géométrique d'un paradigme lexical », TALN 1999,
363-368,2001.
MILGRAM S., (1967), The small world problem, Psychol. Today 2,60-67.
MILLER G.A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. (1993) : Five Papers on
WordNet, http://www.cogsci.princeton.edu/wn/.
NOAILLY M., L’adjectif en français moderne, Paris, Ophrys, 1999.
PICOCHE J., Structure sémantique du lexique français, Paris, Nathan, 1992.
50
PIOTROWSKI D. (1997) : Dynamiques et structures en langue, Paris, CNRS Editions.
PLOUX S. , VICTORRI B. (1998). Construction d’espaces sémantiques à l’aide de dictionnaires
informatisés des synonymes. TAL, 39(1) :161–182.
REINER E., La place de l’adjectif épithète en français : théories traditionnelles et essai de
solution, Wien, Stuttgart, W. Braumuller, Band, 1968.
VÉRONIS J., IDE N. (1990) : « Word sense disambiguation with very large neural networks
extracted from machine-readable dictionaries », COLING’90, Helsinki, 389-394.
VENANT F. (2004). Polysémie et calcul du sens. Actes JADT 2004 (à paraître).
VÉRONIS J. (2003). Cartographie lexicale pour la recherche d’information. Actes TALN 2003,
pages 265-275.
VICTORRI B., FUCHS C. (1996) : La polysémie – Construction dynamique du sens, Paris,
Hermès.
VOLLE M. (1997) : Analyse des données, Paris, Economica.
WARNESSON I. (1985) : « Applied Linguistics : Optimization of Semantic Relations by Data
Aggregation Techniques », Journal of Applied Stochastic Models and Data Analysis, Vol. 1,
n°2, 121-143.
WATTS D.J., STROGATZ S.H. (1998), Collective dynamics of ‘small-world’ networks. Nature
393: 440-
51