Géométrisation et Exploration du Sens
Transcription
Géométrisation et Exploration du Sens
MÉMOIRE DE DEA DE SCIENCES COGNITIVES ANNÉE 2003 – 2004 EHESS Université Paris VI Ecole Polytechnique Ecole Normale Supérieure GÉOMÉTRISATION ET EXPLORATION DU SENS NABIL ABDELLAOUI Sous la direction de : BERNARD VICTORRI [email protected] 2 3 Avant-propos La polysémie est-elle source d’ambiguïté ou de liberté ? Et pourquoi les mots les plus courants d’une langue sont-ils aussi les plus polysémiques ? Ces questions sont au cœur de la réflexion sur la polysémie, phénomène naturel appréhendé intuitivement avec une grande facilité, mais paradoxalement ardu lorsqu’il s’agit de le formaliser. Ploux et Victorri (1998) ont proposé un modèle mathématique permettant la visualisation et la désambiguisation du sens, implémenté dans un logiciel nommé Visusyn. Ce travail s’inscrit dans le cadre de ces recherches, en y intégrant des méthodes de visualisation multi-échelle développées par B. Gaume (en cours), et de nouveaux algorithmes d’exploration de graphe. A partir d’un dictionnaire de synonymes, modélisé par un graphe dont les sommets sont les unités lexicales et les arêtes les relations de synonymie, le résultat obtenu est une cartographie globale de l’espace sémantique du français, montrant sous forme de ‘continents’ les régions les plus denses de ce graphe : une constellation d’adjectifs, une seconde de verbes, et quelques autres de noms. Des ‘zooms’ sur chacune de ces régions permettent des visualisations de plus en plus locales : d’une carte conceptuelle de tous les verbes du français, jusqu’au voisinage d’une localité particulière. Ce parallèle entre carte géographique et géométrie de l’espace sémantique est rendu possible grâce à la structure du dictionnaire des synonymes, dite petit monde hiérarchique, commune par ailleurs à plusieurs autres réseaux de terrain. Ces représentations pourront servir pour les méthodes automatiques de calcul du sens, les outils informatiques de traitement du langage, la psycholinguistique, la linguistique cognitive, et de manière générale, suggèrent des aspects cognitifs intéressants. 4 GÉOMÉTRISATION ET EXPLORATION DU SENS TABLE Avant-propos...................................................................................................................................................2 1 - INTRODUCTION.............................................................................................................................................4 2 - LE MODÈLE DE PLOUX & VICTORRI......................................................................................................6 2.1 SYNONYMIE......................................................................................................................................................6 2.2 GRAPHE SYMÉTRIQUE ASSOCIÉ À UN DICTIONNAIRE DE SYNONYMES...................................................................6 2.3 CLIQUE............................................................................................................................................................7 2.4 UNE MÉTRIQUE POUR L’ESPACE DES CLIQUES.....................................................................................................8 2.5 ANALYSE DES DONNÉES..................................................................................................................................10 2.6 L’EXEMPLE DE SEC.........................................................................................................................................12 2.7 DU LOCAL AU GLOBAL....................................................................................................................................13 3 - ANALYSE THÉORIQUE...............................................................................................................................18 3.1 GRAPHES PETIT MONDE...................................................................................................................................18 3.2 GRAPHES SANS ÉCHELLE.................................................................................................................................20 3.3 LE PETIT MONDE HIÉRARCHIQUE DE LA SYNONYMIE.........................................................................................20 3.4 CLIQUES, GANGS ET CLUSTERS........................................................................................................................21 3.5 ETIQUETAGE D’UN CLUSTER............................................................................................................................24 3.6 REMARQUES SUR LE MODÈLE..........................................................................................................................25 4 – BALLADES ALÉATOIRES DANS LE MONDE HIÉRARCHIQUE DE CLIQUES.............................26 4.1 LE MONDE HIÉRARCHIQUE DE CLIQUES............................................................................................................26 4.2 PRINCIPE........................................................................................................................................................28 4.3 RÉSULTATS....................................................................................................................................................31 5 – BOULES LES PLUS DENSES DANS LE MONDE HIÉRARCHIQUE DE CLIQUES.........................34 5.1 CALCULS PRÉLIMINAIRES................................................................................................................................34 5.2 TEST..............................................................................................................................................................37 5.3 ALGORITHME UTILISÉ ET IDÉES DE DÉVELOPPEMENT........................................................................................39 6 – ASPECTS COGNITIFS.................................................................................................................................40 7 – PERSPECTIVES.............................................................................................................................................45 7.1 DES AXES CONCEPTUELS DES VERBES DU FRANÇAIS À LA PSYCHOLINGUISTIQUE................................................45 7.2 VISUALISATION ET NAVIGATION COGNITIVES...................................................................................................46 7.3 ALGORITHMIQUE DES GRANDS GRAPHES & INTELLIGENCE ARTIFICIELLE...........................................................46 8 – RÉFÉRENCES................................................................................................................................................48 5 1 - Introduction La description sémantique des unités lexicales est un enjeu important pour le traitement automatique des langues. Comme on le sait bien, ce n’est pas un problème simple. Cela est dû en grande partie à l’omniprésence de la polysémie, qui touche beaucoup d’unités de la langue, et en premier lieu, les mots les plus usuels : en général, plus une unité est utilisée couramment, plus elle présente d’acceptions différentes, et plus sa structure sémantique est complexe1. Les approches classiques (analyse sémique, décomposition en primitives, réseaux sémantiques hiérarchiques, etc.), outre qu’elles ne sont pas particulièrement adaptées pour traiter les problèmes posés par la polysémie, sont forcément limitées dans leur ambition : elles réclament un travail d’analyse considérable pour chaque unité étudiée, et elles sont souvent restreintes à un domaine spécifique, ce qui rend difficilement envisageable le traitement de tout le lexique par ces méthodes. Aussi se tourne-t-on de plus en plus vers des méthodes automatiques ou semiautomatiques, rendues possibles par le progrès technologique qui permet aujourd’hui de disposer facilement de nombreuses ressources textuelles : corpus de grande taille, dictionnaires électroniques, etc. L’idée générale est d’utiliser ces ressources pour décrire la sémantique des unités à partir d’analyses statistiques des relations qu’elles entretiennent les unes avec les autres. On peut distinguer deux types de travaux qui vont dans cette direction : certains opèrent avant tout sur l’axe syntagmatique grâce à l’analyse de corpus (cf. entre autres Hindle D. 1990, Grefenstette G. 1994) : chaque unité est caractérisée sémantiquement par l’ensemble des unités avec lesquelles elle entre en relation syntaxique. D’autres travaux (cf. entre autres, Warnesson I. 1992) se placent directement sur l’axe paradigmatique en utilisant les données de dictionnaires électroniques, et, en particulier, en se servant de la relation de synonymie qu’ils permettent de mettre en évidence. 1. Cette constatation vaut bien sûr autant pour les unités grammaticales (appartenant à des classes « fermées » : déterminants, prépositions, conjonctions, etc.) que pour les unités lexicales proprement dites (appartenant à des classes « ouvertes » : noms, verbes, adjectifs, etc.). Nous ne nous intéressons ici qu’aux unités lexicales, les unités grammaticales méritant à notre avis des traitements plus spécifiques. 6 L’étude que nous présentons ici s’inscrit dans cette dernière lignée. Il s’agit en effet d’utiliser des dictionnaires de synonymes pour décrire la structure sémantique d’unités lexicales. L’objectif est d’obtenir des vues globales de l’ensemble du lexique, ainsi que des zooms sur des régions particulières. Nous allons donc d’abord préciser les bases linguistiques et le modèle mathématique sur lesquels se fondent notre travail (chapitres 2 et 3), avant de présenter des algorithmes utilisés pour obtenir une cartographie d’un dictionnaire de synonymes représenté par un graphe (chapitres 4 et 5). Enfin, nous discuterons les résultats obtenus dans la perspective des sciences cognitives. 7 2 - Le modèle de Ploux & Victorri 2.1 Synonymie Deux unités lexicales sont en relation de synonymie si toute occurrence de l’une peut être remplacée par une occurrence de l’autre dans un certain nombre d’environnements sans modifier notablement le sens de l’énoncé dans lequel elle se trouve. Cette relation est toujours réflexive et symétrique, mais elle n’est pas transitive : une unité peut être paraphrasable par une première unité dans certains environnements, et par une deuxième unité dans d’autres, sans que ces deux unités soient elles-mêmes synonymes : il suffit pour cela que les deux ensembles d’environnements en question soient disjoints. Pour reprendre l’exemple de Ploux et Victorri, défendre et interdire sont synonymes parce qu’ils sont paraphrasables l’un par l’autre dans des énoncés tels que défendre de fumer et interdire de fumer. De même, défendre et soutenir sont synonymes parce que défendre les droits de l’homme et soutenir les droits de l’homme ont sensiblement le même sens. En revanche, interdire et soutenir ne sont pas synonymes car il n’existe pas d’environnement dans lesquels on puisse les permuter sans modifier considérablement le sens de l’énoncé dans lequel ils se trouvent. 2.2 Graphe symétrique associé à un dictionnaire de synonymes Un graphe symétrique G = (V,E) est la donnée d’un ensemble non vide fini V de sommets, et d’un ensemble E (V x V) de couples de sommets formant des arêtes, avec (r,s)E (s,r)E. La relation de synonymie étant symétrique, nous ne nous intéresserons ici qu’aux graphes symétriques. Le logiciel Visusyn, ainsi que ce travail de DEA, repose sur l'analyse du graphe du dictionnaire électronique des synonymes (D.E.S.) du laboratoire CRISCO. La base de départ est constituée de sept dictionnaires classiques (Bailly, Benac, Du Chazaud, Guizot, Lafaye, Larousse et Robert) dont ont été extraites les relations synonymiques. Les sommets du graphe sont des mots de la langue française. Deux mots sont reliés par un arc lorsqu’un des 8 dictionnaires signale une relation synonymique entre eux. Le graphe G=(S,V) correspondant possède 49133 sommets (S) et 198549 arcs (V). Si on élimine de S les unités qui forment des clusters (groupes de sommets fortement connectés) séparés du reste du graphe, on obtient un graphe dit connexe, c’est à dire qu’on peut passer de n’importe quel sommet à un autre par un chemin à travers les synonymes. En réalité, en éliminant ces composantes séparées de la composante connexe principale, on ignore les mots rares qui possèdent un ou deux synonymes déconnectés du lexique fréquent ; on obtient donc un graphe connexe GC = (S’,V’) de 44877 sommets au lieu de 49133, plus pratique à étudier. 2.3 Clique C’est la notion de clique qui est au centre de notre travail sur le graphe des synonymes. Une clique (sous-graphe complet maximal 2) est un ensemble le plus grand possible de sommets du graphe tous reliés deux à deux, « le plus grand possible » voulant dire qu’il n’existe pas de sommet supplémentaire qui soit relié à tous les sommets d’une clique. En d’autres termes, pour notre application, une clique est un ensemble d’unités lexicales qui ont la propriété d’être toutes synonymes les unes des autres, aucune autre unité ne pouvant être rajoutée à l’ensemble sans que l’on perde cette propriété. Prenons, à titre d’illustration, le graphe de la figure 1, dont les sommets u1, u2, …, u10 représentent des unités lexicales, et dont les arêtes indiquent la relation de synonymie. 2. Il faut noter que ce que nous appelons clique ici est appelé parfois clique maximale dans la littérature. Pour une présentation de la théorie des graphes, voir par exemple Bergé C. 1970, Gondran M. & Minoux M. 1975, ou encore Labelle J. 1981. 9 u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 Figure 1 : Exemple de graphe Les ensembles {u1, u2, u4}, {u2, u4, u5, u7}, {u1, u3}, {u7, u8, u10} sont des exemples de cliques, alors que l’ensemble {u1, u2, u4, u6} n’est pas une clique, puisque u2 et u6 ne sont pas synonymes. De même {u6, u9} ne forme pas une clique parce qu’elle n’est pas maximale : ces deux unités sont toutes deux synonymes de u10 et c’est donc {u6, u9, u10} qui constitue une clique. Comme on peut le constater, deux cliques peuvent être disjointes, ou avoir une ou plusieurs unités en commun. 2.4 Une métrique pour l’espace des cliques La théorie des graphes offre de nombreuses techniques qui permettent de mettre en évidence différentes caractéristiques de la structure d’un graphe. Elles sont donc a priori exploitables pour décrire les relations qu’entretiennent les cliques du graphe. Les recherches menées par Ploux, après plusieurs tentatives en ce sens, ont montré que la stratégie qui permettait la meilleure exploitation de l’information contenue dans les cliques, consistait à les considérer comme des points dans un espace métrique continu, c’est à dire dans lequel on a défini une distance entre éléments. Précisément, c’est une métrique bien connue en analyse de données3, la métrique du 2, qui s’est avérée satisfaisante Concrètement, si l’on considère le graphe du dictionnaire des synonymes G = ( S , V ), et qu’on appelle les unités lexicales appartenant à S : u1, u2, …, un. . Alors toute clique ck peut 3. Pour une introduction à toutes les notions d’analyse de données utilisées dans la suite de cet article, voir par exemple Bouroche J.-M. & Saporta G. 1994, Diday E. et al. 1982, Bry X. 1995 ou encore Volle M. 1997. 10 être considérée comme un point dans un espace à n dimensions, de coordonnées pour tout i allant de 1 à n : xki égale 0 ou 1 suivant que le synonyme correspondant appartient ou non à la clique ( xki = 1 si ui ck et xki = 0 si ui ck ). La distance entre deux cliques ck et cl est alors donnée par la métrique du 2, que l’on peut définir de la façon suivante : x x ki x li d (ck, cl) = xl i 1 x i x k n 2 p n j 1 i 1 2 n p avec xi x ji , x k x ki , et x x ji . i 1 j 1 Cette distance possède les deux caractéristiques suivantes. D’une part, chaque synonyme, en tant que vecteur de base de l’espace, intervient dans le calcul avec un « poids » plus faible si le synonyme est présent dans un grand nombre de cliques : les synonymes qui sont les moins spécifiques jouent un rôle moins important dans la discrimination des sens de l’unité. D’autre part, les coordonnées de chaque clique sont divisées par le nombre d’éléments de la clique : on crée donc d’autant plus de distance si la clique est de petite taille, prenant ainsi en considération l’importance relative d’une unité par rapport au reste de la clique. Reprenons encore une fois les exemples de Ploux et Victorri pour donner une idée intuitive de ces définitions ; considérons deux couples de cliques, issues de l’analyse du verbe interdire. Parmi ses nombreuses cliques, on en trouve beaucoup qui caractérisent des nuances de son sens usuel, comme les deux suivantes : c26 : défendre, inhiber, prohiber, proscrire c32 : empêcher, inhiber, paralyser, supprimer Mais on trouve aussi des cliques qui correspondent à un sens bien différent, que l’on trouve surtout dans les emplois adjectivaux du participe passé, comme dans l’énoncé : Devant tant de mauvaise foi, Jean est resté tout interdit. Parmi les cliques qui caractérisent ce type d’emplois4, on trouve : 4. On peut se poser la question de savoir s’il s’agit vraiment d’emplois du verbe, ou plutôt d’un adjectif dérivé du verbe. Ainsi le Petit Robert possède une entrée interdit (adj.) qui relève (entre autres) ces emplois. Mais le même Petit Robert signale aussi à l’entrée interdire un sens (vieilli, certes) du verbe pour ces mêmes emplois (avec comme exemple ce vers de Regnard : Et ce brusque discours a de quoi m’interdire). 11 c46 : paralyser, pétrifier On s’aperçoit que les cliques c46 et c32 possèdent un synonyme en commun (paralyser, qui peut prendre lui aussi les deux sens) et diffèrent par 4 autres synonymes en tout, tandis que les cliques c32 et c26, qui ont aussi un synonyme en commun (inhiber), diffèrent par pas moins de 6 autres synonymes. La figure 2 montre les distances calculées entre ces cliques, à gauche la distance dite canonique qui crée de la distance de manière identique pour toutes les coordonnées, et sans considérer le nombre d’éléments de chaque clique, et à droite, la distance du 2 , qui rend bien l’intuition qu’on a quant à la séparation des 3 sens de défendre : c46 c46 c26 c32 distance canonique c26 c32 distance du 2 Figure 2 : Comparaison de deux distances La distance du 2 confère donc à l’ensemble des cliques une structure géométrique qui semble respecter la notion intuitive de proximité entre sens d’une unité. La voie est ainsi ouverte à la construction automatique de l’espace sémantique associé à une unité, si l’on accepte d’identifier chaque clique à un point de cet espace sémantique. 2.5 Analyse des données Le problème, c’est que l’ensemble des cliques, dans la représentation que nous avons choisie, est « plongé » dans un espace de très grande dimension (égale au nombre de synonymes de l’unité étudiée). Il est de ce fait peu maniable, et surtout cela masque une propriété importante postulée pour l’espace sémantique : son petit nombre de dimensions. Si cette hypothèse est exacte, l’ensemble des cliques n’occupe pas de manière plus ou moins homogène l’espace engendré par les synonymes. Il est au contraire confiné à une région que l’on doit pouvoir décrire comme une approximation d’un sous-espace de faible dimension. Pour en juger, on dispose d’une batterie de méthodes d’analyse des données, fondées sur la détermination d’une suite d’axes orthogonaux, centrés sur le centre de gravité d’un nuage 12 de points, tels que la projection du nuage de points sur l’espace engendré par ces axes soit la moins « déformée » possible en un sens particulier, ou la plus étalée, c’est à dire séparant les points au maximum, ce qui est parfois équivalent à la condition précédente. Ces axes sont ordonnés par importance décroissante : si un petit nombre d’axes suffit à rendre compte de l’essentiel de la « dispersion » de cet ensemble de points, on peut alors considérer avec une bonne approximation que ces points se situent tous sur le petit sous-espace engendré par ces axes. Dans notre cas, cela signifie que si un petit nombre d’axes suffit pour représenter les cliques associées à une unité, l’espace sémantique associé à cette unité est approximativement contenu dans le sous-espace correspondant. La version de base de ces outils statistiques se nomme analyse en composantes principales (ACP), mais la plus adaptée à la projection des cliques, dont on mesure la proximité à l’aide de la distance du 2, est l’analyse des correspondances. L’algorithme implémenté dans cette étude, ainsi qu’un excellent inventaire des méthodes de réduction du nombre de dimensions des données, dont certaines constituent une direction prometteuse de recherche pour l’amélioration du modèle (cf. 3.4 et 3.6), se trouvent dans le manuel en ligne Applied Multivariate Statistical Analysis (http://www.quantlet.com/mdstat/scripts/mva/htmlbook/). L’analyse des correspondances donne des résultats très convaincants pour l’étude de l’espace sémantique associé à une unité lexicale. Plusieurs exemples particulièrement significatifs sont décrits en détail dans Ploux et Victorri (1998) ou dans Manguin & Victorri (1999). Nous citerons ici le cas de sec, étudié par F. Venant (RECITAL, 2004), pour illustrer le modèle. 2.6 L’exemple de sec Pour déterminer automatiquement les paramètres de l’espace sémantique associé à une unité polysémique, le logiciel Visusyn analyse le sous graphe dont les sommets sont l'unité étudiée et tous ses synonymes, l'hypothèse étant que ce sous-graphe contient dans sa structure toute la sémantique de ce mot. Pour résumer le modèle de Ploux & Victorri, il s’agit de : 1 - Calculer toutes les cliques contenant l’unité lexicale ‘sec’ comme définies en 2.3 2 - Calculer les distances entre ces cliques (cf. 2.4) et trouver la meilleure projection en 2 dimensions pour visualiser ces distances (cf. 2.5) 13 L’unité lexicale sec possède 63 synonymes, et est présente dans 94 cliques, dont voici la projection dans les deux premières dimensions les plus pertinentes : Figure 3 : Espace sémantique de sec La sémantique de sec étant bien connue, nous pouvons ici valider notre hypothèse de travail en vérifiant qu'on a bien obtenu, de façon totalement automatique, à partir de la topologie du graphe, une visualisation qui rende compte des différents sens de sec et qui les organise en fonction de leur proximité sémantique. On peut en effet regrouper les sens de sec en six acceptions principales, que l'on retrouve sur notre figure. 1. qui manque d’eau : du sable sec (centre de l'espace) 2. maigre, décharné : un homme grand et sec (en haut du quart supérieur gauche) 3. stérile, improductif : rester sec aux questions du professeur (en bas du quart supérieur gauche) 4. qui manque de sensibilité, qui ne se laisse pas attendrir, égoïste : un cœur sec (quart inférieur droit et bas du quart supérieur droit) 5. bref, abrupt, qui manque de douceur : un coup sec (haut du quart supérieur gauche) 6. seul : un atout sec (centre haut) Bien que ces sens soient très différents, ils peuvent être reliés les uns aux autres par une «ressemblance de famille» à la Wittgenstein. Les sens (1), (2) et (3) se rejoignent lorsque sec qualifie de la végétation. De même les sens (3) et (4) sont liés : une personne sèche au sens d’égoïste est quelqu’un de stérile en termes d’empathie et de don de soi. On sent aussi 14 une relation entre le sens (5), qui s’applique à des événements, et le sens (4) qui caractérise un comportement mal dégrossi. L'organisation des différentes cliques au sein de l'espace sémantique rend compte de ces relations. 2.7 Du local au global. Le problème des visualisations obtenues est qu'elles sont locales. On ne peut visualiser le graphe de synonymie qu'au voisinage d'un de ses sommets. Le système de désambiguïsation sur lequel travaille l’une des équipes du LaTTICe est une extension de Visusyn. Pour désambiguïser un mot, il s’appuie d’une part sur l’espace sémantique calculé par Visusyn, et d’autre part sur des calculs de cooccurrences issues de la base Frantext catégorisée. L’une des lacunes de ce système de désambiguïsation réside dans son incapacité à avoir une ‘vue d’ensemble’ (Venant, 2004). En effet, pour analyser l’influence d’un mot sur le sens d’un autre, il faudrait disposer de dimensions plus globales dans lesquelles on projetterait une variété plus diverse de cliques, et non pas des cliques voisines seulement. Autrement dit, si l’on utilise la métaphore de la carte géographique : Visusyn permet de représenter des cartes détaillées d’un petit secteur du graphe des synonymes ; mais il ne permet pas de visualiser des cartes départementales, régionales, nationales, ou mondiales, ce qui est donc une direction intéressante de recherche. L’une des méthodes (B. Gaume, en cours) qui solutionnent ce problème est la définition d’une chaîne de Markov dont les états sont les unités lexicales, et d’observer les phases de la convergence d’une ballade aléatoire vers l’état stationnaire correspondant au processus stochastique – on désignera ce type d’approche par ‘ballade ou exploration aléatoire’ dans le reste du document. Une seconde approche (F. Venant, 2004) consiste à ne considérer que les unités dont la densité dépasse un certain seuil d, et d’extraire les composantes connexes du sous-graphe obtenu, nommées dnoyaux. Ces noyaux sont ensuite enrichis et étiquetés, et jouent le même rôle que les cliques dans le modèle de Ploux et Victorri, car ils ne diffèrent de ces dernières que par la connectivité interne, qui est totale pour les cliques, partielle pour les noyaux. Les définitions et détails de calcul de ces deux procédés ne seront pas abordés ici, mais nous reviendrons sur certaines de leurs propriétés à travers une analyse théorique de la problématique d’exploration de graphe, ainsi que la comparaison de certains résultats. 15 Pour éclairer cette idée du passage du local au global, observons les résultats obtenus par ces méthodes appliquées aux verbes du français : visualisés globalement, ces derniers forment les triangles conceptuels que voici : a – d-noyaux : Figure 4 : Visualisation des noyaux de densité 1 (pour des explications détaillées de cette méthode, voir F. Venant (à paraître) Dans cette visualisation, les verbes s’organisent en un triangle dont on peut identifier les différents sommets. En bas à gauche se regroupent les verbes exprimant une action constructive : produire ou construire mais aussi créer, exciter, attiser. Beaucoup de ces verbes sont réunis dans un noyau assez important étiqueté par faire (ce noyau contient entre autres donner, former, créer, façonner, former…). A l’opposé le sommet du haut est résolument destructeur. Il s’agit d’ôter quelque chose : matière, valeur ou estime. On trouve ainsi : évider, dévaluer, restreindre, avilir, amoindrir, diminuer. L’axe menant d’un pôle à l’autre passe par deux noyaux importants étiquetés par battre et arrêter. Le troisième sommet est consacré à la notion de départ : décamper, partir, se sauver… Le passage de la notion 16 dépréciative à la notion de départ se fait de façon subtile le long de l’arête du triangle : d’amoindrir à s’affaiblir, de décliner à s’amenuiser on finit par disparaître, s’éclipser et puis s’enfuir. On pourra noter que cette visualisation fait apparaître quelques noyaux importants qui résument l’organisation décrite ici. Ce sont amoindrir-diminuer ; battre-rosser, arrêter, passer, faire, exhorter, décamper. Lorsqu’on diminue le seuil de densité, le triangle se resserre petit à petit. Le rapprochement des sommets valorisants et dépréciatifs conduit à la formation d’un gros noyau étiqueté par calmer-faire-moderer. 17 b – Ballade aléatoire : Figure 5 : Triangle conceptuel des verbes du français (200 verbes). Visualisation obtenue grâce à l’exploration aléatoire du graphe des synonymes du français (travaux actuels de B. Gaume). le verbe changer se trouve au cœur de ce triangle conceptuel (marqué d’un cercle, il est approximativement sur l’intersection des 3 bissectrices du triangle). Dans l’angle négatif, on trouve les verbes détruire, briser, casser, défaire, troubler, diminuer, frapper. Le verbe déchirer y est entre couper et blesser. Dans l’angle positif , on trouve les verbes faire, prendre, produire, assembler, agir, écrire … Le verbe « dire » y est entre « composer » et « révéler ». Si l’on remonte depuis l’angle positif vers l’angle négatif en parcourant le côté actif on rencontre les verbes produire, faire, porter, déterminer, entraîner, façonner, exciter, travailler, agiter, frapper, battre, troubler, écraser, briser, détruire. Remarquons que dans les résultats de Venant, battre joue aussi le rôle d’interface entre deux angles productif et destructif. 18 Il ne s’agit pas ici d’analyser en détail cette méthode d’exploration aléatoire, ni ses résultats, mais de cerner la problématique du passage du local au global, et de remarquer certaines régularités qui semblent être robustes par rapport à la méthode d’exploration envisagée : les axes productif/positif, destructif/négatif, évasif sont communs à deux méthodes faisant appel à des approches indépendantes; et d’autre part, certains verbes s’articulent logiquement par rapport à notre intuition, et ne varient pas de position d’une méthode à l’autre. Ce caractère robuste et interprétable tend à mettre en évidence une propriété forte du lexique français, qui pourrait donc avoir un fondement cognitif. Telle est l’hypothèse sous-jacente à mon stage de DEA, dont la problématique est donc l’exploration globale du graphe lexical, en partant des résultats locaux obtenus par Visusyn. Nous verrons que des indices théoriques et l’expérimentation de deux méthodes renforcent l’hypothèse d’une organisation cognitive hiérarchique du lexique, observable à différentes échelles par une cartographie en nombre limité de dimensions. 19 3 - Analyse théorique Grâce au développement de nouvelles technologies informatiques, les recherches en traitement automatique des langues s’appuient de plus en plus sur des ressources lexicales à grande échelle (corpus, ontologies, dictionnaires électroniques …). Ces ressources permettent d’obtenir de façon automatique des informations sémantiques sur les mots et les relations qu’ils entretiennent entre eux. Ces relations peuvent être représentées naturellement par des réseaux lexicaux, ou graphes (voir 2.2). Les sommets en sont les mots d’une langue, les arcs ou arêtes (respectivement orientés, non orientées) représentent une relation particulière, en l’occurrence dans cette étude, la relation réflexive de synonymie. Nous verrons que ces réseaux lexicaux partagent avec d’autres graphes de terrain (réseaux sociaux, Internet, réseaux électriques, réseaux de neurones,…) une structure et une topologie très particulière, dite ‘petit monde’ , ou small-world en anglais. De plus, nous pensons que la structure particulière de ces graphes est porteuse d'une information très riche sur les phénomènes sous jacents. Avoir accès à la structure d'un graphe lexical permettrait non seulement d’avoir une meilleure connaissance de l'organisation du lexique mais aussi d'automatiser l'accès à cette connaissance, ce qui peut être fondamental pour des systèmes de désambiguïsation automatique comme le nôtre. C'est pourquoi nous voulons « géométriser » ces graphes, c'est à dire les plonger dans un espace bi ou tri dimensionnel qui rende compte de leur topologie. Nous verrons par ailleurs que cette direction de recherche est porteuse de profondes implications pour les sciences cognitives. 3.1 Graphes petit monde Les graphes traditionnellement étudiés sont soit complètement réguliers soit complètement aléatoires. Dans un graphe régulier, chaque sommet a le même nombre d’arcs qui joignent un petit nombre de voisins dans un motif très clusterisé. Dans un graphe aléatoire chaque sommet est connecté arbitrairement à des sommets qui eux-mêmes se connectent aléatoirement à d’autres sommets. L’introduction des graphes aléatoires par Paul Erdös a permis de faire considérablement avancer l’étude des grands graphes (graphes présentant plusieurs milliers de sommets). Cependant il reste très insatisfaisant de modéliser un réseau réel par un graphe aléatoire. En fait, la plupart des réseaux réels sont intermédiaires entre les réseaux ordonnés et les réseaux aléatoires. C’est pourquoi Watts et Strogatz (1998) ont 20 cherché un modèle qui leur corresponde mieux. Ils ont ainsi défini ce qu’on appelle les «petits mondes » et ont déterminé des paramètres permettant de les caractériser. Le concept de petit monde formalise le fait que même quand deux personnes n’ont aucun ami en commun, il n’y a qu’une petite chaîne d'amis qui les séparent. Ramené aux graphes, ce résultat se traduit par le fait que la distance entre deux sommets quelconques est faible en moyenne. Ce phénomène est surprenant mais non caractéristique d’une organisation. Erdös et Reniyi (1960) ont en effet montré qu'on le trouve dans les graphes aléatoires. Il fallait donc pousser un peu plus avant pour caractériser les graphes de terrain. Ce qui est donc étonnant, ce n’est pas tant que le monde soit petit, mais qu’il le soit bien que chacun d’entre nous possède un groupe de connaissances très resserré, dont la taille est faible par rapport à la population totale, et au sein duquel les gens ont de fortes chances de se connaître entre eux. Formellement, cela se traduit par le fait que dans le graphe correspondant, si A est relié à B et B est relié à C, alors A a plus de chance d’être relié à C qu’à n’importe quel autre sommet du graphe. C’est ce qu’on appelle le clustering. Les graphes aléatoires sont faiblement clusterisés. Les graphes réguliers le sont fortement. Ce qui va caractériser nos graphes de terrain, et en faire quelque chose d’intermédiaire entre les graphes réguliers et les graphes aléatoires, c’est qu’ils sont peu denses et possèdent à la fois une distance moyenne courte et un fort taux de clustering. C’est pourquoi Watts et Strogatz ont choisi pour caractériser les « petits mondes » les deux paramètres L et C : • L, distance moyenne entre deux sommets, est un indice de la connectivité globale : L est donc très grand pour un graphe régulier et très petit pour un graphe aléatoire. • C, coefficient de clustering, est un indice de la richesse de la cohésion locale. Il est défini de la manière suivante : si un sommet S a k voisins alors il peut exister au maximum n= k(k-1)/2 arcs entre ces k sommets. Soit m le nombre d’arcs qu’il y a effectivement entre ces k sommets alors le coefficient de clustering CS associé au sommet S est m/n. Le coefficient global C est à égal à la moyenne des CS quand S parcourt l’ensemble des sommets du graphe. Pour savoir si on a affaire à un graphe de type petit monde, on compare les coefficients C et L à ceux d’un graphe aléatoire ayant le même nombre de sommets (n) et le même nombre moyen d’arcs par sommets (k). Pour un graphe petit monde on a C>>C aléatoire.k/n alors que L est du même ordre de grandeur que Laléatoire. ln(n)/ln(k) 21 3.2 Graphes sans échelle. Les travaux de Watts et Strogatz ont attiré l'attention sur les graphes de terrain. On a cherché à mieux les caractériser encore. Barabasi et al. (1999) ont ainsi montré qu’ils font partie d’une autre classe très intéressante de graphes, les graphes sans échelle. Cela signifie que la répartition des degrés des sommets suit une loi de puissance : la probabilité P(k) qu’un sommet du graphe considéré aie k voisins décroît en suivant une loi de puissance P(k)=k - où est une constante caractéristique du graphe, alors que dans le cas des graphes aléatoires, c’est une loi de Poisson qui est à l’œuvre. La structure sans échelle se traduit donc par la présence d'un très grand nombre de sommets de faible degré et d'un nombre faible mais non négligeable de sommets de très haut degré. Ceci donne aux graphes sans échelle une structure qui peut être vue comme hiérarchique : localement, des sommets de très haut degré sont reliés à des sommets de moins haut degré, eux-mêmes reliés à des sommets de degré encore moindre, et ainsi de suite jusqu'à la masse des sommets de très faible degré, ressemblant en cela à la structure d’un arbre dont la racine est du plus haut degré, et dont les branches se développent dans un nombre décroissant de directions, jusqu’aux feuilles qui seraient reliées à un seul sommet parent, mais dont le nombre aurait cru exponentiellement. Les lois de puissance sont depuis considérées par de nombreux analystes de graphes comme la signature de l'activité humaine. Ces premiers travaux ont suscité l’enthousiasme des théoriciens et beaucoup d’études ont été menées pour analyser les graphes divers des sciences sociales ou de la biologie. Cependant, Gaume (2003) est le premier à mettre en évidence la structure de petit monde hiérarchique des graphes lexicaux. L’idée qui sous tend ses travaux est d’exploiter cette structure pour accéder de manière complètement automatique à une meilleure connaissance de l’organisation du lexique. C’est dans le même esprit que nous travaillons. 3.3 Le petit monde hiérarchique de la synonymie Nous avons introduit le graphe du dictionnaire des synonymes G, et sa version connexe GC, en 2.2. Ce dernier contient 44877 unités lexicales, et 195794 relations de synonymie, sur un maximum possible de relations de plus d’un milliard (44877 * 44876 / 2). Il s’agit donc bien d’un graphe peu dense, c’est à dire qu’il a peu d’arcs relativement au nombre de ses sommets, et son degré moyen est 8.1. Le calcul des indicateurs L et C de Watts 22 et Strogatz le classe dans la catégorie des petits mondes (Venant, 2004). Nous avons de plus vérifié que la distribution des degrés (figure 6) suit une loi de puissance, ce qui implique que nous avons affaire à un petit monde hiérarchique ; et c’est donc cette structure de graphe petit monde sans échelle qu’il va nous falloir exploiter dans la mise en place de nos outils de visualisation. L’objectif est double puisque l’algorithmique des petits mondes en est encore à ses prémices. Nos outils pourraient dépasser le cadre du lexique et s’appliquer à d’autres graphes des sciences humaines, pour peu qu’ils soient eux aussi des graphes petit monde sans échelle. Figure 6 : Le nombre de synonymes suit une loi de puissance, d’où la structure hiérarchique du graphe des synonymes. 3.4 Cliques, gangs et clusters Nous avons explicité le graphe sur lequel nous allons travailler, et à partir de ce dernier, nous avons défini un espace métrique de cliques (cf. 2.2, 2.3 et 2.4). Nous avons vu que les cliques modélisent le sens et sont disposées dans un espace à plusieurs dimensions, où la distance qui les sépare correspond à la proximité sémantique. Il reste à définir maintenant ce que l’on entend par échelle. Partons de la représentation la plus fine : on visualise des sens 23 précis, c’est à dire des cliques, mais on ne peut en observer que quelques centaines au maximum. Ensuite, au fur et à mesure que l’on augmente l’échelle, on devrait plutôt voir des groupes de cliques très proches, c’est à dire des régions denses dans l’espace des cliques, dont l’équivalent dans le graphe des synonymes est un sous-graphe très connecté, non pas à 100% comme les cliques, mais suffisamment pour être porteur de sens. De telles régions seront appelées clusters, et se caractérisent par leur connectivité, coefficient de clustering, ou cohésion, trois synonymes désignant le rapport du nombre de connexions sur le maximum possible, égal à n * (n-1) / 2 pour un cluster contenant n sommets. D’autres critères pour caractériser un cluster sont la distance moyenne entre ses éléments, ou alors la distance maximale. Le besoin de trouver les clusters dans un graphe dépasse largement le seul spectre de cette étude, allant de la recherche quantitative en finance (analyse des cours boursiers fortement corrélés pour construire des produits financiers sûrs), jusqu’à la génétique (détection de groupes fonctionnels dans un code génétique). D’où une littérature abondante sur les méthodes de clustering (l’article de Zhao et Karypis présente globalement l’avancement des travaux en ce sens), et une multitude de logiciels dédiés à cette tâche. Des tests ont été menés grâce au logiciel METIS, développé par George Karypis à l’université du Minnesota, et qui s’est avéré efficace pour des études de grands réseaux computationnels du type petit monde. Les résultats étaient insatisfaisants et nous ont poussé à rechercher d’autres approches plus spécifiques à notre réseau lexical. En fait, la plupart des méthodes génériques partitionnent le graphe, parfois de manière hiérarchique, et créent des frontières en fonction des dimensions les plus pertinentes pour séparer des groupes. Or, cette création de frontières n’est pas adaptée à l’hypothèse de continuité de sens dans notre modèle ; et d’autre part, il est probable que la visualisation multi-échelle de notre graphe nécessite un réagencement des frontières à chaque niveau de zoom, ce que ne permettent pas les algorithmes classiques de clustering. Une autre possibilité de définition de zones denses avait été explorée, consistant à définir un s-gang comme un ensemble d’unités lexicales dont la cohésion dépasse le seuil s, et maximal pour l’inclusion, c’est à dire que l’on ne peut étendre à d’autres unités et conserver une cohésion supérieure à s. Ainsi, un 1-gang est une clique, un s-gang de seuil moindre contient plus d’éléments voisins les uns des autres, sans pour autant qu’ils soient connectés à 100% ; enfin, le seul 0-gang est le graphe de synonymes tout entier. Cette définition a l’avantage de compléter le modèle des cliques de manière cohérente et continue, mais elle se 24 heurte à la difficulté du calcul des gangs, compte tenu de l’explosion exponentielle du nombre de gangs potentiels à explorer. Devant le nombre de pistes différentes, et voulant éviter l’introduction de seuils spécifiques à une approche particulière, nous avons choisi la définition de la notion d’échelle qui soit la plus simple et la plus indépendante des choix techniques : une échelle est la donnée du nombre de points à visualiser, et d’un domaine à étudier, soit dans le graphe des synonymes (GC), soit dans l’espace des cliques. Ainsi, on définit de manière précise et objective l’objectif que doivent atteindre nos algorithmes, en leur laissant la liberté de définir les seuils appropriés. Enfin, il reste une question à soulever : à supposer que l’on ait repéré une région dense dans l’espace des cliques à une certaine échelle, comment la projeter géométriquement ? En choisissant le point le plus représentatif ? ou en considérant l’ensemble de ses points ? Dans le premier cas, un cluster est géométriquement identique à une de ses cliques centrales 5. Dans l’autre, on pourrait choisir de calculer le centre de gravité de toutes ses cliques, mais cette méthode n’a pas été explorée faute de temps, et ne correspond pas à l’objectif visé : identifier le cluster par un point géométriquement représentatif. Pour comprendre ce problème, il faut utiliser l’analogie de la carte géographique : pour représenter la région Rhône-Alpes, faut-il utiliser les coordonnées de Lyon, le centre de gravité de toutes les localités, ou une position géométriquement centrale? Dans tous les cas, ce qu’il est essentiel de remarquer est qu’un cluster peut être représenté par un point dans l’espace des cliques, puisqu’il dépend du même système de coordonnées (une dimension par unité lexicale). Lorsqu’on appréhende les clusters en tenant compte de toutes les cliques qu’ils contiennent, on utilise l’analyse des correspondances pour les visualiser en 2 ou 3 dimensions, ce qui donne de bons résultats à condition que les clusters aient des dimensions communes. Si on choisissait de les représenter par leurs centres, donc par des cliques, on aurait à calculer une distance plus fidèle à la notion de proximité mais fastidieuse en temps de calcul (comme on le verra en 4.1, la distance du 2 est efficace pour mesurer la proximité entre cliques voisines, mais lorsque ces dernières sont éloignées, elle est très peu discriminante), puis il faudrait faire appel à d’autres outils mathématiques de projection (multidimensional scaling : ACP à partir d’une matrice de Le concept de centre d’un cluster n’a pas été défini jusqu’ici, car il n’est utilisé dans cette étude que pour une classe particulière de clusters : les boules centrées sur une clique, qui seront discutées plus loin. 5 25 distances). Cette deuxième possibilité semble plus cohérente avec le modèle théorique, mais étant moins immédiate, n’a pas été suffisamment explorée dans le temps imparti par le DEA, il s’agit néanmoins d’un point essentiel sur lequel il faudra revenir ultérieurement. Dans cette étude, de bonnes visualisations ont été obtenues en considérant un cluster comme un point de l’espace des cliques, dont les coordonnées sont définies par celles des cliques de la région en question : pour la dimension associée à un synonyme i, 1 si l’une des cliques de la région contient ce synonyme, 0 sinon. 3.5 Etiquetage d’un cluster Résumons nous. Nous souhaitons visualiser l’espace des cliques engendré par le graphe des synonymes, à différentes échelles. Les cliques modélisent un sens précis de la langue française, que nous pouvons assimiler à des quartiers ou à des bourgades dans la métaphore d’une carte géographique. Nous avons défini la notion de cluster à partir d’un ensemble de cliques très proches les unes des autres, et nous avons vu qu’on peut situer un tel ensemble dans la même base de coordonnées que les cliques : nous avons donc affaire à des villes, des pays ou des continents, selon la taille du cluster. Enfin, nous avons choisi de définir une carte par son domaine, ainsi que le nombre de localités que l’on souhaite y voir apparaître. Nous avons donc formalisé le cahier des charges du parfait explorateur du graphe des synonymes et de l’espace des cliques, auquel il ne reste plus qu’à regrouper les positions géographiques en quartiers et en villes pour tracer des cartes. Mais avant de voir quelques algorithmes permettant ce clustering, il reste à lui préciser comment il va nommer ces clusters. Pour les cliques, l’ensemble des synonymes peut être affiché, il n’y a donc pas de problème pour les plus petites localités; mais pour un grand cluster de plus de 1000 unités lexicales, cela devient impossible. Le principe adopté est le suivant : parmi les synonymes membres d’un cluster, il s’agit de choisir ceux qui couvrent le plus d’autres membres par leurs synonymes, et qui rayonnent le moins vers des unités qui n’appartiennent pas au cluster, et il s’agit aussi de choisir le moins de termes pour recouvrir l’ensemble du cluster. Les notions de rayonnement et de couverture, par rapport à un cluster, sont définies comme suit : la couverture d’une unité est le nombre de ses synonymes appartenant au cluster ; son rayonnement est le nombre de ses synonymes qui n’y appartiennent pas. Pour une unité donnée, la somme de la couverture et du rayonnement et donc égale au nombre total de ses synonymes. 26 A partir de là, plusieurs stratégies sont possibles : choisir ceux qui recouvrent le plus parmi ceux qui rayonnent le moins, ou l’inverse ; sélectionner les termes simultanément ou un par un ; accorder des coefficients à chaque critère ; etc. A ce moment, nous n’avons pas eu l’occasion de comparer différentes méthodes, et nous sommes contentés d’implémenter un algorithme satisfaisant : choisir l’unité qui rayonne le moins vers l’extérieur parmi celles qui recouvrent le plus l’intérieur du cluster ; puis recommencer en ignorant les unités qui ont déjà été recouvertes, jusqu’à la couverture de l’ensemble du cluster ou l’atteinte d’une limite de 15 unités. 3.6 Remarques sur le modèle Le modèle défini par le chapitre précédent, ainsi que l’extension introduite le long de cette analyse théorique est discutable sur plusieurs de ses modalités, en particulier : la distance utilisée; la méthode de projection sur les facteurs les plus pertinents ; la dénomination d’une région. Les différents choix qui sous-tendent cette étude sont basés soit sur la capacité de calcul des machines, soit sur des justifications théoriques plus ou moins ancrées dans la linguistique et les sciences cognitives, soit sur les résultats empiriques auxquels ils conduisent. En réalité, il s’agit d’une première tentative qui a l’avantage de partir d’un modèle formel et d’arriver jusqu’à des résultats concrets pour l’étude cognitive de la langue. La plus grande partie de ce travail consiste donc en développements informatiques et en recherche de visualisations automatiques de la cartographie du sens ; car il s’agit avant tout de montrer que c’est possible. Ultérieurement, les différentes modalités du modèle devront être réévaluées pour donner une cohérence théorique prenant en considération la théorie des graphes, les fondements mathématiques des outils statistiques d’analyse des données ; et les concepts de la linguistique cognitive. 27 4 – Ballades aléatoires dans le monde hiérarchique de cliques Nous avons adapté le principe d’exploration aléatoire au modèle décrit dans les chapitres précédents (Ballade aléatoire dans un petit monde lexical, B. Gaume, 2004). Ce chapitre présente notre démarche et ses résultats. 4.1 Le monde hiérarchique de cliques Revenons au modèle de Ploux et Victorri, nous avons vu que ce dernier considère le graphe connexe GC = (S’,V’) où S’ est l’ensemble des unités lexicales du dictionnaire, et V’ l’ensemble des arêtes reliant deux unités si elles sont synonymes (cf 2.2). Ce graphe contient des cliques, que l’on peut représenter par des points dans un espace métrique, et on sait que la distance la plus satisfaisante est celle du 2, qui tient compte de la rareté des unités lexicales et de la taille des cliques, en plus du nombre d’éléments communs. On calcule toutes les cliques à partir de ce graphe GC, qui sont au nombre de 107384. Considérons une clique c1, on peut calculer sa distance ( 2 ) à n’importe quelle autre clique. Mais on remarque que si cette distance discrimine correctement les cliques lorsque celles ci ont un ou des éléments communs avec c1, elle n’est plus aussi pertinente lorsque les deux cliques n’ont aucune unité en commun, car elle ne considère alors que la rareté des composants et leur nombre. Ainsi, dans le graphe de la figure 7, la clique {u 1 , u2 , u3} est à égale distance de {u4 , u5 , u6} et de {u7 , u8 , u9}, bien que u2 et u4 soient synonymes, car les deux dernières cliques sont strictement identiques en taille et en rareté de leurs éléments dans l’ensemble des cliques. u1 u2 u3 u4 u5 u6 u7 u9 u10 u8 Figure 7 : Exemple de graphe Cette faiblesse de la distance du 2 ne pose pas de problème pour les visualisations locales obtenues jusqu’à présent à l’aide de Visusyn, mais elle devient un handicap lorsqu’on essaie de passer à un niveau plus global. L’une des manières de contourner ce problème consiste à ne considérer cette distance qu’entre cliques qui contiennent un synonyme 28 commun. Ce choix a l’avantage d’accélérer les calculs, et permet la construction d’un nouveau graphe symétrique valué Gcliques = (S’’,V’’), où S’’ représente l’ensemble des cliques, V’’ l’ensemble des relations de voisinage entre ces dernières (arêtes) – deux cliques étant voisines si elles possèdent un élément commun - , chaque arête étant munie par ailleurs d’une longueur, c’est à dire la distance du 2 entre les deux cliques voisines. En conséquence de cette définition de voisinage, chaque clique est voisine d’elle même : V’’ contient donc toutes les arêtes reliant une clique à elle même, dont la distance associée est naturellement nulle. On verra que cette propriété de réflexivité du graphe Gcliques jouera un rôle technique par la suite. Maintenant, en plus de la distance du 2 entre deux cliques voisines, on peut définir la distance du chemin le plus court entre deux cliques quelconques comme étant la somme minimale de la longueur des arêtes qui permettent de passer d’une clique à l’autre (cf Labelle, Théorie des graphes, pour des études détaillées des graphes valués symétriques et réflexifs, et des algorithmes du chemin le plus court). On remarque alors que ce chemin le plus court existe toujours (Gcliques est connexe), car il existe toujours un chemin dans le graphe connexe des synonymes, et chaque synonyme est au moins présent dans une clique. Enfin, puisqu’une clique a plus de voisines qu’un synonyme, et que le chemin le plus court entre deux cliques contient au maximum autant de pas que le chemin le plus court entre deux synonymes contenus dans ces cliques, Gcliques a beaucoup de chances d’avoir un L très petit, donc d’être un petit monde (dans la mesure où il n’est pas aléatoire). Néanmoins, ne disposant pas de définition formelle de ce qu’est un graphe valué petit monde, nous nous contenterons de remarquer qu’il a un L petit, et qu’il est muni d’une structure hiérarchique (étude de la distribution du nombre de voisins et autres indices repérés en chapitre 5) ; d’où le titre de cette rubrique : le monde hiérarchique de cliques. Remarquons à ce stade que le graphe Gcliques est plus ‘artificiel’ que GC, car si ce dernier contient des synonymes reliés entre eux, Gcliques est un réseau de cliques, eux mêmes composés de synonymes, ce qui paraît au premier abord trop compliqué pour être un bon modèle. Pour l’instant, nous avons justifié cette construction par la faiblesse de notre distance initiale entre cliques, mais notre motivation est avant tout cognitive : il pourrait s’agir d’une approximation plus fidèle de la notion intuitive de tissu associatif entre les différents sens de la langue. En effet, une clique modélise un sens précis bien plus qu’un mot sec, qui pris seul, contient une variété de potentiels de sens. De plus, dans le graphe GC, les arêtes sont toutes identiques en longueur : deux mots sont synonymes ou ne le sont pas ; par contre, dans Gcliques , les relations sont quantifiées, ce qui permet une meilleure représentation de la proximité plus 29 ou moins grande qui existe entre deux sens. Enfin, les deux graphes GC et Gcliques pouvant être déduits l’un de l’autre, étudier le graphe Gcliques ne néglige aucune information contenue dans GC, et les résultats de cette étude montrent qu’il s’agit d’une stratégie fructueuse. Ainsi, si les méthodes de passage du local au global citées comme exemple en 2.7 partaient du graphe GC, celle de ce chapitre utilise le graphe Gcliques. En pratique, deux versions de ce graphe ont été calculées : la première à partir du graphe global GC (44877 synonymes, 195794 relations de synonymie) ; et une seconde à partir de la restriction de GC aux verbes GCVerbes (9043 verbes, 50959 relations de synonymie). On dispose donc de deux graphes valués reliant les cliques : Gcliques (107384 cliques) ; et Gcliques-verbes (27712 cliques). 4.2 Principe On dispose des graphes Gcliques et Gcliques-verbes. Considérons un explorateur qui se trouve à un sommet du graphe (une clique c 0 par exemple) à un instant t. On suppose que ce voyageur peut se balader aléatoirement en parcourant les arêtes du graphe, avec une probabilité de passer de c0 à c1 qui varie inversement à la distance entre c 0 et c1. Bien sûr, si c0 et c1 n’ont aucune unité lexicale en commun, aucune arête ne les relie, la probabilité de passer de l’une à l’autre est donc nulle. Par ailleurs, on veut que cette probabilité soit nulle pour une distance tendant vers l’infini, et maximale pour une distance nulle, c’est à dire que le plus probable pour notre explorateur est de rester au même endroit (rappelons que le graphe Gcliques est réflexif). Il existe différentes manières de définir de telles probabilités, dont deux ont été essayées et ont donné des résultats très similaires, prouvant la robustesse de ce modèle d’exploration stochastique par rapport au choix des probabilités de transition. Les deux fonctions testées sont : a - p(c0 , c1) = . ( 1 / (1 + distance(c0 , c1)) ) b – p’(c0 , c1) = . exp( - distance(c0 , c1) ) Dans les deux cas, est un coefficient multiplicateur permettant d’avoir une somme des probabilités de transition égale à un. Les résultats présentés ici utilisent la distribution des probabilités de transition p(c0 , c1) = . ( 1 / (1 + distance(c0 , c1)) ) ; mais pour simplifier, il suffit de se souvenir que notre explorateur voyage d’un point à l’autre avec d’autant plus de probabilité que la distance est courte. 30 Notre voyageur situé en c0 à l’instant t0 peut donc explorer le graphe ou rester au même sommet selon des probabilités bien définies. Ce comportement modélise à notre avis la notion de glissement possible entre les variations différentes d’un sens. De plus, à chaque étape (nombre entier de pas effectués depuis t 0), le comportement de l’explorateur est indépendant de son passé, et ne dépend que de sa localité actuelle, il décrit donc ce que l’on appelle une chaîne de Markov. Grâce à la connexité et la réflexivité du graphe Gcliques, Deux caractéristiques de cet outil mathématique sont précieuses pour nous : (i) quelque soit le point de départ de notre explorateur, que ce point de départ soit défini par un sommet particulier ou par des probabilités, et à chaque instant , on peut calculer les probabilités de présence de cet explorateur dans chacun des sommets; de plus, (ii) ces probabilités dépendent de moins en moins de l’état de départ, et convergent vers un état stationnaire (probabilités fixées pour chaque sommet), indépendant du point de départ. En d’autres termes, cet outil permet de suivre la trace de l’explorateur, et garantit que si on le laisse se balader aléatoirement assez longtemps, on n’a pas besoin de connaître son point de départ pour connaître les régions ou il doit se trouver, et dans notre cas, le calcul de cet état stationnaire montre qu’il se trouve dans un sommet avec une probabilité d’autant plus forte si ce sommet possède beaucoup de voisins très proches, ce qui correspond à l’intuition naturelle qu’on pourrait avoir au sujet de notre explorateur, qui devrait se trouver dans les régions les plus denses, plus souvent que dans les villages perdus, compte tenu de son caractère aléatoire, n’appréciant guère la beauté de la rareté. Revenons à la problématique définie au chapitre 3 : visualiser l’espace des cliques à différentes échelles. On a vu que le moyen adopté pour définir une visualisation était la donnée d’un domaine et du nombre N de localités à afficher. Cela revient dans le cadre de notre modèle stochastique à choisir des sommets qui pourraient être le point de départ de notre explorateur, et à sélectionner les N sommets où il se trouve avec le plus de probabilité après pas. Pour reprendre l’appellation introduite par Gaume, qui a utilisé le même principe sur le graphe des synonymes, on appellera la sélection des N cliques aux probabilités les plus importantes après pas, au départ d’un liste de cliques E, munie chacune d’une même probabilité : Extraction(N,,E). Si E contient tous les sommets du graphe, c’est à dire que l’explorateur part de n’importe quelle clique de manière équiprobable, on appellera la sélection ainsi obtenue extraction universelle, qui correspond au cas particulier Extraction(N,,), désignant l’ensemble de toutes les cliques. On répond donc au cahier 31 des charges du commanditaire de l’exploration du graphe des cliques, avec une réserve cependant, ce dernier n’est pas censé spécifier de paramètre . En pratique, on choisit ce dernier de manière à laisser le temps à l’explorateur de se stabiliser sur les régions denses, sans trop s’éloigner du domaine défini par E, car rappelons que pour assez grand (>60), l’état de l’explorateur ne dépend plus de ses points de départ. Comme indiqué en 3.6, une deuxième couche d’analyse théorique et expérimentale pourrait permettre d’automatiser le choix de ; au niveau de cette étude, nous focaliserons notre attention sur les résultats et leur interprétation cognitive, ainsi que les applications qu’ils pourraient promettre. 32 4.3 Résultats a – Extractions universelles Figure 8 : Extraction ( 350 , 11 , ) : Les cliques les plus fréquentes correspondent aux adjectifs, néanmoins, quelques continents sont encore visibles… Figure 9 : Extraction ( 350 , 30 , ) : A gauche, les deux premières composantes principales montrent que seules quelques cliques de N3 sont encore présentes, tout le reste correspondant aux adjectifs. A droite, on a une meilleure visualisation de ce continent d’adjectifs grâce aux deuxième et troisième composantes principales. 33 On voit sur les schémas précédents que l’exploration aléatoire du graphe des cliques met en évidence les 5 régions les plus denses de ce graphe : trois zones correspondant aux concepts d’aspect (N1), d’assemblage (N2) et d’effervescence (N3) ; une zone caractérisée par les cliques du verbe prendre (V); et enfin, un continent d’adjectifs, qui contient beaucoup plus de localités que les autres zones denses. Cela signifie que notre explorateur aléatoire du graphe Gcliques passe la majeure partie de son temps à se balader dans les sens adjectivaux, nombreux et proches les uns des autres, plus que tous les autres groupes de sens. Si on le laisse se balader plus longtemps que 30 pas de temps, il n’atteint plus les autres régions denses que très rarement, et on observe donc que les adjectifs si on sélectionne les cliques les plus fréquentes dans sa balade. Finalement, compte tenu de la construction théorique de cette méthode, et à la lumière de ces résultats, on peut déduire que c’est une bonne méthode de détection de zones denses dans un domaine, mais qu’elle se stabilise essentiellement sur une petite région, au lieu de sélectionner une variété de localités recouvrant tout le domaine. C’est comme si notre explorateur, auquel on aurait demandé d’explorer la France, finissait par passer tout son temps entre Paris et ses banlieues, et oubliait de nous signaler Lyon et Marseille. C’est en effet ce qu’on observe, puisque les visualisations montrent les régions les plus denses et leur voisinage seulement. En l’occurrence : les adjectifs (positifs quantitatifs, positifs qualitatifs, et quelques négatifs) ; et quelques voisinages remarquables comme celui de prendre ou du concept d’effervescence. Si cette cartographie ne correspond pas à ce qu’on attendait, elle a du moins le mérite de dresser un portrait optimiste de la langue française, qui semble accorder plus de possibilités de variations sémantiques, donc plus de richesse, aux adjectifs positifs, en plus des concepts de description (N1), d’union (N2) et d’effervescence (N3). Dans une étude ultérieure, il faudra chercher à améliorer le processus d’exploration ou de sélection, de sorte à exclure une région une fois repérée comme dense, et partir ainsi à la recherche de la seconde région la plus dense, et ainsi de suite, c’est ce principe qui est à l’œuvre dans la seconde méthode présentée dans ce document (chapitre 5). Mais avant de passer à cette seconde approche, observons quelques résultats intéressants fournis par notre explorateur aléatoire, dont on peut dans certains cas compenser la fâcheuse tendance à ne sélectionner que les banlieues de la plus grande capitale, en lui demandant un très grand nombre de localités. Aux chapitres 6 et 7, ces visualisations seront analysées, avec celles du chapitre suivant, dans une perspective cognitive. 34 b – Continent des verbes Figure 10 : Extraction ( 350 , 45 , Verbes) : A gauche, les deux premières composantes principales montrent des axes conceptuels des verbes du français ; à droite, une vue en 3D montre des séparations entre 3 régions : donner de l’information ou de l’énergie, respectivement en jaune et en vert (dire, provoquer, exciter, créer, etc.) ; prendre – recevoir (en bleu); détruire (en rouge) Figure 11 : Extraction ( 1000 , 45 , Verbes) : En sélectionnant 1000 verbes au lieu de 350, on voit apparaître l’axe évasif. Ainsi, avec les deux axes productif (provoquer) et destructif (détruire), on retrouve le triplet conceptuel observé par Gaume (figure 5) et Venant (figure 4) 35 5 – Boules les plus denses dans le monde hiérarchique de cliques Contrastant avec le processus stochastique présenté dans le chapitre précédent, qui est une méthode de sélection des cliques à afficher, ce chapitre présente une méthode de calcul de clusters (cf. 3.4). Il s’agit cette fois de mesurer le nombre de cliques à une distance r à la ronde, à partir d’une clique centrale c0; autrement dit, de mesurer la densité en cliques de la boule centrée sur c0 . Ensuite, les boules les plus denses sont sélectionnées et affichées en utilisant les mêmes méthodes de projection que précédemment. Cette méthode, qui ne nécessite pas l’introduction du graphe des cliques (cf 4.1), a été exclusivement testée sur l’espace des cliques associées au graphe de synonymie des verbes (GCVerbes), dans une version encore loin de répondre entièrement aux objectifs fixés au chapitre 3. Cependant, elle est présentée ici pour conférer à son principe une validité empirique, renforcée par des mesures cohérentes avec ce que l’on sait des réseaux géographiques réels et de notre monde hiérarchique de cliques. 5.1 Calculs préliminaires Tout d’abord, nous avons calculé, pour chaque rayon r compris entre 0.01 et 0.3 (avec des sauts de 0.01), et pour chaque clique c 0, le nombre de cliques contenues dans la boule centrée sur c0 et de rayon r; par conséquent, à rayon fixé, nous avons associé à chaque clique une densité, correspondant au nombre de cliques contenues dans son voisinage. Ce calcul nous a conduit aux constatations suivantes : - En dessous de r = 0.01, aucune clique ne possède de voisine suffisamment proche pour être incluse dans sa boule. - Pour r variant entre 0.03 et 0.1, on observe une forte progression de la taille de la boule la plus dense (annoncer; dire; déclarer; exposer; indiquer; montrer; révéler; signaler; signifier), figure 12. - Enfin, pour ces dernières valeurs de r, la distribution des densités suit approximativement une loi de puissance, au sens ou le nombre de cliques d’une densité donnée décroît en puissance. (figure 13). 36 Figure 12 Figure 13 : la distribution des densités suit une loi de puissance Rappelons que notre souci est de choisir un rayon en fonction du nombre de boules que l’on veut sélectionner, et du domaine d’étude, en l’occurrence, l’espace des cliques des verbes du français. Cette méthode n’a pas été testée sur l’espace global ou sur des régions spécifiques, faute de temps. A ce stade, nous n’avons pas encore trouvé d’algorithme théoriquement justifié pour sélectionner le rayon approprié à l’obtention d’une visualisation satisfaisante. Mais les calculs préliminaires indiquent clairement les conditions que doit valider une stratégie de choix de ce rayon. Premièrement, elle doit classer les cliques en fonction de la proximité de leurs voisines et non pas de leur nombre, même si le nombre de voisines (cliques contenant des synonymes communs, plus proches en général que les autres) est souvent une cause de leur proximité. Deuxièmement, elle doit tenir compte du fait que la 37 distribution des densités suit une loi de puissance, ce qui implique qu’il existe une clique de taille maximale, et que le nombre de cliques de densité moindre va augmenter en puissance pour atteindre rapidement son maximum, correspondant à une densité égale à 1 : en d’autres termes, il faut savoir que si la clique la plus dense est centre d’une boule contenant N autres cliques, un nombre limité d’autres cliques auront une densité du même ordre de grandeur que N, ensuite les centres moins denses deviendront de plus en plus nombreux, et leur densité va baisser considérablement, il faudra donc arrêter la sélection des cliques avant cette explosion du nombre de boules, dont la densité sera beaucoup plus petite que N, quitte à sélectionner moins de cliques que prévu par le paramètre d’échelle. On aurait pu s’attendre à cette propriété si on avait considéré la métaphore géographique : si on classe les localités par densité, il est connu que la distribution de leur population suit aussi une loi de puissance (Narushige SHIODE & Michael BATTY, Power Law Distributions in Real and Virtual Worlds). De manière plus claire, si on classe les localités géographiques françaises par population, Paris devrait apparaître en premier, suivie de quelques grandes villes, puis quelques dizaines de villes moyennes, puis des centaines de petites villes, puis par des milliers de villages, des dizaines de milliers de bourgades, et peut-être des centaines de milliers de maisons isolées (boules de densité égale à 1). 38 5.2 Test Figure 14 : Axes conceptuels obtenus par la visualisation des 100 boules les plus denses dans l’espace des cliques associé au graphe de synonymie des verbes du français (r=0,05). La première remarque concernant cette visualisation, c’est qu’elle contient quelques boules (ou clusters de cliques) beaucoup plus denses que les autres, ce qui explique les pôles que l’analyse en composantes principales tend à éloigner du centre, constituant ainsi des axes: - la boule centrée sur ‘dire;donner;exposer;indiquer;montrer;révéler’ contient 363 cliques. - la boule centrée sur ‘déterminer;faire;pousser;produire;provoquer;soulever’ : 257 cliques - la boule centrée sur ‘abattre;anéantir;briser;cesser;détruire;supprimer’ : 215 cliques. - 5 boules contiennent entre 100 et 200 cliques. - 10 boules contiennent entre 50 et 100 cliques. - Les 82 boules restantes contiennent entre 22 et 49 cliques. Maintenant, au delà de ces considérations quantitatives, on note une ressemblance frappante avec les axes mis en évidence par les méthodes abordées jusqu’ici. En effet, les axes destructif/négatif et évasif sont encore une fois détectés. Quant à l’axe productif/positif de Venant (figure 4), Gaume (figure 5), et l’exploration aléatoire du monde des cliques (figures 10 et 11), il est cette fois décomposé en deux directions : une direction positive « énergétique » caractérisée par provoquer et exciter ; et une seconde plus productive définie par arranger composer façonner former préparer. Mieux encore, cette deuxième direction 39 semble être une interface entre l’excitation positive et la production d’information, ce dernier concept étant l’objet de l’axe en haut à droite. Cet axe informatif n’est pas présent dans les visualisations de Gaume et Venant, mais d’après des entretiens téléphoniques récents avec Gaume, il semblerait que cela soit lié au nombre de verbes sélectionnés dans son exploration aléatoire. La convergence de toutes ces méthodes semble indiquer que ces axes conceptuels des verbes du français soient une propriété forte. Enfin, si on zoome sur l’étoile en ignorant les deux clusters éloignés du centre (‘dire ;donner…’ et ‘abattre ;anéantir…’), on observe comment les axes principaux rendent compte de la disposition des autres boules. Figure 15 : Libellés des centres des boules denses La figure 15 montre, en plus des axes conceptuels mis en évidence dans la figure 14, la répartition des cliques dans ces axes et aux interfaces entre ces derniers. Ainsi, on remarque qu’une boule centrée sur ‘considérer, estimer, examiner, juger, penser, peser, regarder, voir’ joue un rôle de transition entre les axes productif et informatif. De même, ‘exciter, harceler, tourmenter, travailler, turlupiner’ se situe entre les axes positif et négatif. Enfin, on passe de l’axe négatif à l’informatif par ‘atteindre, bouleverser, frapper, saisir, toucher, troubler, émouvoir’. Ces résultats nous semblent encourageants et seront rediscutés en chapitre 6 ; pour l’instant notons simplement que ces cartes sont intuitivement cohérentes avec la cognition, tout en étant issues exclusivement de l’information contenue dans la structure du graphe des synonymes, sans aucun apport ou orientation favorisant l’apparition d’un concept particulier. 40 5.3 Algorithme utilisé et idées de développement L’algorithme utilisé ici est le suivant, r et N étant deux paramètres fixés : - Pour chaque clique c0, on calcule le nombre de cliques contenues dans la boule de centre c0 et de rayon r. - On choisit celle qui en contient le plus, que l’on considère comme un cluster représentant une zone dense. - On réitère les deux premières étapes en ne considérant comme centres des boules que les cliques qui n’ont pas encore été admises dans un cluster, et ce, jusqu’à la sélection du nombre N de boules denses. Par rapport à la méthode stochastique du chapitre 4, cet algorithme a l’avantage de ne pas rester dans une zone dense une fois qu’il l’a repérée, car les cliques voisines d’un centre dense ne seront plus autorisées à être centre d’un nouveau cluster. En d’autres termes, lorsque Paris aura été sélectionnée comme centre d’une région dense, un cluster l’englobera avec toutes ses banlieues, et elles ne pourront plus donner naissance à d’autres clusters, ce qui corrige la faiblesse de la méthode d’exploration stochastique, qui en sélectionnant Paris comme dense, sélectionne aussi ses banlieues par ‘diffusion’. Deux aspects restent à améliorer dans cet algorithme : étant donné une région et un nombre cible de clusters (N), on devrait être capable de choisir automatiquement un rayon r, en tenant compte des observations en 5.1. Par exemple, connaissant N, on pourrait évaluer approximativement la taille en cliques de nos clusters, pour recouvrir l’ensemble du domaine (ordre de grandeur = Nombre total / N). Ensuite, on pourrait simuler un calcul des N boules les plus denses à un rayon r i, choisi par rapport à la courbe de la clique la plus dense ; puis progressivement affiner notre choix jusqu’à ce que les boules sélectionnées répondent à l’attente en nombre et en taille, en ajoutant un critère d’arrêt supplémentaire par rapport à l’algorithme de base : on arrête la sélection lorsque la taille des boules chute au delà d’un seuil critique, quitte à ne pas en sélectionner N, mais plutôt un nombre du même ordre de grandeur. Enfin, une piste intéressante serait le calcul des boules denses après avoir classé les cliques grâce à l’exploration aléatoire, ainsi, l’algorithme ferait un réel travail d’exploration cohérent avec l’intuition géographique. 41 6 – Aspects cognitifs Considérons la conversation suivante, entre deux personnes qui se rencontrent pour la première fois dans une table de restaurant universitaire : - Comment ça va, avec les examens ? - Je n’en ai pas, je n’étudie plus à Paris V, je suis juste venu imprimer un mémoire - Ah bon, tu fais quoi ? - Un DEA de Sciences Cognitives, je suis inscrit à l’EHESS, boulevard Raspail. - C’est quoi ça ? - C’est les sciences qui essaient de comprendre l’intelligence, ce qui se passe dans le cerveau, ce genre de trucs… - Ca doit être intéressant… - C’est vrai (elle ne pense pas ce qu’elle dit, ca serait donc trop long de lui expliquer ce que je fais). Tu ne serais pas indienne par hasard ? - Non, Mauricienne ! - Ah oui ? J’ai habité un an avec un Mauricien, et il était d’origine indienne, comme toi je pense ! - Ah bon ? Il est de quelle ville ? - Curepipe. - Moi, je suis de Phœnix, c’est juste à côté. - Je sais, toute l’île est petite de toute façon. Je crois qu’il allait au King collège. - C’est pas vrai ! Moi aussi, c’est là que je suis allée, Il s’appelle comment ? - Kaushal Mohee. Mais on l’appelle Kaush… - Mohee ! Je connais sa sœur, on était au lycée ensemble ! - Manjula ? - Tu la connais aussi ? C’est incroyable, le monde est petit ! Il est donc vrai que le monde est petit, et il est de plus hiérarchique, car sinon, ces deux personnes ne pourraient trouver aussi rapidement ce qui les relie. On sait que les réseaux de connaissances sont des petits mondes hiérarchiques, analysons donc leur conversation à la lumière de ce que l’on sait sur cette structure. Si on établissait une cartographie globale de leurs graphes respectifs, on trouverait, pour chacun d’eux, un continent familial, un axe d’amis d’enfance, un axe de copains de fac, ainsi de suite…Comme X et Y sont des étrangers, il est probable que leurs cartes générales contiennent chacune un cluster correspondant aux 42 connaissances parisiennes. Si on zoome sur Paris, on pourrait voir apparaître des plus petits clusters de personnes fortement connectés, les étudiants de Paris V, les étudiants en Sciences cognitives, les joueurs de l’équipe de football, ainsi de suite. On remarque que nos interlocuteurs, compte tenu du contexte ou ils se sont rencontrés, ont choisi de se placer directement à cette échelle pour trouver des points communs. Malheureusement, cette stratégie a échoué car X n’est que de passage à Paris V, et Y n’est pas passionnée de Sciences cognitives. X décide alors de prendre du recul et de chercher dans la région du graphe correspondant à l’Inde, car Y a une beauté indienne, et X a des amis indiens, d’origine indienne, ou vivant en Inde. Or il se trouve qu’elle est Mauricienne, ce qui tombe bien puisque X a eu un colocataire Mauricien, il zoome donc aussitôt sur le voisinage de ce dernier, où il trouve trois clusters : les deux sœurs de Kaush, ses collègues de lycée, et ses copains mauriciens qu’il a connus à Lyon. Y fait de même et ouvre la carte de ses connaissances en Ile Maurice. Il suffit alors de quelques questions réponses pour cerner la connaissance commune : Manjula ! Ce scénario, bien qu’inhabituel, n’est pas du tout choquant. Pourtant, sans une structure hiérarchique petit monde, ce serait un miracle qu’un marocain et une mauricienne, a priori deux personnes prises au hasard dans la planète, détectent une connaissance commune dans leur graphe des connaissances, et ce en quelques secondes. Et pourtant, ce genre d’expériences est suffisamment fréquent pour attester que la moyenne du plus court chemin reliant deux personnes prises au hasard est très courte, et que notre système cognitif est particulièrement efficace pour le détecter. C’est cette idée fondamentale qui est derrière la motivation de ce travail de DEA. En effet, bien que la majorité de cette étude consiste en recherches algorithmiques et en développement informatique, a priori détachés des sciences cognitives, il s’agit, à notre sens, d’un travail essentiellement orienté vers ces dernières. Lorsqu’on sait que les réseaux sémantiques ou de cooccurrences, les mémoires associatives, les réseaux neuraux ou sociaux, et les graphes de terrain en général… sont des graphes hiérarchiques petit monde, l’exemple de cette conversation doit alors être compris comme une simple illustration de ce qui pourrait être un phénomène fondamental dans la dynamique des systèmes complexes fondés sur des réseaux, comme le cerveau humain, ou la société humaine : le phénomène petit monde ! 43 Le cours de DEA de J.P. Nadal sur les modèles statistiques, la théorie de l’information et les réseaux de neurones prouve les faits suivants : - Les réseaux de neurones modélisent de mieux en mieux les mémoires associatives à court et à long terme. - Dans certains modes d’apprentissage, ces réseaux peuvent coder l’information en calculant les composantes principales des données qu’ils ont à traiter (ils ne calculent pas de valeurs propres d’une quelconque matrice, mais un processus d’auto-équilibration permet de converger vers la structure adéquate à l’analyse en composantes principales ou indépendantes, ACP-ACI) - Enfin, dans d'autres configurations, ces réseaux peuvent catégoriser les informations. Lorsqu’on compile ces informations, avec ce que l’on sait des capacités humaines à traiter des graphes relationnels, et qu’on remarque que les réseaux de nos connaissances sociales, de nos connaissances sur les objets, sur les catégories d’objets, ou sur les mots, sont munis d’une structure de petit monde hiérarchique, il est clair que cette dernière joue un rôle dans la cognition, et que les outils mathématiques et algorithmes utilisés dans cette étude rendent compte de processus cognitifs en œuvre dans les traitements de ces graphes, d’une manière qui reste à déterminer de manière plus précise, mais bel et bien vraisemblable. Ainsi, une approche qui n’a pas été abordée au cours de cette étude, mais qui pourrait être la voie idéale de recherche, est l’utilisation d’un réseau de neurones pour le traitement du dictionnaire des synonymes. Si un modèle de neurones formels ne constitue aucunement une preuve, les arguments précédents constituent néanmoins un indice vers une vraisemblance neurologique pour l’hypothèse d’une aptitude cognitive à traiter les petits mondes hiérarchiques ; mais on peut aussi trouver à notre hypothèse une logique anthropologique, les deux approches pouvant éventuellement se rejoindre dans la perspective des théories cognitives de l’évolution. En effet, le caractère social de l’homme peut être une justification de cette capacité à traiter de grands graphes, car le réseau social humain est exceptionnellement grand par rapport aux autres mammifères, et il est particulièrement hiérarchique. Ainsi, le développement et la complexité de sa société aurait forcé l’homme à développer les stratégies cognitives utiles au traitement des petits mondes hiérarchiques. « L'homme est un animal politique plus que n'importe quelle abeille et que n'importe quel animal grégaire », affirme Aristote dans La Politique, avant de justifier le langage, la perception du bien, du mal, du juste et de l’injuste. En effet, les mots sont le reflet de notre relation avec le monde, et la structure de petit monde 44 hiérarchique qui sous-tend notre lexique pourrait être le résultat du plagiat d’une stratégie développée d’abord pour représenter notre réseau social. Cela expliquerait par exemple la polysémie des entités lexicales, qui comme les entités sociales, peuvent avoir plusieurs casquettes. On pourrait aussi soutenir le cheminement inverse, c’est à dire que l’homme aurait d’abord développé les stratégies de traitement de graphes pour appréhender un monde qu’il a perçu comme de plus en plus complexe ; néanmoins, ce n’est pas l’ordre des causes qui nous intéresse ici, mais le fait essentiel suivant : à un niveau cognitif, à l’interface entre langage, représentation du réseau social, et mémoire, le phénomène petit monde hiérarchique joue un rôle fondamental. Toujours dans la même veine, considérons maintenant un autre raisonnement : un concept de base en psychologie sociale est celui des Théories Implicites de la Personnalité, sousjacentes à la formation d’impression sur autrui (TIP, suggérées par Asch dans les années 4050, formalisées par Bruner et Tagiuri en 1956). L’idée générale est que tous les humains sont des psychologues disposant de théories statistiques classant les autres en catégories hiérarchisées ; ils sont en fait « capables » de se former une impression complète sur une personne à partir de très peu d’informations initiales. En d’autres termes, lorsqu’on perçoit une personne comme chaleureuse au premier contact, on devine immédiatement qu’elle est généreuse, heureuse, bonne vivante, et moins fiable qu’une personne froide (Asch, 1946), car on la place immédiatement dans un « continent » statistiquement établi. S’il s’avère que cette personne chaleureuse est de plus mauricienne, on zoome sur nos cartes psychologiques sur le cluster des insulaires, avec les traits de nonchalance et de bonne humeur qui lui sont associés, et on affine ainsi progressivement notre description psychologique de notre interlocuteur, et ce à travers des cartographies hiérarchiques. Dans la perspective des sciences cognitives, on parle plutôt de théories de l’esprit pour désigner cette compétence de psychologue de l’être humain, mais encore une fois, il ne s’agit pas ici de discuter les différentes manières d’appréhender ce vaste sujet d’étude, mais de remarquer le fait suivant : il ne serait pas étonnant que le graphe qui relie les traits de personnalité corrélés soit un petit monde hiérarchique. En effet, les traits les plus indépendants peuvent être reliés par des chaînes très courtes ; ne connaît-on pas tous des personnages paradoxaux ? Par exemple, entre sensible et inhumain, on trouve les différents chemins suivants : sensible - irritable - colérique - violent inhumain - fanatique - passionné - sensible - pénible - pitoyable - misérable - inhumain (remarquons au passage le parallèle entre la petitesse du monde des traits psychologiques, et celle du monde de la synonymie). A partir de là, ce qui devient surprenant, c’est que les 45 chercheurs en psychologie différentielle, dont le métier est d’utiliser les statistiques, et en particulier les outils de clustering et d’analyse en composantes principales, pour classer les êtres humains en fonction des dimensions les plus pertinentes, arrivent à des traits primaires (continents du graphe des traits de personnalité) qui sont similaires aux traits qui sont mis en évidence par les psychologues sociaux de manière empirique, en observant les inférences que font les êtres humains en situations sociales, en particulier dans la formation d’impressions. De manière plus claire : le psychologue différentiel définit des traits de la personnalité, analyse leur corrélation à partir des données expérimentales ou issues des tests cliniques et professionnels, établit un graphe à partir de ces traits (probablement un petit monde hiérarchique), utilise des algorithmes de clustering et des outils statistiques d’analyse en composantes principales, et déduit enfin que les 5 composantes primaires qui constituent la personnalité sont le névrosisme, l’extraversion, l’ouverture, l’agréabilité et la conscience (Big five mesurées par le test NEO PI-r, Paul T. Costa. et Robert R. Mc Crae, 1985, 1990) ; de leur côté, les psychologues sociaux trouvent que lorsque l’animal social homo sapiens rencontre une nouvelle personne, il commence par évaluer sa ‘bizarrerie’ (névrosisme ?), son extraversion, son ouverture d’esprit, décide si elle est sympathique, et porte un jugement sur son intelligence, il affine ensuite ses mesures en considérant des facettes plus spécifiques. Conclusion : l’homo sapiens fait du clustering et de l’ACP sur le petit monde hiérarchique des personnalités, de manière mathématiquement équivalente à ce que fait le psychologue différentiel avec ses statistiques et son ordinateur. 46 7 – Perspectives 7.1 Des axes conceptuels des verbes du français à la psycholinguistique Nous avons décrit les moyens techniques mis en œuvre pour analyser un dictionnaire des synonymes, modélisé par un graphe hiérarchique petit monde, et nous avons montré que certains résultats récurrents semblent robustes par rapport à la méthode de calcul, indiquant une propriété forte du dictionnaire des synonymes. En particulier, nous pensons que le graphe des verbes du français repose globalement sur les axes conceptuels suivants : informatif ; productif ; positif ; négatif ; et évasif. A l’origine de ces axes, donc au centre du graphe, on trouve des sens vagues, caractérisés par le verbe faire (exploration aléatoire, boules denses), passer (Venant), ou changer (Gaume). Cette structure est donc robuste, cohérente et interprétable, mais quelles en sont les implications ? Des études menées par Duvignau et Gaume (2002, 2003 et 2004), tendent à montrer un intérêt en psycholinguistique, dans la compréhension des mécanismes d’acquisition des verbes par exemple ; mais on pourrait aller au delà et se demander si cette structure n’est pas à relier aux théories cognitives de l’évolution. En effet, de même que ces axes conceptuels auraient des implications au niveau du développement de l’individu, il pourrait s’agir d’indices concernant le développement du langage au niveau de l’espèce humaine. Cette conjecture est d’une part cohérente avec la structure hiérarchique du réseau sémantique, car on a vu que l’une des manières d’expliquer cette propriété était de considérer les sommets les plus denses comme les ‘parents’ de sommets descendants, qui au fur et à mesure que l’on descend dans l’arbre généalogique, sont de plus en plus nombreux, et de moins en moins denses ; d’autre part, les axes calculés sont eux mêmes génétiquement vraisemblables : il ne serait pas étonnant qu’aux origines du langage, l’homme devait simplement transmettre un message positif (production, excitation), un signal de fuite, ou un ordre de destruction (axes positif, évasif et négatif , récurrents dans toutes les méthodes de calcul). Bien sûr, il ne saurait être question ici de démontrer une hypothèse génétique du langage, mais cette conjecture est simplement soulevée pour montrer l’étendue du rayonnement que peut avoir l’étude de la structure d’un dictionnaire des synonymes dans toutes les disciplines des sciences cognitives. Spécialement quand on sait que les méthodes développées sur un dictionnaire des synonymes sont immédiatement transposables à d’autres graphes hiérarchiques petit monde, et que les cartographies globales sont très peu sensibles au bruit et aux variations locales. Une piste intéressante de recherche serait par exemple la comparaison des cartographies de différentes langues, ainsi que celles 47 d’une même langue à différentes époques, ou à partir de dictionnaires spécialisés, pour repérer les régularités et les différences cognitives qui seraient la cause ou la conséquence de déficits ou de particularités historiques ou culturelles d’un lexique donné. Enfin, par leur caractère objectif et automatique, ces mêmes travaux pourraient servir des outils psychologiquement fondés pour la traduction et le résumé automatique, l’aide à la rédaction, la fouille de données, la classification hiérarchique, la terminologie, ou encore la comparaison de dictionnaires. 7.2 Visualisation et navigation cognitives Gaume pense que les graphes d’origine linguistique, outre leur intérêt propre dans l’étude des grands corpus linguistiques, peuvent aussi nous permettre de mieux comprendre les propriétés structurelles des graphes de terrains dans leur ensemble comme le réseau Internet par exemple (Barabasi & Albert & Jeong & Bianconi, 2000). En effet, tout comme les dictionnaires des synonymes, le web est un petit monde hiérarchique dont le nombre de sommets est de l’ordre du milliard. Si les verbes du français décrivent des axes conceptuels, quel est la forme du web ? A partir du principe d’exploration aléatoire à différentes échelles, Gaume a développé un outil de navigation qui permet d’atteindre n’importe quel sommet du graphe en quelques clics, chaque clic diminuant l’échelle d’un facteur de 100. Ainsi, pour un graphe des 9043 verbes, il suffit de 3 clics pour atteindre une cible (2 seraient suffisants si chaque verbe était accessible par un chemin unique, ce qui n’est pas le cas). Ainsi, un moteur de recherche Internet, basé sur la visualisation multi-échelle du graphe reliant les pages, permettrait d’accéder aux pages les moins denses, les localités isolées du web, en 4 ou 5 clics. Cela permet à Gaume d’envisager un outil de navigation pour le web, dont l’ergonomie d’accès est cognitivement fondée. Mais en transposant le même raisonnement, d’autres graphes peuvent aussi être explorés de la même manière : celui des symptômes médicaux, en particulier ceux des maladies psychiatriques, qui sont parfois considérés dans une approche athéorique et purement statistique (DSM 4) ; le graphe des relations de libres associations pour un patient en psychothérapie ; les mémoires associatives… 7.3 Algorithmique des grands graphes & intelligence artificielle Comme le souligne Gaume, la structure de petit monde hiérarchique permet une navigation et un accès très efficace à l’information recherchée, une dynamique d’acquisition du général vers le particulier, une excellente robustesse en cas de déficit, ainsi qu’un 48 raisonnement à granularité variable. Toutes ces propriétés étant caractéristiques de la cognition en général, et des mémoires associatives en particulier. En automatisant ces aspects, parallèlement à ce qu’il apporte dans la compréhension de la cognition, le développement d’algorithmes spécialisés dans la manipulation des petits mondes hiérarchiques pourra servir pour l’intelligence artificielle, en permettant, grâce à la visualisation d’un graphe à l’échelle appropriée, la diminution de l’espace de travail et la baisse de la complexité. Pour prendre l’exemple le plus simple, qui est équivalent à celui qui a été illustré par la conversation du chapitre 6, il suffit de considérer le problème du chemin le plus court dans un très grand graphe hiérarchique. Un algorithme classique devrait traiter beaucoup trop d’information s’il ne commençait pas par simplifier le problème. En se plaçant d’abord à un niveau de visualisation grossière, un algorithme plus intelligent pourrait repérer une trajectoire globalement, puis il n’aurait qu’à zoomer sur les parties pour détailler son itinéraire. Ainsi, il ferait chuter considérablement la complexité de ses calculs. 49 8 – Références BARABASI A-L, ALBERT R., JEONG H. (1999), Scale free characteristics of random networks: The topology of the World Wide Web. Physica A, 281:69.77, 2000. BERGÉ C. (1970) : Graphes et hypergraphes, Paris, Dunod. COLOMBO T., GUÉNOCHE A, QUENTIN Y. (2003) . Recherche de zones denses dans un graphe. Application aux gènes orthologues. http://www.inist.fr/uir/jim03/colomb.pdf. ERDÖS P., RENIYI A. (1960), Publ. Math. Inst. Hung.Acad. Sci 5,17-61 GAUME B. (2003), Analogie et Proxémie dans les réseaux petits mondes, Regards croisés sur l’analogie. RIA, n°spécial, Vol 5-6, Hermès Sciences. GAUME B. (2004), Ballades aléatoires dans les Petits Mondes Lexicaux, I3 Information Interaction Intelligence, CEPADUES édition (à paraître). GAUME B., DUVIGNAU K., GASQUET O. ET GINESTE M-D. (2002). Forms of Meaning, Meanings of Forms. Journal of Experiment and Theoretical Artificial Intelligence, 14(1): 61-74. GONDRAN M. & MINOUX M. (1979) : Graphes et algorithmes, Paris, Eyrolles. GREFENSTETTE G. (1994) : Explorations in Automatic Thesaurus Discovery, Dordrecht, Kluwer. HONESTE M.L., Approche cognitive de la fonction adjectivale, Actes du colloque sur l’adjectif ,Caen, 2001. JACQUET G. (2003). Polysémie verbale et construction syntaxique : étude sur le verbe jouer. Actes TALN 2003, pages 469-479. LABELLE J. (1981) :Théorie des graphes, Montréal, Modulo. MANGUIN J.L., « Construction d’espaces sémantiques associés aux verbes de déplacement d’objets à partir des données des dictionnaires informatisés des synonymes », Syntaxe et Sémantique, 2, 287-300, 2001. MANGUIN & VICTORRI, « Représentation géométrique d'un paradigme lexical », TALN 1999, 363-368,2001. MILGRAM S., (1967), The small world problem, Psychol. Today 2,60-67. MILLER G.A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. (1993) : Five Papers on WordNet, http://www.cogsci.princeton.edu/wn/. NOAILLY M., L’adjectif en français moderne, Paris, Ophrys, 1999. PICOCHE J., Structure sémantique du lexique français, Paris, Nathan, 1992. 50 PIOTROWSKI D. (1997) : Dynamiques et structures en langue, Paris, CNRS Editions. PLOUX S. , VICTORRI B. (1998). Construction d’espaces sémantiques à l’aide de dictionnaires informatisés des synonymes. TAL, 39(1) :161–182. REINER E., La place de l’adjectif épithète en français : théories traditionnelles et essai de solution, Wien, Stuttgart, W. Braumuller, Band, 1968. VÉRONIS J., IDE N. (1990) : « Word sense disambiguation with very large neural networks extracted from machine-readable dictionaries », COLING’90, Helsinki, 389-394. VENANT F. (2004). Polysémie et calcul du sens. Actes JADT 2004 (à paraître). VÉRONIS J. (2003). Cartographie lexicale pour la recherche d’information. Actes TALN 2003, pages 265-275. VICTORRI B., FUCHS C. (1996) : La polysémie – Construction dynamique du sens, Paris, Hermès. VOLLE M. (1997) : Analyse des données, Paris, Economica. WARNESSON I. (1985) : « Applied Linguistics : Optimization of Semantic Relations by Data Aggregation Techniques », Journal of Applied Stochastic Models and Data Analysis, Vol. 1, n°2, 121-143. WATTS D.J., STROGATZ S.H. (1998), Collective dynamics of ‘small-world’ networks. Nature 393: 440- 51