La modélisation-simulation des actions entreprises par des agents
Transcription
La modélisation-simulation des actions entreprises par des agents
ROBEA 2002 La modélisation-simulation des actions entreprises par des agents interactifs autonomes : l'études des inférences relatives à l'action Amal EL FALLAH - SEGHROUCHNI 3, Thierry GERAUD 4, Christine LEPROUX 1, Meritxell MIÑANO 2, Sebastien POITRENAUD 1, Vicenç QUERA 2 , Francesc SALVADOR i BELTRAN 2 , Charles TIJUS 1, Didier VERNA 4, Elisabetta ZIBETTI 1 1. Laboratoire CNRS FRE-2308, Équipe Propriétés, Catégorisation & Sémantique, Université Paris 8 2. GTICC, Universidad de Barcelona 3. LIP6, Pôle IA Université Pierre et Marie Curie. 4. EPITA - LRDE - EPITA Le modèle ACACIA vise à simuler les prises de décision d'action virtuels dans une situation de chasse au trésor. Les Agents se déplacent dans un monde peuplé d ’obstacles et d ’autre agents. Ils ont comme but celui de trouver un trésor. Le Micro Monde de ACACIA est un espace bidimensionnel discret et délimité. Les entités présentes sont des agents, des obstacles et des objets à atteindre (le trésor). Les caractéristiques des agents sont la perception visuelle (les agents ont deux coordonnées dimensionnelles, une direction, et une perception de leur contexte proximal, c'est à dire une portion semi-circulaire face au eux qui décrit la portion de l'environnement qu'ils scannent), l'orientation de leur déplacement dans l'espace et dans le temps, et la capacité de catégoriser les entités rencontrées en fonction de leur propriétés physiques et de mouvement, une hiérarchie de règles d’action. Des qu'il commencent à explorer leur environnement, les agents catégorisent les entités rencontrées et s'adaptent à elles en appliquant des actions locales. Adaptation aux trésors : quand un agent repère un trésor, les coordonnées du trésor sont prises pour emplacement cible, c’est-à-dire que l’agent change de direction, et se dirige vers le trésor. Adaptation aux agents : quand un agent repère un autre agent, il compare sa direction à celle de l’agent repéré, et si les deux directions sont semblables (à l’intérieur d’une marge de tolérance définie par l’expérimentateur), le premier agent règle sa direction sur celle du second ; il prend la même direction. La logique de ce comportement est adaptative dans la mesure où le second agent peut avoir repéré un trésor. Dans ce cas, il mènera le premier agent (i.e. celui qui s'est adapté) droit au but. Adaptation aux obstacles : quand un agent repère un obstacle, il se dirige vers lui. Le langage de programmation utilisée dans cette première version est StarLogo (développé par Resnick, au MIT). Nous avons pu montrer que l'adaptation hiérarchique aux entités (espace vide -> obstacle -> agents -> trésor), qu'on peut voir comme une attirance de plus en plus forte à "aller vers" -, fournit de meilleures performances. L’adaptation aux espaces vides (là où je ne suis pas) correspond à l'inférence "si je ne vois pas le trésor, c'est qu'il est ailleurs". Ce principe d'adaptation aux entités, basé sur une attirance, peut aussi être considéré comme une catégorisation hiérarchique : le trésor est perçu à un emplacement où je ne suis pas (espace vide): (i) [l'espace vide perçu] EST [une sorte d'emplacement d'où on pourrait voir un trésor]; (ii) le trésor peut être masqué par un obstacle: [l'espace masqué par un obstacle] EST [une sorte d'espace vide non perçu] où pourrait se trouver un trésor; (iii) [l'espace vu par un autre agent] EST [une sorte d'espace vide non perçu] d'où cet agent pourrait voir un trésor. À partir de ces acquis, nous voulons atteindre deux grands objectifs : (i) tester l’hypothèse que la catégorisation contextuelle, en liant le perçu au connu, est un mécanisme pertinent pour l’interprétation d’actions faites par autrui et (ii) vérifier qu'il s'agit d'un mécanisme de base qui permet de simuler le comportement adaptatif (adaptive behavior) dans des situations multi-agents. Figure 1. Les agents acquièrent de l'expérience (graphe A): ils se déplacent au hasard (1), voient un trésor et se dirigent vers lui: ils ont alors une direction (2). Ils ont une accélération inversement proportionnelle à la distance à parcourir pour atteindre le trésor qui peut mener au gain (3) ou à la perte (4) quand ils sont en compétition (5). A tout moment, un agent est dans l'un de ces états. Cette connaissance sur soi-même permet plus ou moins de différencier les agents qu'on rencontre (graphe B) selon qu'ils se déplacent au hasard, ont une direction, changent de direction, etc. Pour le présent projet, figure 1, nous voulons (i) faire en sorte que les agents discriminent de plus en plus finement les actions perçues et enrichissent leur base de connaissances (se déplacer -> aller vers -> suivre -> poursuivre -> atteindre en poursuivant -> dépasser, etc.) en fonction à leur propre expérience, (ii) que les agents puissent faire des inférences en utilisant le contexte spatial et temporel, (iii) tester expérimentalement les simulations issues de différentes variantes, (iv) évaluer les effets des principes implémentés en comparant les taux de réussite, mais aussi (v) comparer les prises de décision des agents virtuels avec celles d'opérateurs humains (jugements portés sur les actions d'un agent virtuel, guidage, etc.).