La modélisation-simulation des actions entreprises par des agents

Transcription

La modélisation-simulation des actions entreprises par des agents
ROBEA 2002
La modélisation-simulation des actions entreprises par des agents
interactifs autonomes : l'études des inférences relatives à l'action
Amal EL FALLAH - SEGHROUCHNI 3, Thierry GERAUD 4, Christine LEPROUX 1, Meritxell MIÑANO 2,
Sebastien POITRENAUD 1, Vicenç QUERA 2 , Francesc SALVADOR i BELTRAN 2 , Charles TIJUS 1,
Didier VERNA 4, Elisabetta ZIBETTI 1
1.
Laboratoire CNRS FRE-2308, Équipe Propriétés, Catégorisation & Sémantique, Université Paris 8
2. GTICC, Universidad de Barcelona
3. LIP6, Pôle IA Université Pierre et Marie Curie.
4. EPITA - LRDE - EPITA
Le modèle ACACIA vise à simuler les prises de
décision d'action virtuels dans une situation de chasse au
trésor. Les Agents se déplacent dans un monde peuplé
d ’obstacles et d ’autre agents. Ils ont comme but celui de
trouver un trésor.
Le Micro Monde de ACACIA est un espace
bidimensionnel discret et délimité. Les entités présentes
sont des agents, des obstacles et des objets à atteindre (le
trésor). Les caractéristiques des agents sont la perception
visuelle
(les
agents
ont
deux
coordonnées
dimensionnelles, une direction, et une perception de leur
contexte proximal, c'est à dire une portion semi-circulaire
face au eux qui décrit la portion de l'environnement qu'ils
scannent), l'orientation de leur déplacement dans l'espace
et dans le temps, et la capacité de catégoriser les entités
rencontrées en fonction de leur propriétés physiques et de
mouvement, une hiérarchie de règles d’action.
Des qu'il commencent à explorer leur environnement,
les agents catégorisent les entités rencontrées et s'adaptent
à elles en appliquant des actions locales. Adaptation aux
trésors : quand un agent repère un trésor, les coordonnées
du trésor sont prises pour emplacement cible, c’est-à-dire
que l’agent change de direction, et se dirige vers le trésor.
Adaptation aux agents : quand un agent repère un autre
agent, il compare sa direction à celle de l’agent repéré, et
si les deux directions sont semblables (à l’intérieur d’une
marge de tolérance définie par l’expérimentateur), le
premier agent règle sa direction sur celle du second ; il
prend la même direction. La logique de ce comportement
est adaptative dans la mesure où le second agent peut avoir
repéré un trésor. Dans ce cas, il mènera le premier agent
(i.e. celui qui s'est adapté) droit au but. Adaptation aux
obstacles : quand un agent repère un obstacle, il se dirige
vers lui. Le langage de programmation utilisée dans cette
première version est StarLogo (développé par Resnick, au
MIT).
Nous avons pu montrer que l'adaptation hiérarchique
aux entités (espace vide -> obstacle -> agents -> trésor), qu'on peut voir comme une attirance de plus en plus forte
à "aller vers" -, fournit de meilleures performances.
L’adaptation aux espaces vides (là où je ne suis pas)
correspond à l'inférence "si je ne vois pas le trésor, c'est
qu'il est ailleurs". Ce principe d'adaptation aux entités,
basé sur une attirance, peut aussi être considéré comme
une catégorisation hiérarchique : le trésor est perçu à un
emplacement où je ne suis pas (espace vide): (i) [l'espace
vide perçu] EST [une sorte d'emplacement d'où on
pourrait voir un trésor]; (ii) le trésor peut être masqué par
un obstacle: [l'espace masqué par un obstacle] EST [une
sorte d'espace vide non perçu] où pourrait se trouver un
trésor; (iii) [l'espace vu par un autre agent] EST [une sorte
d'espace vide non perçu] d'où cet agent pourrait voir un
trésor.
À partir de ces acquis, nous voulons atteindre deux
grands objectifs : (i) tester l’hypothèse que la
catégorisation contextuelle, en liant le perçu au connu, est
un mécanisme pertinent pour l’interprétation d’actions
faites par autrui et (ii) vérifier qu'il s'agit d'un mécanisme
de base qui permet de simuler le comportement adaptatif
(adaptive behavior) dans des situations multi-agents.
Figure 1. Les agents acquièrent de l'expérience (graphe A): ils
se déplacent au hasard (1), voient un trésor et se dirigent vers lui:
ils ont alors une direction (2). Ils ont une accélération inversement
proportionnelle à la distance à parcourir pour atteindre le trésor
qui peut mener au gain (3) ou à la perte (4) quand ils sont en
compétition (5). A tout moment, un agent est dans l'un de ces
états. Cette connaissance sur soi-même permet plus ou moins de
différencier les agents qu'on rencontre (graphe B) selon qu'ils se
déplacent au hasard, ont une direction, changent de direction, etc.
Pour le présent projet, figure 1, nous voulons (i) faire en
sorte que les agents discriminent de plus en plus finement
les actions perçues et enrichissent leur base de
connaissances (se déplacer -> aller vers -> suivre ->
poursuivre -> atteindre en poursuivant -> dépasser, etc.) en
fonction à leur propre expérience, (ii) que les agents
puissent faire des inférences en utilisant le contexte spatial
et temporel, (iii) tester expérimentalement les simulations
issues de différentes variantes, (iv) évaluer les effets des
principes implémentés en comparant les taux de réussite,
mais aussi (v) comparer les prises de décision des agents
virtuels avec celles d'opérateurs humains (jugements
portés sur les actions d'un agent virtuel, guidage, etc.).

Documents pareils