Apprentissage pour les jeux d`arcade

Transcription

Apprentissage pour les jeux d`arcade
Apprentissage pour les jeux d’arcade
Objectifs
– Maîtrise de l’environnement Arcade Learning et développement d’un agent contrôlant le
jeu.
– Réaliser l’apprentissage de la stratégie optimale pour un jeu.
Description
En intelligence artificielle ou apprentissage automatique les ingénieurs et chercheurs mesurent
régulièrement les performances de leurs algorithmes sur des tâches de jeu. On pense naturellement au jeu d’échec ou de go par exemple. Dans ce projet, nous nous proposons d’utiliser des
méthodes d’apprentissage numérique pour apprendre à jouer de manière optimale à des jeux
d’arcade de première génération (Atari 2600).
Pour ce faire, nous utiliserons l’environnement logiciel libre Arcade Learning Environment 1 [1].
Il s’agit d’un environnement développé en C++ avec des interfaces Java disponibles (soit deux
langages orientés objet).
Le projet se déroulera donc en deux phases. Tout d’abord, il s’agira de maîtriser l’environnement d’un point de vue informatique. A partir de cet environnement, on demandera aux étudiants
de fournir une architecture logicielle instanciant un agent interagissant avec l’environnement de
jeu de manière autonome.
Ensuite, il sera demandé de créer un agent apprenant la stratégie de jeu optimale pour un des
jeux fournis dans l’environnement. Pour cela, on utilisera l’apprentissage par renforcement [2]
qui est une méthode permettant d’apprendre un comportement optimal par interaction. Dans ce
cadre d’apprentissage, l’agent artificiel est récompensé lorsqu’il agit bien. Il tente alors de maximiser le cumul des récompenses sur le long terme et apprend une séquence d’actions optimale.
Références
[1] Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning
environment : An evaluation platform for general agents. CoRR, abs/1207.4708, 2012.
[2] R.S. Sutton and A.G. Barto. Reinforcement learning : An introduction. The MIT press,
1998.
Encadrants
Olivier Pietquin : [email protected] (équipe SequeL)
1. www.arcadelearningenvironment.org
1

Documents pareils