Apprentissage pour les jeux d`arcade
Transcription
Apprentissage pour les jeux d`arcade
Apprentissage pour les jeux d’arcade Objectifs – Maîtrise de l’environnement Arcade Learning et développement d’un agent contrôlant le jeu. – Réaliser l’apprentissage de la stratégie optimale pour un jeu. Description En intelligence artificielle ou apprentissage automatique les ingénieurs et chercheurs mesurent régulièrement les performances de leurs algorithmes sur des tâches de jeu. On pense naturellement au jeu d’échec ou de go par exemple. Dans ce projet, nous nous proposons d’utiliser des méthodes d’apprentissage numérique pour apprendre à jouer de manière optimale à des jeux d’arcade de première génération (Atari 2600). Pour ce faire, nous utiliserons l’environnement logiciel libre Arcade Learning Environment 1 [1]. Il s’agit d’un environnement développé en C++ avec des interfaces Java disponibles (soit deux langages orientés objet). Le projet se déroulera donc en deux phases. Tout d’abord, il s’agira de maîtriser l’environnement d’un point de vue informatique. A partir de cet environnement, on demandera aux étudiants de fournir une architecture logicielle instanciant un agent interagissant avec l’environnement de jeu de manière autonome. Ensuite, il sera demandé de créer un agent apprenant la stratégie de jeu optimale pour un des jeux fournis dans l’environnement. Pour cela, on utilisera l’apprentissage par renforcement [2] qui est une méthode permettant d’apprendre un comportement optimal par interaction. Dans ce cadre d’apprentissage, l’agent artificiel est récompensé lorsqu’il agit bien. Il tente alors de maximiser le cumul des récompenses sur le long terme et apprend une séquence d’actions optimale. Références [1] Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment : An evaluation platform for general agents. CoRR, abs/1207.4708, 2012. [2] R.S. Sutton and A.G. Barto. Reinforcement learning : An introduction. The MIT press, 1998. Encadrants Olivier Pietquin : [email protected] (équipe SequeL) 1. www.arcadelearningenvironment.org 1