TP 7 - LSV
Transcription
TP 7 - LSV
2013/2014 - TP 7 Lundi 3 Mars Apprentissage Apprentissage par renforcement On cherche à apprendre à jouer au Blackjack 1 . Pour mémoire, voici la règle que nous adopterons ici : La partie oppose un joueur et la banque, et se joue à l’aide d’un jeu de 52 cartes. Le but est de battre la banque sans dépasser 21. Dès qu’un joueur fait plus que 21, il perd. La valeur des cartes est établie comme suit : de 2 à 10, il s’agit de la valeur nominale de la carte, chaque figure vaut 10 points et l’As vaut 11 points. Au début de la partie le croupier distribue une carte face visible au joueur et tire une carte face visible également pour lui. Il tire ensuite pour le joueur une seconde carte face visible et tire une seconde carte face cachée pour lui. Puis il demande au joueur l’option qu’il désire choisir : soit demander une nouvelle carte (et ce autant de fois qu’il le souhaite), soit s’arrêter. Si après le tirage d’une carte, il a dépassé 21, il perd. S’il décide de s’arrêter, le croupier joue ensuite pour la banque selon la règle suivante : la banque tire à 16, s’arrête à 17. Ainsi, le croupier tire des cartes jusqu’à atteindre un nombre compris entre 17 et 21. S’il fait plus de 21, le joueur gagne. Sinon, le joueur gagne si sa somme est supérieure à celle de la banque. 2 Le but est de déterminer l’espérance de gain du joueur lorsqu’on fixe sa stratégie, puis de trouver une stratégie maximisant cette espérance. On modélise ce problème sous la forme d’un processus de décision markovien. Celui-ci est composé d’un ensemble d’états (représentant la connaissance courante du joueur), reliés entre eux par des transitions étiquetées par les actions possibles du joueur. Parmi les états finaux, certains états sont gagnants pour le joueur, d’autres perdants et les autres représentent les cas d’égalité : on leur associe un gain +1, -1 et 0 respectivement. 1. Décrire aussi précisément que possible le processus associé au Blackjack. Combien y a-t-il d’états ? Comment déterminer la probabilité de gagner du joueur lorsqu’il a décidé de s’arrêter ? 1 Évaluation d’une stratégie fixée On considère la stratégie suivante du joueur : le joueur tire à 17, s’arrête à 18. On cherche à déterminer quelle est sa probabilité de gagner dans ce cas. Il existe de nombreuses techniques permettant d’évaluer une stratégie fixée. Cependant, elles nécessitent de connaı̂tre entièrement, et à l’avance le processus de décision markovien, et elles sont coûteuses lorsque celui-ci est large. On utilise une méthode alternative basée sur l’échantillonage, appelée méthode de Monte-Carlo. L’idée est de simuler des parties de Blackjack suivant la stratégie fixée. À chaque état du processus, on associe la moyenne des gains des parties contenant cet état. On s’arrête lorsqu’on a simulé un nombre de parties prédéfini. 2. Appliquer cet algorithme et en déduire l’espérance de gain du joueur appliquant la stratégie fixée. 1. Cet exemple est issu du livre Reinforcement Learning de Richard Sutton et Andrew Barto, disponible en ligne à l’adresse http://webdocs.cs.ualberta.ca/~sutton/book/ebook/ 2. Là encore, on a simplifié la règle... Si vous voulez en savoir plus, allez sur la page Wikipédia sur jeu. Benoı̂t Barbot (source B. Monmege) 1 M1 - MPRI 2013/2014 - TP 7 Lundi 3 Mars Apprentissage La stratégie choisie est indépendante de la carte retournée de la banque. Considérons donc la stratégie suivante : si la banque a une carte de valeur inférieure à 4, le joueur tire à 17, s’arrête à 18 ; sinon, le joueur tire à 19, s’arrête à 20. 3. Appliquer la méthode de Monte-Carlo pour trouver l’espérance de gain de cette nouvelle stratégie. Comment varie-t-elle en fonction de la carte de la banque ? 2 Recherche d’une stratégie optimale On cherche maintenant à estimer une stratégie optimale du joueur. L’idée est d’alterner deux étapes : une étape E d’évaluation de la stratégie courante à l’aide de la méthode de Monte-Carlo, puis une étape I d’amélioration 3 de la stratégie. Afin de pouvoir améliorer la stratégie, on enrichit la méthode de Monte-Carlo afin qu’elle associe une espérance de gain Qπ (s, a) à chaque paire (s, a) d’état et d’action a pour une stratégie π : il s’agit de l’espérance de gain si on commence le jeu dans l’état s, en choisissant d’abord l’action a puis en suivant ensuite la stratégie π. 4. Comment modifier la méthode de Monte-Carlo pour qu’elle calcule la fonction Qπ pour une stratégie π fixée. Pour une stratégie π fixée, l’étape E évalue donc la fonction Qπ à l’aide de la méthode de Monte-Carlo. L’étape I améliore alors π en fonction de cette évaluation. 5. Expliquer comment mettre à jour la stratégie π étant donnée la fonction Qπ . 6. Montrer que pour tout état s du processus, l’espérance de gain en suivant la stratégie mise à jour à partir de s est supérieure ou égale à l’espérance de gain en suivant π à partir de s. En déduire que, en supposant que l’étape d’évaluation calcule exactement la fonction Qπ , l’algorithme alternant les étapes E et I converge en un nombre fini d’étapes. Cependant, la méthode de Monte-Carlo ne calcule pas exactement la fonction Qπ , et obtenir une bonne approximation peut demander beaucoup de temps de calcul. À la place, on pourrait calculer une estimation grossière de Qπ avant d’appliquer l’étape d’amélioration. En fait, en poussant à l’extrême ce raisonnement, on exécute une simulation supplémentaire par étape E. On calcule alors la valeur courante de la fonction Q en faisant la moyenne de toutes les simulations précédentes. La mise à jour de l’étape I n’est faite cependant que pour les états apparaissant dans la dernière simulation. 7. Appliquer cet algorithme pour trouver une stratégie optimale pour le Blackjack. Visualiser cette stratégie sur un graphique avec la carte de la banque en abscisse et la somme courante du joueur en ordonnée. 8. Comment modifier notre étude dans le cas où l’As peut valoir 1 ou 11 au choix ? Trouver alors une stratégie optimale. 3. L’initiale I est pour improvement. Benoı̂t Barbot (source B. Monmege) 2 M1 - MPRI