TP 7 - LSV

Transcription

TP 7 - LSV
2013/2014 - TP 7
Lundi 3 Mars
Apprentissage
Apprentissage par renforcement
On cherche à apprendre à jouer au Blackjack 1 . Pour mémoire, voici la règle
que nous adopterons ici :
La partie oppose un joueur et la banque, et se joue à l’aide d’un jeu
de 52 cartes. Le but est de battre la banque sans dépasser 21. Dès
qu’un joueur fait plus que 21, il perd. La valeur des cartes est établie
comme suit : de 2 à 10, il s’agit de la valeur nominale de la carte,
chaque figure vaut 10 points et l’As vaut 11 points. Au début de la
partie le croupier distribue une carte face visible au joueur et tire une
carte face visible également pour lui. Il tire ensuite pour le joueur
une seconde carte face visible et tire une seconde carte face cachée
pour lui. Puis il demande au joueur l’option qu’il désire choisir : soit
demander une nouvelle carte (et ce autant de fois qu’il le souhaite),
soit s’arrêter. Si après le tirage d’une carte, il a dépassé 21, il perd.
S’il décide de s’arrêter, le croupier joue ensuite pour la banque selon
la règle suivante : la banque tire à 16, s’arrête à 17. Ainsi, le croupier
tire des cartes jusqu’à atteindre un nombre compris entre 17 et 21. S’il
fait plus de 21, le joueur gagne. Sinon, le joueur gagne si sa somme est
supérieure à celle de la banque. 2
Le but est de déterminer l’espérance de gain du joueur lorsqu’on fixe sa
stratégie, puis de trouver une stratégie maximisant cette espérance.
On modélise ce problème sous la forme d’un processus de décision markovien.
Celui-ci est composé d’un ensemble d’états (représentant la connaissance courante
du joueur), reliés entre eux par des transitions étiquetées par les actions possibles
du joueur. Parmi les états finaux, certains états sont gagnants pour le joueur,
d’autres perdants et les autres représentent les cas d’égalité : on leur associe un
gain +1, -1 et 0 respectivement.
1. Décrire aussi précisément que possible le processus associé au Blackjack. Combien y a-t-il d’états ? Comment déterminer la probabilité
de gagner du joueur lorsqu’il a décidé de s’arrêter ?
1
Évaluation d’une stratégie fixée
On considère la stratégie suivante du joueur : le joueur tire à 17, s’arrête à
18. On cherche à déterminer quelle est sa probabilité de gagner dans ce cas.
Il existe de nombreuses techniques permettant d’évaluer une stratégie fixée.
Cependant, elles nécessitent de connaı̂tre entièrement, et à l’avance le processus de
décision markovien, et elles sont coûteuses lorsque celui-ci est large. On utilise une
méthode alternative basée sur l’échantillonage, appelée méthode de Monte-Carlo.
L’idée est de simuler des parties de Blackjack suivant la stratégie fixée. À
chaque état du processus, on associe la moyenne des gains des parties contenant
cet état. On s’arrête lorsqu’on a simulé un nombre de parties prédéfini.
2. Appliquer cet algorithme et en déduire l’espérance de gain du joueur
appliquant la stratégie fixée.
1. Cet exemple est issu du livre Reinforcement Learning de Richard Sutton et Andrew Barto,
disponible en ligne à l’adresse http://webdocs.cs.ualberta.ca/~sutton/book/ebook/
2. Là encore, on a simplifié la règle... Si vous voulez en savoir plus, allez sur la page Wikipédia
sur jeu.
Benoı̂t Barbot (source B. Monmege)
1
M1 - MPRI
2013/2014 - TP 7
Lundi 3 Mars
Apprentissage
La stratégie choisie est indépendante de la carte retournée de la banque.
Considérons donc la stratégie suivante : si la banque a une carte de valeur inférieure
à 4, le joueur tire à 17, s’arrête à 18 ; sinon, le joueur tire à 19, s’arrête à 20.
3. Appliquer la méthode de Monte-Carlo pour trouver l’espérance de
gain de cette nouvelle stratégie. Comment varie-t-elle en fonction de la
carte de la banque ?
2
Recherche d’une stratégie optimale
On cherche maintenant à estimer une stratégie optimale du joueur. L’idée est
d’alterner deux étapes : une étape E d’évaluation de la stratégie courante à l’aide
de la méthode de Monte-Carlo, puis une étape I d’amélioration 3 de la stratégie.
Afin de pouvoir améliorer la stratégie, on enrichit la méthode de Monte-Carlo
afin qu’elle associe une espérance de gain Qπ (s, a) à chaque paire (s, a) d’état et
d’action a pour une stratégie π : il s’agit de l’espérance de gain si on commence
le jeu dans l’état s, en choisissant d’abord l’action a puis en suivant ensuite la
stratégie π.
4. Comment modifier la méthode de Monte-Carlo pour qu’elle calcule
la fonction Qπ pour une stratégie π fixée.
Pour une stratégie π fixée, l’étape E évalue donc la fonction Qπ à l’aide
de la méthode de Monte-Carlo. L’étape I améliore alors π en fonction de cette
évaluation.
5. Expliquer comment mettre à jour la stratégie π étant donnée la
fonction Qπ .
6. Montrer que pour tout état s du processus, l’espérance de gain en
suivant la stratégie mise à jour à partir de s est supérieure ou égale
à l’espérance de gain en suivant π à partir de s. En déduire que, en
supposant que l’étape d’évaluation calcule exactement la fonction Qπ ,
l’algorithme alternant les étapes E et I converge en un nombre fini
d’étapes.
Cependant, la méthode de Monte-Carlo ne calcule pas exactement la fonction
Qπ , et obtenir une bonne approximation peut demander beaucoup de temps de
calcul. À la place, on pourrait calculer une estimation grossière de Qπ avant d’appliquer l’étape d’amélioration. En fait, en poussant à l’extrême ce raisonnement,
on exécute une simulation supplémentaire par étape E. On calcule alors la valeur courante de la fonction Q en faisant la moyenne de toutes les simulations
précédentes. La mise à jour de l’étape I n’est faite cependant que pour les états
apparaissant dans la dernière simulation.
7. Appliquer cet algorithme pour trouver une stratégie optimale pour
le Blackjack. Visualiser cette stratégie sur un graphique avec la carte
de la banque en abscisse et la somme courante du joueur en ordonnée.
8. Comment modifier notre étude dans le cas où l’As peut valoir 1 ou
11 au choix ? Trouver alors une stratégie optimale.
3. L’initiale I est pour improvement.
Benoı̂t Barbot (source B. Monmege)
2
M1 - MPRI

Documents pareils