TP 7 - LSV

Transcription

TP 7 - LSV

2013/2014 - TP 7
Lundi 3 Mars
Apprentissage
Apprentissage par renforcement
On cherche à apprendre à jouer au Blackjack 1 . Pour mémoire, voici la règle
que nous adopterons ici :
La partie oppose un joueur et la banque, et se joue à l’aide d’un jeu
de 52 cartes. Le but est de battre la banque sans dépasser 21. Dès
qu’un joueur fait plus que 21, il perd. La valeur des cartes est établie
comme suit : de 2 à 10, il s’agit de la valeur nominale de la carte,
chaque figure vaut 10 points et l’As vaut 11 points. Au début de la
partie le croupier distribue une carte face visible au joueur et tire une
carte face visible également pour lui. Il tire ensuite pour le joueur
une seconde carte face visible et tire une seconde carte face cachée
pour lui. Puis il demande au joueur l’option qu’il désire choisir : soit
demander une nouvelle carte (et ce autant de fois qu’il le souhaite),
soit s’arrêter. Si après le tirage d’une carte, il a dépassé 21, il perd.
S’il décide de s’arrêter, le croupier joue ensuite pour la banque selon
la règle suivante : la banque tire à 16, s’arrête à 17. Ainsi, le croupier
tire des cartes jusqu’à atteindre un nombre compris entre 17 et 21. S’il
fait plus de 21, le joueur gagne. Sinon, le joueur gagne si sa somme est
supérieure à celle de la banque. 2
Le but est de déterminer l’espérance de gain du joueur lorsqu’on fixe sa
stratégie, puis de trouver une stratégie maximisant cette espérance.
On modélise ce problème sous la forme d’un processus de décision markovien.
Celui-ci est composé d’un ensemble d’états (représentant la connaissance courante
du joueur), reliés entre eux par des transitions étiquetées par les actions possibles
du joueur. Parmi les états finaux, certains états sont gagnants pour le joueur,
d’autres perdants et les autres représentent les cas d’égalité : on leur associe un
gain +1, -1 et 0 respectivement.
1. Décrire aussi précisément que possible le processus associé au Blackjack. Combien y a-t-il d’états ? Comment déterminer la probabilité
de gagner du joueur lorsqu’il a décidé de s’arrêter ?
1
Évaluation d’une stratégie fixée
On considère la stratégie suivante du joueur : le joueur tire à 17, s’arrête à
18. On cherche à déterminer quelle est sa probabilité de gagner dans ce cas.
Il existe de nombreuses techniques permettant d’évaluer une stratégie fixée.
Cependant, elles nécessitent de connaı̂tre entièrement, et à l’avance le processus de
décision markovien, et elles sont coûteuses lorsque celui-ci est large. On utilise une
méthode alternative basée sur l’échantillonage, appelée méthode de Monte-Carlo.
L’idée est de simuler des parties de Blackjack suivant la stratégie fixée. À
chaque état du processus, on associe la moyenne des gains des parties contenant
cet état. On s’arrête lorsqu’on a simulé un nombre de parties prédéfini.
2. Appliquer cet algorithme et en déduire l’espérance de gain du joueur
appliquant la stratégie fixée.
1. Cet exemple est issu du livre Reinforcement Learning de Richard Sutton et Andrew Barto,
disponible en ligne à l’adresse http://webdocs.cs.ualberta.ca/~sutton/book/ebook/
2. Là encore, on a simplifié la règle... Si vous voulez en savoir plus, allez sur la page Wikipédia
sur jeu.
Benoı̂t Barbot (source B. Monmege)
1
M1 - MPRI
2013/2014 - TP 7
Lundi 3 Mars
Apprentissage
La stratégie choisie est indépendante de la carte retournée de la banque.
Considérons donc la stratégie suivante : si la banque a une carte de valeur inférieure
à 4, le joueur tire à 17, s’arrête à 18 ; sinon, le joueur tire à 19, s’arrête à 20.
3. Appliquer la méthode de Monte-Carlo pour trouver l’espérance de
gain de cette nouvelle stratégie. Comment varie-t-elle en fonction de la
carte de la banque ?
2
Recherche d’une stratégie optimale
On cherche maintenant à estimer une stratégie optimale du joueur. L’idée est
d’alterner deux étapes : une étape E d’évaluation de la stratégie courante à l’aide
de la méthode de Monte-Carlo, puis une étape I d’amélioration 3 de la stratégie.
Afin de pouvoir améliorer la stratégie, on enrichit la méthode de Monte-Carlo
afin qu’elle associe une espérance de gain Qπ (s, a) à chaque paire (s, a) d’état et
d’action a pour une stratégie π : il s’agit de l’espérance de gain si on commence
le jeu dans l’état s, en choisissant d’abord l’action a puis en suivant ensuite la
stratégie π.
4. Comment modifier la méthode de Monte-Carlo pour qu’elle calcule
la fonction Qπ pour une stratégie π fixée.
Pour une stratégie π fixée, l’étape E évalue donc la fonction Qπ à l’aide
de la méthode de Monte-Carlo. L’étape I améliore alors π en fonction de cette
évaluation.
5. Expliquer comment mettre à jour la stratégie π étant donnée la
fonction Qπ .
6. Montrer que pour tout état s du processus, l’espérance de gain en
suivant la stratégie mise à jour à partir de s est supérieure ou égale
à l’espérance de gain en suivant π à partir de s. En déduire que, en
supposant que l’étape d’évaluation calcule exactement la fonction Qπ ,
l’algorithme alternant les étapes E et I converge en un nombre fini
d’étapes.
Cependant, la méthode de Monte-Carlo ne calcule pas exactement la fonction
Qπ , et obtenir une bonne approximation peut demander beaucoup de temps de
calcul. À la place, on pourrait calculer une estimation grossière de Qπ avant d’appliquer l’étape d’amélioration. En fait, en poussant à l’extrême ce raisonnement,
on exécute une simulation supplémentaire par étape E. On calcule alors la valeur courante de la fonction Q en faisant la moyenne de toutes les simulations
précédentes. La mise à jour de l’étape I n’est faite cependant que pour les états
apparaissant dans la dernière simulation.
7. Appliquer cet algorithme pour trouver une stratégie optimale pour
le Blackjack. Visualiser cette stratégie sur un graphique avec la carte
de la banque en abscisse et la somme courante du joueur en ordonnée.
8. Comment modifier notre étude dans le cas où l’As peut valoir 1 ou
11 au choix ? Trouver alors une stratégie optimale.
3. L’initiale I est pour improvement.
Benoı̂t Barbot (source B. Monmege)
2
M1 - MPRI

TP 7 - LSV

Transcription

Documents pareils

Le sujet

Fiche de préparation d`une sortie géologique

Yummy. Contenu: 106 cartes 1 règle Le jeu contient 106 cartes

Théorie des Jeux - Ceremade - Université Paris

L`Homme de cour

Jeux sous forme extensive

Jeux sous forme extensive

Volleyball de plage – réglementation spécifique

Programme Staff technique

La Gestion d`Actifs Quantitative

Nos références Clients en France – DOM/TOM

Raisonnement, éléments de solution

Pour toutes et tous Pour info Personnes déléguées

lhbam.com RUFF RYDERS PURE LAINE

Coupe du Centre I - Ligue du Centre de Golf

Hockey 3 contre 3 St-Constant Équipe Roux Vikings

RI BCM - Badminton Club Meylan

Théorie des jeux

Jeux sous forme normale

cours 8 : introduction a la theorie des jeux

PROJET DE FIN D`ETUDES Université Galatasaray ÉQUILIBRE DE

La théorie des jeux