Processus Décisionnels Markoviens

Transcription

Processus Décisionnels Markoviens
1
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
Processus Décisionnels Markoviens
Représentation d’une interaction synchrone
entre un agent et le monde
États
Monde
Agent
Actions
Planification des actions d’un agent dans l’incertain
2
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
1
PDMs classiques
1. PDM classiques
Incertain probabiliste
Récompenses additives
Critère de décision EU
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Représentation dans un graphe d’état
8
0.4
0.1
2
0.2
7
État courant
Etat
9
initial
0.3
10
4
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
2
PDMs classiques
Formalisation d’un PDM
5
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Hypothèse de Markov
0.4
a
s
9
0.1
0.2
0.3
6
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
3
PDMs classiques
Décisions et Stratégies
Règles de décision : « si l’état est s alors exécuter l’action a »
Représentation par une fonction de décision
Hypothèse : observabilité totale (on connaît l’état courant)
7
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Décision dynamique
n étapes de décision (n = horizon, fini ou infini)
s
1
2
…
n-1
n
Stratégie =
8
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
4
PDMs classiques
Critères à optimiser
Horizon fini
Horizon infini
9
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Évaluation locale d’une stratégie
Le cas déterministe
v
d(u)
d(v)
u
à horizon 1
10
Patrice Perny − RHAD
à horizon 2
Cours 4.2 - Processus décisionnels Markoviens
5
PDMs classiques
Évaluation Locale d’une stratégie
Le cas non-déterministe
d(x)
x
v
d(v)
à horizon 1
u
d(u)
y
d(y)
à horizon 2
+γ
11
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Evaluation Locale d’une stratégie
Dernière décision
Décision à t étapes de la fin
12
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
6
PDMs classiques
Décisions optimales (horizon fini)
Dernière décision
Décision à t étapes de la fin
γ=1
13
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Algorithme pour le cas d’un horizon fini
14
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
7
PDMs classiques
Algorithme d’itération de la valeur
15
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Une autre approche
16
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
8
PDMs classiques
Application : planification en IA
1
Robot
3
2
4
5
6
7
0.5
0.5
1
goals
On souhaite atteindre l’objectif dans une fenêtre de
temps qui autorise au plus 3 mouvements
0.4
17
1
1
0.4
0.2
1
Patrice Perny − RHAD
1
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Graphe de décision associé
1
3
2
4
5
6
7
0.5
0.5
0.5
2
1
0.5
4
0
2
0
5
0.5
7
1
6
0.5
goals
0.5
0.5
4
0.5
0.5
3
0.8
0.6
0.5
5
1
1
0.6
4
0.5
7
Patrice Perny − RHAD
0.8
0.5
6
18
0.5
0.5
Cours 4.2 - Processus décisionnels Markoviens
9
PDMs classiques
Décisions optimales (horizon infini)
19
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Calcul de la stratégie optimale
Algorithme de l’itération de la valeur (Bellman, 57)
20
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
10
PDMs classiques
Garantie de performance
Borne de l’erreur (Williams and Baird, 1993)
21
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Exemple
γ = 0.75
s1
ql
qr
V1
22
s2
s1
0
0
0
s3
s2
0
1
1
s4
s3
0
0
0
Patrice Perny − RHAD
s4
1
0
1
left
s1
s2
s3
s4
s1
0,9
0,9
0
0
s2
0,1
0
0,9
0
s3
0
0,1
0
0,9
s4
0
0
0,1
0,1
right
s1
s2
s3
s4
s1
0.1
0,1
0
0
s2
0,9
0
0,1
0
s3
0
0,9
0
0,1
s4
0
0
0,9
0.9
Cours 4.2 - Processus décisionnels Markoviens
11
PDMs classiques
Itération de la valeur
ql
qr
s1
0
0
0
s2
0
1
1
s3
0
0
0
s4
1
0
1
ql
qr
0.08 0.00
0.68 1.00
0.675
1
0.75 1.08
0.75 0.00
0.75 1.075
ql
qr
0.53 0.51 0.76 1.59
0.68 1.56 0.80 0.06
0.675 1.557 0.801 1.587
22
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.562 2.316 1.777 2.377
s1
0.9
0.9
0
0
s2
0.1
0
0.9
0
s3
0
0.1
0
0.9
s4
0
0
0.1
0.1
right
s1
s2
s3
s4
s1
0.1
0.1
0
0
s2
0.9
0
0.1
0
s3
0
0.9
0
0.1
s4
0
0
0.9
0.9
24
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.564 2.317 1.779 2.379
23
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.563 2.317 1.778 2.378
s1
23
left
s1
s2
s3
s4
Patrice Perny − RHAD
s2
s3
s4
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Algorithme d’itération de la valeur
24
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
12
PDMs classiques
Une autre approche
25
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
PDMs classiques
Observabilité partielle (POMDPs)
L’agent n’est pas capable de connaître avec
certitude l’état courant
Déplacement à droite
(qui réussit à 0.9)
s1
s2
s3
s4
Observation
on ne voit pas le but
Révision des croyances
26
Patrice Perny − RHAD
0.33
0.33
0.33
0.1
0.45
0.45
Cours 4.2 - Processus décisionnels Markoviens
13
PDMs classiques
Pour aller plus loin…
Tutorial sur le web
http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html
Articles
http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html
27
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
14

Documents pareils