Processus Décisionnels Markoviens

Transcription

1
Patrice Perny − RHAD
Cours 4.2 - Processus décisionnels Markoviens
Processus Décisionnels Markoviens
Représentation d’une interaction synchrone
entre un agent et le monde
États
Monde
Agent
Actions
Planification des actions d’un agent dans l’incertain
2
1
PDMs classiques
1. PDM classiques
Incertain probabiliste
Récompenses additives
Critère de décision EU
PDMs classiques
Représentation dans un graphe d’état
8
0.4
0.1
2
0.2
7
État courant
Etat
9
initial
0.3
10
4
2
PDMs classiques
Formalisation d’un PDM
5
PDMs classiques
Hypothèse de Markov
0.4
a
s
9
0.1
0.2
0.3
6
3
PDMs classiques
Décisions et Stratégies
Règles de décision : « si l’état est s alors exécuter l’action a »
Représentation par une fonction de décision
Hypothèse : observabilité totale (on connaît l’état courant)
7
PDMs classiques
Décision dynamique
n étapes de décision (n = horizon, fini ou infini)
s
1
2
…
n-1
n
Stratégie =
8
4
PDMs classiques
Critères à optimiser
Horizon fini
Horizon infini
9
PDMs classiques
Évaluation locale d’une stratégie
Le cas déterministe
v
d(u)
d(v)
u
à horizon 1
10
à horizon 2
5
PDMs classiques
Évaluation Locale d’une stratégie
Le cas non-déterministe
d(x)
x
v
d(v)
à horizon 1
u
d(u)
y
d(y)
à horizon 2
+γ
11
PDMs classiques
Evaluation Locale d’une stratégie
Dernière décision
Décision à t étapes de la fin
12
6
PDMs classiques
Décisions optimales (horizon fini)
Dernière décision
Décision à t étapes de la fin
γ=1
13
PDMs classiques
Algorithme pour le cas d’un horizon fini
14
7
PDMs classiques
Algorithme d’itération de la valeur
15
PDMs classiques
Une autre approche
16
8
PDMs classiques
Application : planification en IA
1
Robot
3
2
4
5
6
7
0.5
0.5
1
goals
On souhaite atteindre l’objectif dans une fenêtre de
temps qui autorise au plus 3 mouvements
0.4
17
1
1
0.4
0.2
1
1
PDMs classiques
Graphe de décision associé
1
3
2
4
5
6
7
0.5
0.5
0.5
2
1
0.5
4
0
2
0
5
0.5
7
1
6
0.5
goals
0.5
0.5
4
0.5
0.5
3
0.8
0.6
0.5
5
1
1
0.6
4
0.5
7
0.8
0.5
6
18
0.5
0.5
9
PDMs classiques
Décisions optimales (horizon infini)
19
PDMs classiques
Calcul de la stratégie optimale
Algorithme de l’itération de la valeur (Bellman, 57)
20
10
PDMs classiques
Garantie de performance
Borne de l’erreur (Williams and Baird, 1993)
21
PDMs classiques
Exemple
γ = 0.75
s1
ql
qr
V1
22
s2
s1
0
0
0
s3
s2
0
1
1
s4
s3
0
0
0
s4
1
0
1
left
s1
s2
s3
s4
s1
0,9
0,9
0
0
s2
0,1
0
0,9
0
s3
0
0,1
0
0,9
s4
0
0
0,1
0,1
right
s1
s2
s3
s4
s1
0.1
0,1
0
0
s2
0,9
0
0,1
0
s3
0
0,9
0
0,1
s4
0
0
0,9
0.9
11
PDMs classiques
Itération de la valeur
ql
qr
s1
0
0
0
s2
0
1
1
s3
0
0
0
s4
1
0
1
ql
qr
0.08 0.00
0.68 1.00
0.675
1
0.75 1.08
0.75 0.00
0.75 1.075
ql
qr
0.53 0.51 0.76 1.59
0.68 1.56 0.80 0.06
0.675 1.557 0.801 1.587
22
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.562 2.316 1.777 2.377
s1
0.9
0.9
0
0
s2
0.1
0
0.9
0
s3
0
0.1
0
0.9
s4
0
0
0.1
0.1
right
s1
s2
s3
s4
s1
0.1
0.1
0
0
s2
0.9
0
0.1
0
s3
0
0.9
0
0.1
s4
0
0
0.9
0.9
24
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.564 2.317 1.779 2.379
23
ql
1.23 1.19 1.74 2.38
qr
1.56 2.32 1.78 0.13
1.563 2.317 1.778 2.378
s1
23
left
s1
s2
s3
s4
s2
s3
s4
PDMs classiques
Algorithme d’itération de la valeur
24
12
PDMs classiques
Une autre approche
25
PDMs classiques
Observabilité partielle (POMDPs)
L’agent n’est pas capable de connaître avec
certitude l’état courant
Déplacement à droite
(qui réussit à 0.9)
s1
s2
s3
s4
Observation
on ne voit pas le but
Révision des croyances
26
0.33
0.33
0.33
0.1
0.45
0.45
13
PDMs classiques
Pour aller plus loin…
Tutorial sur le web
http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html
Articles
http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html
27
14

Processus Décisionnels Markoviens

Transcription

Documents pareils

PDMS 3D-Design - Tebodin Peters Engineering GmbH

Aimer sans favoritisme

Sociologie des organisations – Comportement organisationnel

2014 01 CA 14 février 2014 nomination Directeur EPCC

avis de recherche patrice leduc

match de gala.ai - Sida Info Service

Ces pollens qui nous soignent

Laboratoire de recherche sur le cancer, Londres. - Serimedis