Processus Décisionnels Markoviens
Transcription
Processus Décisionnels Markoviens
1 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens Processus Décisionnels Markoviens Représentation d’une interaction synchrone entre un agent et le monde États Monde Agent Actions Planification des actions d’un agent dans l’incertain 2 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 1 PDMs classiques 1. PDM classiques Incertain probabiliste Récompenses additives Critère de décision EU Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Représentation dans un graphe d’état 8 0.4 0.1 2 0.2 7 État courant Etat 9 initial 0.3 10 4 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 2 PDMs classiques Formalisation d’un PDM 5 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Hypothèse de Markov 0.4 a s 9 0.1 0.2 0.3 6 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 3 PDMs classiques Décisions et Stratégies Règles de décision : « si l’état est s alors exécuter l’action a » Représentation par une fonction de décision Hypothèse : observabilité totale (on connaît l’état courant) 7 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Décision dynamique n étapes de décision (n = horizon, fini ou infini) s 1 2 … n-1 n Stratégie = 8 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 4 PDMs classiques Critères à optimiser Horizon fini Horizon infini 9 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Évaluation locale d’une stratégie Le cas déterministe v d(u) d(v) u à horizon 1 10 Patrice Perny − RHAD à horizon 2 Cours 4.2 - Processus décisionnels Markoviens 5 PDMs classiques Évaluation Locale d’une stratégie Le cas non-déterministe d(x) x v d(v) à horizon 1 u d(u) y d(y) à horizon 2 +γ 11 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Evaluation Locale d’une stratégie Dernière décision Décision à t étapes de la fin 12 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 6 PDMs classiques Décisions optimales (horizon fini) Dernière décision Décision à t étapes de la fin γ=1 13 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Algorithme pour le cas d’un horizon fini 14 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 7 PDMs classiques Algorithme d’itération de la valeur 15 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Une autre approche 16 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 8 PDMs classiques Application : planification en IA 1 Robot 3 2 4 5 6 7 0.5 0.5 1 goals On souhaite atteindre l’objectif dans une fenêtre de temps qui autorise au plus 3 mouvements 0.4 17 1 1 0.4 0.2 1 Patrice Perny − RHAD 1 Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Graphe de décision associé 1 3 2 4 5 6 7 0.5 0.5 0.5 2 1 0.5 4 0 2 0 5 0.5 7 1 6 0.5 goals 0.5 0.5 4 0.5 0.5 3 0.8 0.6 0.5 5 1 1 0.6 4 0.5 7 Patrice Perny − RHAD 0.8 0.5 6 18 0.5 0.5 Cours 4.2 - Processus décisionnels Markoviens 9 PDMs classiques Décisions optimales (horizon infini) 19 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Calcul de la stratégie optimale Algorithme de l’itération de la valeur (Bellman, 57) 20 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 10 PDMs classiques Garantie de performance Borne de l’erreur (Williams and Baird, 1993) 21 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Exemple γ = 0.75 s1 ql qr V1 22 s2 s1 0 0 0 s3 s2 0 1 1 s4 s3 0 0 0 Patrice Perny − RHAD s4 1 0 1 left s1 s2 s3 s4 s1 0,9 0,9 0 0 s2 0,1 0 0,9 0 s3 0 0,1 0 0,9 s4 0 0 0,1 0,1 right s1 s2 s3 s4 s1 0.1 0,1 0 0 s2 0,9 0 0,1 0 s3 0 0,9 0 0,1 s4 0 0 0,9 0.9 Cours 4.2 - Processus décisionnels Markoviens 11 PDMs classiques Itération de la valeur ql qr s1 0 0 0 s2 0 1 1 s3 0 0 0 s4 1 0 1 ql qr 0.08 0.00 0.68 1.00 0.675 1 0.75 1.08 0.75 0.00 0.75 1.075 ql qr 0.53 0.51 0.76 1.59 0.68 1.56 0.80 0.06 0.675 1.557 0.801 1.587 22 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.562 2.316 1.777 2.377 s1 0.9 0.9 0 0 s2 0.1 0 0.9 0 s3 0 0.1 0 0.9 s4 0 0 0.1 0.1 right s1 s2 s3 s4 s1 0.1 0.1 0 0 s2 0.9 0 0.1 0 s3 0 0.9 0 0.1 s4 0 0 0.9 0.9 24 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.564 2.317 1.779 2.379 23 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.563 2.317 1.778 2.378 s1 23 left s1 s2 s3 s4 Patrice Perny − RHAD s2 s3 s4 Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Algorithme d’itération de la valeur 24 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 12 PDMs classiques Une autre approche 25 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens PDMs classiques Observabilité partielle (POMDPs) L’agent n’est pas capable de connaître avec certitude l’état courant Déplacement à droite (qui réussit à 0.9) s1 s2 s3 s4 Observation on ne voit pas le but Révision des croyances 26 Patrice Perny − RHAD 0.33 0.33 0.33 0.1 0.45 0.45 Cours 4.2 - Processus décisionnels Markoviens 13 PDMs classiques Pour aller plus loin… Tutorial sur le web http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html Articles http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html 27 Patrice Perny − RHAD Cours 4.2 - Processus décisionnels Markoviens 14