Exercices - Aging in Vision and Action

Transcription

Exercices - Aging in Vision and Action
UE 4I702, TD9 Apprentissage par renforcement
EXERCICE I. MACHINES À SOUS
A. On considère une machine à sous avec N actions (bras)
{a1,a2 ,…,aN } .
La valeur d’une
action est définie par : Q(an ) = E(r | an ) . Une estimation de l’espérance après K épreuves
s’écrit QK (an ) =
1 K
∑ ri (an ) . Vérifier que cette estimation est équivalente à une estimation “enK i=1
ligne” suivante :
Q = Q préc + ΔQ , où ΔQ = η (r − Q préc ) avec η =
1
K +1
Effectuer les 3 premières itérations avec les deux méthodes avec r1 = −2,r2 = 0,r3 = 8 .
B. Tâche de saccade. On teste un singe dans une expérience suivante : le singe est assis devant
un écran avec la tête fixe. Au début de l’expérience, le singe fixe son regard sur un croix au
centre de l’écran (appelé “point de fixation”). Une seconde plus tard, 4 cercles (appelées
“cibles”) apparaissent et le singe doit faire une saccade vers une des cibles. Après la saccade
le singe obtient une récompense (quelques gouttes de jus). Le nombre de gouttes est aléatoire
entre 1 est 20, avec la moyenne qui dépend de cible ( µ1 ,!, µ 4 ). On répète l’expérience K
fois. Fixation
Saccade
1. On voudrait modéliser le comportement du singe dans cette expérience. Ecrire un
algorithme (en pseudo-code) qui simule le comportement du singe en utilisant le concept
d’une machine à sous et la stratégie ε-glouton. Quelles sont les paramètres du modèle ?
2. Supposons que pendant l’expérience on enregistre des activités de neurones
dopaminergiques. Quelle valeur dans le modèle de l’étape précédente correspond aux
activités enregistrées ? Imaginez que vous êtes l’expérimentateur, comment pourriez-vous
vérifier la compatibilité du modèle avec l’activité de neurones dopaminergiques (après
l’apprentissage)?
3. On change l’expérience de la manière suivante : à chaque épreuve, le croix de fixation a
une couleur différente (choisie au hasard parmi 3 couleurs possibles). Les récompenses
moyennes µ1 ,!, µ 4 changent ces valeurs un fonction de la couleur. Comment faut-il
changer l’algorithme du modèle ?
EXERCICE II. PROCESSUS DE DÉCISION MARKOVIEN (MDP)
Pour un MDP général, la fonction valeur est définie par Q(s,a) = E(Rt | s,a) , avec la récompense
totale Rt = rt+1 + γ rt+2 + γ 2 rt+3 + ... =
∞
∑γ
k
rt+k+1 . La mise à jour de la fonction-valeur selon
k=0
l’algorithme SARSA se fait par :
Q(s,a) = Q préc (s,a) + ΔQ(s,a) = Q préc (s,a) + η ⎡⎣ r + γ Q(s ',a') − Q préc (s,a) ⎤⎦
1
où η est le taux d’apprentissage (learning rate) et γ
factor).
est le facteur de dévaluation (discount
A. On considère une tâche de conditionnement opérant dans une boîte de Skinner, modélisée par
un MDP suivant :
On note les états s1 = "début", s2 = "lumière blue", s 3 = "lumière rouge", s4 = "fin" et les actions
a1 = 'levier ', a2 = 'attendre 2s' .
1. Calculer la récompense future totale Rt pour la chaîne d’actions optimales à partir de l’état
s1 avec le facteur de dévaluation γ = 0 . La même question pour γ = 1 et γ = 0.8 .
2. Supposons que l’animal choisit toujours la meilleure action dans tous les états. Calculer
Q(s1 ,a1 ) et Q(s1 ,a2 ) et l’action optimale dans l’état s1 pour les trois valeurs du paramètre
γ . Quel comportement (i.e. en relation avec les différentes valeurs de γ ) vous paraît plus
“intelligent” où plus “impulsif”? Proposer une expérience pour déterminer la valeur de γ
chez un animal particulier.
B. Navigation dans un couloir rectiligne. Dans ce modèle de comportement, il y a 9 états (plus 2
états terminaux), correspondant aux différentes positions dans le couloir, et deux actions ( a1 aller à droite et a2 - aller à gauche). La récompense est 0 partout, sauf après l’action a1 depuis
s9 ( r = 1 dans ce cas).
1. Calculer la fonction-valeur pour le comportement optimal avec le facteur de devaluation γ
(voir un exemple de cours).
2. Rappeler l’algorithme SARSA et calculer 4 premières mises à jour non-nul de cet
algorithme depuis l’état initial s2 , avec le taux d’apprentissage η = 1 et la probabilité
d’exploration ε = 0.1 . Est-ce que l’algorithme retrouve la fonction-valeur optimale ? Est-ce
que le choix des valeurs initiales pour Q(s,a) changent le résultat final ?
2