Exercices - Aging in Vision and Action
Transcription
Exercices - Aging in Vision and Action
UE 4I702, TD9 Apprentissage par renforcement EXERCICE I. MACHINES À SOUS A. On considère une machine à sous avec N actions (bras) {a1,a2 ,…,aN } . La valeur d’une action est définie par : Q(an ) = E(r | an ) . Une estimation de l’espérance après K épreuves s’écrit QK (an ) = 1 K ∑ ri (an ) . Vérifier que cette estimation est équivalente à une estimation “enK i=1 ligne” suivante : Q = Q préc + ΔQ , où ΔQ = η (r − Q préc ) avec η = 1 K +1 Effectuer les 3 premières itérations avec les deux méthodes avec r1 = −2,r2 = 0,r3 = 8 . B. Tâche de saccade. On teste un singe dans une expérience suivante : le singe est assis devant un écran avec la tête fixe. Au début de l’expérience, le singe fixe son regard sur un croix au centre de l’écran (appelé “point de fixation”). Une seconde plus tard, 4 cercles (appelées “cibles”) apparaissent et le singe doit faire une saccade vers une des cibles. Après la saccade le singe obtient une récompense (quelques gouttes de jus). Le nombre de gouttes est aléatoire entre 1 est 20, avec la moyenne qui dépend de cible ( µ1 ,!, µ 4 ). On répète l’expérience K fois. Fixation Saccade 1. On voudrait modéliser le comportement du singe dans cette expérience. Ecrire un algorithme (en pseudo-code) qui simule le comportement du singe en utilisant le concept d’une machine à sous et la stratégie ε-glouton. Quelles sont les paramètres du modèle ? 2. Supposons que pendant l’expérience on enregistre des activités de neurones dopaminergiques. Quelle valeur dans le modèle de l’étape précédente correspond aux activités enregistrées ? Imaginez que vous êtes l’expérimentateur, comment pourriez-vous vérifier la compatibilité du modèle avec l’activité de neurones dopaminergiques (après l’apprentissage)? 3. On change l’expérience de la manière suivante : à chaque épreuve, le croix de fixation a une couleur différente (choisie au hasard parmi 3 couleurs possibles). Les récompenses moyennes µ1 ,!, µ 4 changent ces valeurs un fonction de la couleur. Comment faut-il changer l’algorithme du modèle ? EXERCICE II. PROCESSUS DE DÉCISION MARKOVIEN (MDP) Pour un MDP général, la fonction valeur est définie par Q(s,a) = E(Rt | s,a) , avec la récompense totale Rt = rt+1 + γ rt+2 + γ 2 rt+3 + ... = ∞ ∑γ k rt+k+1 . La mise à jour de la fonction-valeur selon k=0 l’algorithme SARSA se fait par : Q(s,a) = Q préc (s,a) + ΔQ(s,a) = Q préc (s,a) + η ⎡⎣ r + γ Q(s ',a') − Q préc (s,a) ⎤⎦ 1 où η est le taux d’apprentissage (learning rate) et γ factor). est le facteur de dévaluation (discount A. On considère une tâche de conditionnement opérant dans une boîte de Skinner, modélisée par un MDP suivant : On note les états s1 = "début", s2 = "lumière blue", s 3 = "lumière rouge", s4 = "fin" et les actions a1 = 'levier ', a2 = 'attendre 2s' . 1. Calculer la récompense future totale Rt pour la chaîne d’actions optimales à partir de l’état s1 avec le facteur de dévaluation γ = 0 . La même question pour γ = 1 et γ = 0.8 . 2. Supposons que l’animal choisit toujours la meilleure action dans tous les états. Calculer Q(s1 ,a1 ) et Q(s1 ,a2 ) et l’action optimale dans l’état s1 pour les trois valeurs du paramètre γ . Quel comportement (i.e. en relation avec les différentes valeurs de γ ) vous paraît plus “intelligent” où plus “impulsif”? Proposer une expérience pour déterminer la valeur de γ chez un animal particulier. B. Navigation dans un couloir rectiligne. Dans ce modèle de comportement, il y a 9 états (plus 2 états terminaux), correspondant aux différentes positions dans le couloir, et deux actions ( a1 aller à droite et a2 - aller à gauche). La récompense est 0 partout, sauf après l’action a1 depuis s9 ( r = 1 dans ce cas). 1. Calculer la fonction-valeur pour le comportement optimal avec le facteur de devaluation γ (voir un exemple de cours). 2. Rappeler l’algorithme SARSA et calculer 4 premières mises à jour non-nul de cet algorithme depuis l’état initial s2 , avec le taux d’apprentissage η = 1 et la probabilité d’exploration ε = 0.1 . Est-ce que l’algorithme retrouve la fonction-valeur optimale ? Est-ce que le choix des valeurs initiales pour Q(s,a) changent le résultat final ? 2