Apprentissage par renforcement
Transcription
Apprentissage par renforcement
CAMS Dynamique avec agents adaptatifs : apprentissage par renforcement JP Nadal 2007 1 Apprentissage par renforcement • • • Gain / utilité / profit non connu à l’avance Exploration : l’expérience (la sienne et/ou celle des autres) permet d’évaluer le bénéfice d’une action (d’une stratégie, d’un choix) Renforcement des actions qui se révèlent les plus efficaces : augmentation de la probabilité de choisir cette action dans le futur (exploitation des connaissances acquises) CAMS Cas le plus simple : le gain d’une action est connu immédiatement (exemple : jeux usuels de la théorie des jeux, gain distribué après chaque tour) Cas plus difficile : gain connu uniquement après une suite d’actions Encore plus difficile (mais très réaliste) : information purement qualitative « c’est bien / c’est mal » Réf. : R. S. Sutton & A. G. Barto, « Reinforcement learning », The MIT Press, 1998 Cours : R. Munos JP Nadal 2007 2 Apprentissage comportemental (behavioral) CAMS Apprentissage par renforcement (Bush Mosteller 1955 ; Cross 1973 ; Arthur 1991 ; McAllister 1991, etc ; Walliser 1997 ; Camerer 1998) • •Belief-learning, ‘fictitious play’ (Cournot 1838 ; Brown 1951 ; Robinson 1951) •Experience-Weighted Attraction (EWA) learning (Camerer & Ho 1999) • Apprentissage bayesien (Jordan 1991) Jeu itéré : A chaque instant t, l’agent i attribue à chaque action possible S un poids (‘attraction’) Ai (S, t ) ( ≈ estimation de < ui (S ) > ) Choix de Si (t) à la mode ‘QRE’ : pi (Si (t) = S) = f ( Ai (S , t ) ) / avec par exemple : f(x) = exp ( β x ) JP Nadal 2007 Σ{s} f (Ai (s , t )) (« logit ») 3 Apprentissage par renforcement Ai (Si, t ) CAMS 3 choisie à t gain ui (3 , S−i (t) ) Si = 1 Si = 2 Si = 3 Si = 4 stratégies (actions possibles) la probabilité que l’agent i choisisse Si =S est d’autant plus grande que est Ai (S, t ) est grand JP Nadal 2007 4 Apprentissage par renforcement CAMS gains ui (S , S−i (t) ) connus pour S=1,2,3,4 Ai (Si, t ) « fictitious play » Si = 1 Si = 2 Si = 3 Si = 4 stratégies (actions possibles) la probabilité que l’agent i choisisse Si =S est d’autant plus grande que est Ai (S, t ) est grand JP Nadal 2007 5 Apprentissage par renforcement Ai (Si, t+1) Si = 1 JP Nadal 2007 renormalisation : affaiblissement uniforme des Ai Si = 2 Si = 3 Si = 4 CAMS stratégies (actions possibles) 6 Apprentissage par renforcement • • Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ ui (Si , S−i (t) ) pour Si = Si (t) Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ α ui (Si , S−i (t) ) pour Si ≠ Si (t) λ≤1 µ≤1 CAMS α≤1 Cas particuliers : Cournot (meilleure réponse) : λ=1 µ=1 α=1 Ai (Si, t + 1 ) = ui ( Si , S−i (t) ) Jeu virtuel (fictitious play) : λ=µ=1/t α=1 Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + λ ui ( Si , S−i (t) ) Renforcement cumulatif : 0 < λ < 1. µ=1 α=0 Moyenne pondérée (weighted average) : 0 < λ < 1. λ=µ α=0 pour Si = Si (t) : Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ ui ( Si , S−i (t) ) pour Si ≠ Si (t) : Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) JP Nadal 2007 7