Apprentissage par renforcement

Transcription

Apprentissage par renforcement
CAMS
Dynamique avec agents adaptatifs :
apprentissage par renforcement
JP Nadal 2007
1
Apprentissage par renforcement
•
•
•
Gain / utilité / profit non connu à l’avance
Exploration : l’expérience (la sienne et/ou celle des autres) permet
d’évaluer le bénéfice d’une action (d’une stratégie, d’un choix)
Renforcement des actions qui se révèlent les plus efficaces :
augmentation de la probabilité de choisir cette action dans le futur
(exploitation des connaissances acquises)
CAMS
Cas le plus simple : le gain d’une action est connu immédiatement
(exemple :
jeux usuels de la théorie des jeux, gain distribué après chaque tour)
Cas plus difficile : gain connu uniquement après une suite d’actions
Encore plus difficile (mais très réaliste) : information purement qualitative
« c’est bien / c’est mal »
Réf. : R. S. Sutton & A. G. Barto, « Reinforcement learning », The MIT Press, 1998
Cours : R. Munos
JP Nadal 2007
2
Apprentissage comportemental (behavioral)
CAMS
Apprentissage par renforcement (Bush Mosteller 1955 ; Cross 1973 ; Arthur
1991 ; McAllister 1991, etc ; Walliser 1997 ; Camerer 1998)
•
•Belief-learning, ‘fictitious play’ (Cournot 1838 ; Brown 1951 ; Robinson 1951)
•Experience-Weighted Attraction (EWA) learning (Camerer & Ho 1999)
• Apprentissage bayesien (Jordan 1991)
Jeu itéré :
A chaque instant t,
l’agent i attribue à chaque action possible S un poids (‘attraction’)
Ai (S, t ) ( ≈ estimation de < ui (S ) > )
Choix de Si (t) à la mode ‘QRE’ :
pi (Si (t) = S) = f ( Ai (S , t ) ) /
avec par exemple : f(x) = exp ( β x )
JP Nadal 2007
Σ{s} f (Ai (s , t ))
(« logit »)
3
Apprentissage par renforcement
Ai (Si, t )
CAMS
3 choisie à t
gain ui (3 , S−i (t) )
Si = 1
Si = 2
Si = 3
Si = 4
stratégies
(actions possibles)
la probabilité que l’agent i choisisse Si =S
est d’autant plus grande que est Ai (S, t ) est grand
JP Nadal 2007
4
Apprentissage par renforcement
CAMS
gains ui (S , S−i (t) ) connus pour S=1,2,3,4
Ai (Si, t )
« fictitious play »
Si = 1
Si = 2
Si = 3
Si = 4
stratégies
(actions possibles)
la probabilité que l’agent i choisisse Si =S
est d’autant plus grande que est Ai (S, t ) est grand
JP Nadal 2007
5
Apprentissage par renforcement
Ai (Si, t+1)
Si = 1
JP Nadal 2007
renormalisation :
affaiblissement uniforme des Ai
Si = 2
Si = 3
Si = 4
CAMS
stratégies
(actions possibles)
6
Apprentissage par renforcement
•
•
Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ ui (Si , S−i (t) ) pour Si = Si (t)
Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ α ui (Si , S−i (t) ) pour Si ≠ Si (t)
λ≤1
µ≤1
CAMS
α≤1
Cas particuliers :
Cournot (meilleure réponse) :
λ=1
µ=1
α=1
Ai (Si, t + 1 ) = ui ( Si , S−i (t) )
Jeu virtuel (fictitious play) :
λ=µ=1/t
α=1
Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + λ ui ( Si , S−i (t) )
Renforcement cumulatif :
0 < λ < 1.
µ=1
α=0
Moyenne pondérée (weighted average) :
0 < λ < 1.
λ=µ
α=0
pour Si = Si (t) : Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t ) + µ ui ( Si , S−i (t) )
pour Si ≠ Si (t) : Ai (Si, t + 1 ) = (1 - λ) Ai (Si, t )
JP Nadal 2007
7