Vriend

Transcription

Vriend
Présentation de la différence
entre apprentissage individuel
et collectif (Nick Vriend)
(publié au JEDC, 2000)
Problématique
• Démonstration de la différence entre un
apprentissage individuel et collectif pour
des agents
• Ici prend l’exemple d’un algorithme
génétique pour des agents en situation de
marché
• Comparaison des comportements aux
données théoriques
Apprentissage
• Les deux perceptions
• Individuelle : ses propres perceptions seulement
• Sociale : savoir collectif
• Les données pertinentes
• Individuelles : ses actions passées et les gains
correspondants
• Collectives : les actions de tous et les gains
correspondants
• Note : La différence peut être en rapport
avec la notion d’externalité, ou influence
réciproque
Exemple choisi
• N firmes produisent le même bien vendu sur un
marché unique.
• La firme i produit qi. Le total de production est Q.
• Le prix de marché dépend de Q : P (Q) = a + b.Qc
prix
–
(courbe du papier)
quantité
• Il y a des frais fixes K et un coût marginal k, d’où
le coût total TC (q) = K + k.q
Analyse des choix optimaux
Profit : Π(q)=[a+bQ c ]q-[K+kq]
• Cas où la firme n’influence pas le marché :
d Π(q)/dq=[a+bQ c ]-K= 0 (optimal)
QW=((k-a) / b)1/c et qW = QW/n
Équilibre walrasien
• Cas où la firme influence le marché :
d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0
QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n
Avec a < 0 b>0 c <0 et c-1 >-2n
Équilibre de Cournot-Nash
Implémentation en modèle
• 40 firmes sont implémentées, apprenant selon le modèle de
l’algorithme génétique
• Les règles ne sont pas des si… alors mais un bit string qui
donne la production : 11 bits, définissant de 1 à 2048 la
production.
• A chaque pas de temps, usage d’une règle, gagne un gain.
• Apprentissage social : n’utilise qu’une règle sur 100 pas de
temps, connaît toutes les associations [règle > gain] de
tout les agents. Révise tous les 100 pas de temps par
imitation et recombinaison des règles qui gagnent le plus.
• Apprentissage individuel : l’agent a 40 règles et les utilisent
toutes en fonction des gains associés, construites
aléatoirement, et il ne connaît que celle-là. Révise tous les
100 pas de temps par recombinaison des règles qui gagnent
le plus.
Pseudo-code
start main loop
for each period do
begin
for each firm do Classifier Systems’s actions
begin
activerule : "CHOOSE - ACTION;
output level : "action of active } rule;
end;
determine market price;
for each firm do Classifier Systems’s outcomes
begin
profit : "(market price) ) (output level)}costs;
utility : "monotonic transformation of profit;
with active } rule do fitness : "utility;
end;
if period is multiple of 100 then application Genetic Algorithm
begin
if individual learning GA then for each firm do
GENERATE } NEW } RULES
else if social learning GA then
begin
create set of 40 rules taking the 1 rule from each firm;
GENERATE } NEW } RULES;
re-assign 1 rule to each of the 40 firms
end;
end
Pseudo-code
INITIALIZATION
for each firm do for each rule do (1 ou 40)
begin
make random bit string of length 11 with standard binary encoding;
fitness : "1.00;
end;
function CHOOSE - ACTION;
begin
for each rule do
begin
linearly rescale the firm’s actual fitnesses to [0,1];
bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N
with probability : "0.025 the bid is ignored;
end;
determine highest } bid;
end;
choose } action : "highest } bid;
Pseudo-code
procedure GENERATE } NEW } RULES;
linearly rescale the actual fitnesses to [0,1];
repeat;
choose two mating parent rules from 30 fittest rules by roulette wheelselection;
(each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses)
with probability : "0.95 do
begin
place the two binary strings side by side and choose random crossing point;
swap bits before crossing point;
choose one of the two offspring at random as new } rule;
end;
with new } rule do
begin
fitness : "average fitnesses of the two mating parent strings;
for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round;
end;
if new } rule is not duplicate of existing rule
T
hen replace one of weakest 10 existing rule with new } rule else throwaway;
until 10 new rules created;
Paramètres
Minimum individual output level
Maximum individual output level
Encoding of bit string Standard
Length of bit string
Number rules individual GA
Number rules social GA
GA-rate
Number new rules
Selection
Prob. selection
Crossover
Prob. crossover
Prob. mutation
1
2048
binary
11
40
40 X 1
100
10
tournament
Fitness/Σfitnesses
Point
0.95
0.001
N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19
N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19
Résultats
7
Fig.
5. Average
output learning
levels individual
learning
GAGA.
and social learning GA.
Fig. 5. Average
output
levels individual
GA and social
learning
Table 1
Table 1
Output levels individual learning GA and social learning GA, periods 5001}10,000
Output levels individual learning GA and social learning GA, periods 5001}10,000
Indiv. learning GA
Social learning GA
805.1
80.5
1991.3
24.7
Indiv. learning GA
Average
Standard deviation
Average
Standard deviation
805.1
80.5
Social learning GA
1991.3
24.7
for the periods 5001 to 10,000 in the two variants of the GA. We want to stress
that these data are generated by exactly the same identical GA for exactly the
7
the competitive Walrasian output level. The explanation for this is the spite
e!ect.
In order to give the intuition behind the spite e!ect in this Cournot game, let
us consider a simpli"ed version of a Cournot duopoly in which the inverse
demand function is P"a#bQ, and in which both "xed and marginal costs are
zero (see Scha!er, 1989). The Walrasian equilibrium is then Q!"!a/b, as
indicated in Fig. 6. Suppose "rm i produces its equal share of the Walrasian
output: q "Q!/2. If "rm j would do the same, aggregate output is Q!, the
!
market price P will be zero, and both make a zero pro"t. What happens when
• "rmOn
voit le lien entre
j produces more than Q!/2? The price P will become negative, and both
"rms– will
make losses. Butindividuel
it is "rm i that
makes less losses,vers
because
it has
apprentissage
et convergence
Cournot-Nash
a lower output level sold at the same market price P. What happens instead if
Apprentissage
social
et convergence
walrasien
"rm–j produces
less than Q!/2?
The price
P will be positive,vers
and hence
this will
increase "rm j's pro"ts. But again it is "rm i that makes a greater pro"t, because
Analyse
• Explication par le modèle en duopoly
Fig. 6. Example simple Cournot duopoly.
Analyse
• En terme d’utilité, le modèle d’apprentissage
individuel est plus efficace.
• Il est aussi plus instable car il existe des
équilibres multiples à adaptation permanente en
fonction des actions des autres.
Discussion
• Si n tend vers infini, les deux équilibres correspondent
• On pourrait penser à des intermédiaires d’apprentissage
« type learning », ici type est sigleton.
• Spite effect influence l’évolution mais il existe aussi dans
les one shot game, n’a pas besoin de l’évolution
• Ceci n’est pas l’usage le plus typique des algorithmes
génétiques.
• Pourrait d’ailleurs être un autre type d’apprentissage o
l’un est individuel et l’autre social – l’intérêt ici est
l’identité des deux.
Conclusion
• On a bien une différence intrinsèque entre les
deux formes d’apprentissage
• C’est important de bien réfléchir pour chaque
application informatique
• Souvent c’est l’apprentissage social qui est
choisi pour des raisons de parcimonie, on peut
dire que l’argument est mauvais
• Lien à des études empiriques ??