Vriend
Transcription
Vriend
Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000) Problématique • Démonstration de la différence entre un apprentissage individuel et collectif pour des agents • Ici prend l’exemple d’un algorithme génétique pour des agents en situation de marché • Comparaison des comportements aux données théoriques Apprentissage • Les deux perceptions • Individuelle : ses propres perceptions seulement • Sociale : savoir collectif • Les données pertinentes • Individuelles : ses actions passées et les gains correspondants • Collectives : les actions de tous et les gains correspondants • Note : La différence peut être en rapport avec la notion d’externalité, ou influence réciproque Exemple choisi • N firmes produisent le même bien vendu sur un marché unique. • La firme i produit qi. Le total de production est Q. • Le prix de marché dépend de Q : P (Q) = a + b.Qc prix – (courbe du papier) quantité • Il y a des frais fixes K et un coût marginal k, d’où le coût total TC (q) = K + k.q Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] • Cas où la firme n’influence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) QW=((k-a) / b)1/c et qW = QW/n Équilibre walrasien • Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n Avec a < 0 b>0 c <0 et c-1 >-2n Équilibre de Cournot-Nash Implémentation en modèle • 40 firmes sont implémentées, apprenant selon le modèle de l’algorithme génétique • Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. • A chaque pas de temps, usage d’une règle, gagne un gain. • Apprentissage social : n’utilise qu’une règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. • Apprentissage individuel : l’agent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaison des règles qui gagnent le plus. Pseudo-code start main loop for each period do begin for each firm do Classifier Systems’s actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systems’s outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firm’s actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid; Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule T hen replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created; Paramètres Minimum individual output level Maximum individual output level Encoding of bit string Standard Length of bit string Number rules individual GA Number rules social GA GA-rate Number new rules Selection Prob. selection Crossover Prob. crossover Prob. mutation 1 2048 binary 11 40 40 X 1 100 10 tournament Fitness/Σfitnesses Point 0.95 0.001 N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19 N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19 Résultats 7 Fig. 5. Average output learning levels individual learning GAGA. and social learning GA. Fig. 5. Average output levels individual GA and social learning Table 1 Table 1 Output levels individual learning GA and social learning GA, periods 5001}10,000 Output levels individual learning GA and social learning GA, periods 5001}10,000 Indiv. learning GA Social learning GA 805.1 80.5 1991.3 24.7 Indiv. learning GA Average Standard deviation Average Standard deviation 805.1 80.5 Social learning GA 1991.3 24.7 for the periods 5001 to 10,000 in the two variants of the GA. We want to stress that these data are generated by exactly the same identical GA for exactly the 7 the competitive Walrasian output level. The explanation for this is the spite e!ect. In order to give the intuition behind the spite e!ect in this Cournot game, let us consider a simpli"ed version of a Cournot duopoly in which the inverse demand function is P"a#bQ, and in which both "xed and marginal costs are zero (see Scha!er, 1989). The Walrasian equilibrium is then Q!"!a/b, as indicated in Fig. 6. Suppose "rm i produces its equal share of the Walrasian output: q "Q!/2. If "rm j would do the same, aggregate output is Q!, the ! market price P will be zero, and both make a zero pro"t. What happens when • "rmOn voit le lien entre j produces more than Q!/2? The price P will become negative, and both "rms– will make losses. Butindividuel it is "rm i that makes less losses,vers because it has apprentissage et convergence Cournot-Nash a lower output level sold at the same market price P. What happens instead if Apprentissage social et convergence walrasien "rm–j produces less than Q!/2? The price P will be positive,vers and hence this will increase "rm j's pro"ts. But again it is "rm i that makes a greater pro"t, because Analyse • Explication par le modèle en duopoly Fig. 6. Example simple Cournot duopoly. Analyse • En terme d’utilité, le modèle d’apprentissage individuel est plus efficace. • Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres. Discussion • Si n tend vers infini, les deux équilibres correspondent • On pourrait penser à des intermédiaires d’apprentissage « type learning », ici type est sigleton. • Spite effect influence l’évolution mais il existe aussi dans les one shot game, n’a pas besoin de l’évolution • Ceci n’est pas l’usage le plus typique des algorithmes génétiques. • Pourrait d’ailleurs être un autre type d’apprentissage o l’un est individuel et l’autre social – l’intérêt ici est l’identité des deux. Conclusion • On a bien une différence intrinsèque entre les deux formes d’apprentissage • C’est important de bien réfléchir pour chaque application informatique • Souvent c’est l’apprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que l’argument est mauvais • Lien à des études empiriques ??