M1 IAD UE DECISION et JEUX Notes de cours (4) THEORIE des
Transcription
M1 IAD UE DECISION et JEUX Notes de cours (4) THEORIE des
M1 IAD UE DECISION et JEUX Notes de cours (4) Jean-Yves Jaffray Patrice Perny 4 avril 2006 THEORIE des JEUX 1 Jeux La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la possibilité de former entre eux des coalitions. 2 Jeux non-coopératifs 2.1 Jeux sous forme normale Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est défini par la donnée : d’un ensemble de joueurs N = {1,..,i,..,n} ; pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 ,..,ail ,..,aimi } ; et d’une fonction(vectorielle) de paiement N u = (u1 ,..ui ,..un ) : ni=1 Ai −→ Rn a = (a1 ,..ai ,..an ) 7−→ u(a) = (u1 (a),..,ui (a),..,un (a)), où ui (a) = ui (a1 ,..,ai ,..,an ) est le paiement du joueur i (ce peut être aussi bien un gain monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, c-à-d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj , j ∈ N \{i}. n Notation : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 ,..,ai−1 ,ai+1 N ,..a ),j i −i −i 1 i−1 i−1 n i −i −i a = (a , a ), u (a) = (u (a),..,u (a),u (a),..,u (a)), u(a) = (u (a), u (a)), A = j6=i A , A = Ai × A−i , etc. Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies. 1 Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 ,a2 ),u2 (a1 ,a2 )). N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs connaissent la matrice du jeu. Exemples La bataille des sexes Line et Colin doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que l’opéra, l’autre que la boxe ; enfin, leur soirée à tous deux sera gâchée s’ils ne sont pas ensemble. Line \ Colin opéra boxe opéra 2, 1 −1, − 1 boxe −1, − 1 1, 2 Peut-on dire ce que doivent faire, prédire ce que vont faire, Line et Colin? Le dilemme du prisonnier P ris. I \ P ris. II nier avouer nier 1, 1 2, − 1 avouer −1, 2 0, 0 Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine et s’ils avouent tous les deux ils seront condamnés à une peine plus forte ; si l’un des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe alors que le second aura la peine maximale. Que vont faire, que doivent faire, les deux prisonniers? 2.2 2.2.1 Analyse d’un jeu sous forme normale Considérations de dominance Dominances La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque : ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ; elle la domine si elle la domine faiblement et que, de plus : ∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ; enfin, elle la domine strictement lorsque : ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i . La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante) si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }. Equilibre en stratégies strictement dominantes On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs. Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu. On dit alors qu’il existe un équilibre en stratégies strictement dominantes. C’est le cas dans le dilemme du prisonnier pour (avouer, avouer). 2 Remarquons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ; il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par l’optimalité au sens de Pareto : Optimum de Pareto Une suite de stratégies a∗ = (a1∗ ,..ai∗ ,..an∗ ) est un optimum de Pareto lorsqu’ aucun des joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue : i i −i i i −i i i −i u (a , a ) ≥ ui (ai∗ ,a−i ∗ ),∀i =⇒ u (a , a ) = u (a∗ ,a∗ ),∀i . Equilibre itératif en stratégies strictement dominantes Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme dominées à cette étape de son raisonnement. Exemple Matrice du jeu : G C D (2, 5) (4, 8) (1, 3) (1, 4) (2, 5) (3, 6) (3, 7) (5, 8) (2, 9) H M B Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement : C D G strictement dominé par C → C → M B H M B (4, 8) (1, 3) (2, 5) (3, 6) (5, 8) (2, 9) ; H strictement dominé par B D (2, 5) (3, 6) (5, 8) (2, 9) D ; C strictement dominé par D → B strictement dominé par M → M M B (3, 6) (2, 9) ; D . (M,D) est l’équilibre itéré en stratégies (3, 6) strictement dominées cherché. Equilibre et équilibre itératif en stratégies dominantes On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies dominantes. En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes. En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies dominées adopté, on peut aboutir à des résultats différents. 3 2.2.2 Equilibre de NASH Lorsque, comme dans la bataille des sexes, il n’existe pas d’équilibre, même itératif, en stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des stratégies aux propriétés plus faibles : Meilleure réponse La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai . Equilibre de Nash Un profil de stratégies a∗ = (a1∗ ,..ai∗ ,..an∗ ) est un équilibre de Nash lorsque chacune de ses composantes constitue une meilleure réponse aux autres : i i i i −i ui (ai∗ , a−i ∗ ) ≥ u (a , a∗ ), ∀a ∈ A ,∀i = 1,..,n. Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque, un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent aussi. La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille des sexes, il y a deux équilibres de Nash (opéra,opéra) et (boxe,boxe) ; sans entente préalable, Line peut vouloir jouer l’un et Colin l’autre, avec pour résultat les paiements (−1, − 1) ; les jeux où se rencontre cette difficulté sont appelés jeux de coordination. Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le dilemme du prisonnier (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal. On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le processus itératif d’élimination de stratégies dominées peut écarter un équilibre de Nash attractif comme dans l’exemple suivant. Exemple J. I \ J. II G D H 10, 0 5, 2 B 10, 11 2, 0 Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement) par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé! L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être joués par des joueurs rationnels. 4 2.3 Forme normale et forme extensive Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites commodément à l’aide d’un arbre de jeu (en fait, une arborescence) : Exemple (Attaque publicitaire) Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs (1,5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2,3) ; en revanche, si E 2 réagit en lançant sa propre campagne, les bénéfices deviendront (0,2). L’arbre que l’on associe à ce jeu est le suivant : pub pub E2 statu quo E (0, 2) (2, 3) 1 statu quo (1, 5) Fig. 1 – arbre du jeu Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub. Le jeu a pour forme normale: E1 \ E2 pub statu quo pub 0, 2 1, 5 statu quo 2, 3 1, 5 Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme extensive nous assure que le second ne sera pas joué: si E 1 choisit pub, E 2 jouera statu quo qui lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait douteuse). Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations. On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires). L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant que les autres au moment où il joue; elle est dite asymétrique sinon. L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent). 5 Dans la prochaine section, nous allons étudier de façon approfondie les jeux sous forme extensive. 3 3.1 Jeux sous forme extensive Définitions Arbres de jeu Un jeu sous forme extensive est décrit à l’aide d’un arbre de jeu, qui est en fait une arborescence : graphe orienté possédant un sommet (sa racine) tel qu’il existe un chemin et un seul menant de ce sommet à chacun des autres sommets ; une arborescence n’a ni circuit ni cycle, a une seule racine et chaque sommet, sauf la racine, a exactement un parent (= prédécesseur direct) ; les sommets sans enfant (= sans successeur direct) sont les sommets terminaux ou feuilles ; les prédécesseurs directs ou indirects d’un sommet sont ses ascendants et ses successeurs directs ou indirects sont ses descendants. On appelle profondeur d’un sommet la longueur (= le nombre d’arcs) du chemin le reliant à la racine et profondeur (de l’arbre) du jeu le maximum de profondeur parmi ses sommets. Le lien entre un jeu et l’arbre de jeu associé est le suivant : chaque chemin de la racine à une feuille correspond à l’un des déroulements possibles du jeu ; à ce chemin - en fait à la feuille f qui suffit à le définir - on associe le vecteur des paiements résultants pour les joueurs u(f ) = (u1 (f ),..,ui (f ),..,un (f )). Le déroulement d’un jeu et son issue peuvent parfois dépendre d’événements extérieurs, c-à-d qui ne peuvent pas être contrôlés par les joueurs ; on dit alors que le jeu comporte de l’incertitude ou qu’il se déroule en environnement incertain ; nous nous placerons alors toujours dans le cas où cette incertitude est probabilisée (cas du risque) et où tous les joueurs ont pour critère l’espérance d’utilité (EU ) ; ui est alors l’utilité de vNM du joueur i. Dans un jeu en environnement certain (absence d’incertitude) chaque sommet est associé à l’un des n joueurs ; les arcs issus d’un sommet associé au joueur i, dit sommet de décision du joueur i, correspondent aux différentes actions possibles pour ce joueur à cet instant. Pour les jeux en environnement incertain, certains sommets, dits sommets d’information, expriment de l’arrivée d’information sous la forme de l’annonce qu’un événement d’une partition E est réalisé ; on associe un tel sommet à un joueur fictif, la Nature ; chacun des arcs issus de ce sommet correspond à la réalisation d’un événement Ek ∈ E ; la Nature choisissant Ek avec une certaine probabilité pk . Un graphe étant fini, on ne peut représenter à l’aide d’un arbre de jeu que les jeux à nombre fini de joueurs, ayant un nombre fini de choix à faire entre chaque fois un nombre fini d’actions et où n’interviennent qu’un nombre fini d’événements. Un tel jeu est dit jeu fini. Ensembles d’information Au moment d’effectuer lui-même une action, un joueur (non-fictif) peut connaı̂tre, en tout en en partie, les actions déjà effectuées par les autres joueurs et les événements réalisés. On indique l’état exact del’information des joueurs sur l’arbre du jeu par leurs ensembles d’information lors de chacune de leurs actions. Le principe est le suivant : dès qu’un joueur ne sait pas quelle action a prise l’un des autres joueurs ou quel événement a été réalisé à une étape précédente, il ne sait pas exactement à quel sommet de l’arbre du jeu il se trouve ; l’ensemble des sommets possibles constitue son ensemble d’information à cette étape du jeu. 6 Nous ferons toujours une hypothèse qui simplifiera énormément la structure du jeu : c’est que les joueurs, y compris la Nature n’oublient jamais rien de ce qu’ils ont su ; c’est l’hypothèse de mémoire parfaite. Pour un des n joueurs, cela signifie que, lors d’un déroulement possible du jeu, les sommets de son ensemble d’information à une étape donnée sont nécessairement des descendants de ceux de ses ensembles d’information des étapes antérieures ; pour la Nature, cela signifie qu’au cours du jeu les événements réalisés appartiennent à des partitions de plus en plus fines. On dit qu’un jeu est à information parfaite lorsqu’on peut le représenter à l’aide d’un arbre de jeu, pouvant contenir des sommets d’information, où les ensembles d’information sont tous des singletons. Autrement dit, dans un jeu à information parfaite, chaque joueur observe toute les actions faites par ses adversaires ainsi que tous les événements qui sont réalisés et ne les oubliera jamais : il sait toujours exactement où il se trouve. Dans le cas contraire, le jeu est dit à information imparfaite. N.B. : il n’est pas nécessaire que le déroulement du jeu tel que le représente l’arbre coı̈ncide parfaitement avec son déroulement chronologique réel ; l’introduction des ensembles d’information nous donne en effet une certaine souplesse ; il en résulte qu’un même jeu peut être représenté par différents arbres de jeu. Exemples Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le jeu complété reste à information parfaite. Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain : Le Bonneteau Le Manipulateur place une bille sous l’une de 3 coupes renversées : la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes (g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre de décision (Fig.1) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets où il peut avoir à jouer. Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans l’arbre : son ensemble d’information ( ellipse en pointillés) a deux éléments. C’est un jeu à information imparfaite. Stratégies Une stratégie du joueur i ( que nous appellerons plus tard stratégie pure quand nous introduirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite, un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les sommets d’un même ensemble d’information. 7 g Gogo c d M −m −m −m G g C c Gogo M an. d −m M −m −m D g Gogo c d −m −m M −m Fig. 2 – arbre du jeu du Bonneteau N.B. Cette condition n’apporte aucune restriction dans les jeux à information parfaite puisque tous les ensembles d’information y sont des singletons. Un profil de stratégies est une suite a = (a1 ,..,ai ,..an ), c-à-d consiste en la donnée d’une stratégie ai pour chaque joueur i. Dans un jeu en environnement certain, un profil de stratégies a détermine complètement le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) = (U 1 (a),..,U i (a),..,U n (a)) = u(f ) = (u1 (f ),..,ui (f ),..,un (f )). Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la loi de probabilité des divers événements) ; a donne donc au joueur i une espérance d’utilité P U i (a) = f P (f ) ui (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa forme normale. Remarque : On peut se demander pourquoi l’on exige qu’ une stratégie du joueur i spécifie les actions choisies par ce joueur à tous ses sommets de décision, même à ceux situés dans des parties de l’arbre de jeu que ses premières actions rendront inaccessibles. Nous verrons que cette spécification est nécessaire pour pouvoir analyser complètement les équilibres de Nash du jeu. Elle est aussi indispensable si l’on veut tenir compte de la possibilité pour les joueurs de commettre des erreurs - jouer certaines actions à la place de celles qu’ils jugent optimales. N.B. On supposera toujours que l’ensemble du jeu est connaissance commune, c-à-d que : chaque joueur connait l’arbre du jeu, les ensembles d’information de chacun, les probabilités de tous les événements, les paiements de chacun à chaque feuille ; chacun sait que les autres connaissent l’ensemble du jeu ; chacun sait que les autres savent qu’il connait l’ensemble du jeu ; etc. On supposera en outre connaissance commune que tous les joueurs ont une capacité illimitée de raisonnement et de traitement de l’information. 8 nier nier (1, 1) avouer (− 1, 2) nier (2, − 1) avouer (0, 0) P ris.II P ris.I avouer P ris.II Fig. 3 – Un arbre du jeu possible pour le dilemme du prisonnier 3.2 Résolution d’un jeu sous forme extensive à information parfaite i) Prenons d’abord le cas d’un jeu dans le certain. Considérons une feuille de profondeur maximum. Cette feuille a un sommet parent, qui est un sommet de décision d’un des joueurs. En ce sommet, ce joueur, i, a à choisir entre plusieurs actions, menant l’une à la feuille considérée, les autre nécessairement à d’autres feuilles ; si le déroulement du jeu devait faire passer la trajectoire par ce sommet, le joueur i sait quelle action il choisirait (celle qui lui apporterait un paiement maximum), donc à quelle feuille aboutirait la trajectoire et quels seraient son paiement et ceux des autres joueurs. Connaissant tous les éléments du jeu, les autres joueurs le savent aussi. On peut donc modifier l’arbre en supprimant les feuilles enfants de ce sommet, qui devient donc une feuille que l’on dote des paiements ci-dessus et n’étudier que le jeu tronqué qui en résulte. Comme ceci peut se répéter et que l’arbre du jeu a un nombre fini de sommets, on détermine de proche en proche le comportement optimal de chaque joueur en chacun de ses sommets de décision, c-à-d sa stratégie optimale. ii) voyons le cas d’un jeu dans l’incertitude. La méthode décrite ci-dessus amenera à certaines étapes à un sommet parent qui est un sommet d’information ; on sait qu’en un tel sommet les joueurs attendent un paiement aléatoire, calculable puisque l’on connait les paiements des joueurs aux feuilles, qui sont des utilités ou des espérances d’utilité, ainsi que les probabilités des événements réalisables à ce sommet ; on peut donc calculer les paiements à associer à ce sommet lorsqu’il deviendra feuille, qui sont les espérances de ces espérances d’utilité. Le reste se déroule comme dans le cas (i). 9 En résumé, en procédant par induction arrière on détermine de proche en proche, en partant des feuilles et remontant vers la racine, une stratégie optimale pour chaque joueur. Le profil de stratégies ainsi est obtenu est appelé solution du jeu. La solution du jeu n’est en général pas unique ; en effet, nous avons supposé dans notre raisonnement qu’il y avait à chaque optimisation une action optimale unique ; en fait il peut y avoir des ex-aequo ; on peut trancher arbitrairement à chaque fois, ce qui revient in fine à sélectionner une stratégie particulière pour chaque joueur parmi plusieurs possibles. Remarquons que la solution du jeu est automatiquement un équilibre de Nash ; pour un joueur i dévier de la stratégie optimale trouvée signifie choisir des actions différentes des actions optimales à certains de ses sommets de décision ; mais, à stratégies fixées des autres joueurs, la stratégie optimale de i n’est autre que sa stratégie optimale dans le risque (il n’y a plus que lui et la Nature) pour le critère de l’espérance d’utilité et sa valeur ne peut être améliorée. Nous venons de démontrer : Théorème 1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite a une solution qui est un équilibre de Nash en stratégies pures. En fait, cet équilibre de Nash est, de plus, parfait en sous-jeux comme nous le verrons plus loin. Avant cela, nous allons examiner un cas particulier. 3.3 Cas des jeux à deux joueurs à information parfaite à somme nulle Un jeu sous forme extensive à deux joueurs est à somme nulle lorsqu’en toute feuille f les paiements satisfont u1 (f ) + u2 (f ) = 0. Un profil de stratégies pures a = (a1 , a2 ) offre alors au joueur 1 un paiement (une espérance d’utilité s’il y a de l’incertitude) U 1 (a) = U 1 (a1 , a2 ) et l’opposé au joueur 2. On démontre facilement (cf Chap. Dualité) que : maxa1 mina2 U 1 (a1 , a2 ) ≤ mina2 maxa1 U 1 (a1 , a2 ). En cas d’égalité, on appelle valeur du jeu cette valeur commune au maximin et au minimax. Or, le théorème de Kuhn nous dit qu’il existe un profil de stratégies pures (a∗ ) = (a1∗ , a2∗ ) qui est un équilibre de Nash et donc tel que U 1 (a1∗ , a2∗ ) = maxa1 U 1 (a1 , a2∗ ) = mina2 U 1 (a1∗ , a2 ) d’où maxa1 mina2 U 1 (a1 , a2 ) ≥ mina2 U 1 (a1∗ , a2 ) = maxa1 U 1 (a1 , a2∗ ) ≥ mina2 maxa1 U 1 (a1 , a2 ) et donc l’égalité maxa1 mina2 U 1 (a1 , a2 ) = mina2 maxa1 U 1 (a1 , a2 ) [ = U 1 (a1∗ , a2∗ )]. On peut donc conclure que : Théorème 2 (Zermelo). Tout jeu fini à deux personnes sous forme extensive à information parfaite et à somme nulle a une valeur qui est obtenue par un équilibre de Nash en stratégies pures. 10 Exemple Le jeu d’échec est un jeu fini à somme nulle à information parfaite (et dans le certain). Il y a donc une valeur du jeu ; comme elle ne peut prendre que l’une des modalités suivantes : gain des Blancs, Gain des Noirs, partie nulle, le théorème précédent a pour corollaire lui-même dû à Zermelo: Aux échecs, soit les Blancs ont une stratégie gagnante ; soit les Noirs ont une stratégie gagnante ; soit l’un et l’autre ont des stratégies leur permettant d’obtenir au moins partie nulle. Rappelons que dans le cas général des jeux à somme nulle, y compris ceux qui sont à information imparfaite, il existe une valeur du jeu en stratégies mixtes (Th. de von Neumann). 3.4 Stratégies mixtes et forme extensive Nous avons introduit les stratégies mixtes à propos de jeux sous forme normale (cf Chap. Dualité). L’introduction de stratégies mixtes dans un jeu modifie celui-ci, puisque l’ensemble des stratégies du jeu n’est plus le même. On étudie en fait un autre jeu, l’extension mixte du jeu ou jeu mixte engendré par le jeu initial, qui a pour stratégies pures les stratégies mixtes du jeu initial. Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du jeu initial. On ne parlera donc pas de jeu mixte mais précisera, stratégie pure et stratégie mixte du jeu initial. Nash a démontré que : Théorème 3 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash] en stratégies mixtes. Sous-jeu On appelle sous-jeu d’un jeu donné tout jeu dont la forme extensive est un sous-arbre de l’arbre de ce jeu. Chaque sous-jeu a ses propres équilibres de Nash. Considérons un sous-jeu dont la racine est située sur la trajectoire engendrée par un équilibre de Nash du jeu et qui, de plus, s’il y a de l’incertitude, a une probabilité positive d’être atteinte : les sous-stratégies des stratégies de l’équilibre constituent nécessairement un équilibre de Nash du sous-jeu, puisqu’une déviation bénéfique pour un joueur dans le sous-jeu lui serait aussi bénéfique dans le jeu, ce qui est impossible à l’équilibre. Cet argument ne s’étend pas aux sous-jeux hors trajectoire, puisque les modifications hors trajectoire des stratégies n’ont pas d’effets sur les paiements possibles. Or des stratégies dont les sous-stratégies ne forment pas un équilibre de Nash dans tout sous-jeu perdent de leur crédibilité, car une déviation (accidentelle : la main tremblante) de la trajectoire ne peut pas toujours être exclue. Un équilibre de Nash est dit parfait en sous-jeux (en abrégé: équilibre parfait) lorsque les stratégies qui le constituent engendrent un équilibre de Nash dans tout sous-jeu. Détermination d’un équilibre de Nash parfait en sous-jeux 11 La solution du jeu construite par l’algorithme de la démonstration du th. de Kuhn a pour trace sur tout arbre de sous-jeu un profil de sous-stratégies qui est une solution - et donc un équilibre de Nash - de ce sous-jeu. Cette solution est donc un équilibre parfait en sous-jeux. De plus, tout équilibre parfait peut être obtenu ainsi (si à certains sommets il y a plusieurs décisions optimales possibles, alors il y a plusieurs équilibres parfaits). 4 Jeux répétés Introduction Reprenons l’exemple du dilemme du prisonnier : P ris. I \ P ris. II nier avouer nier 1, 1 2, − 1 avouer −1, 2 0, 0 L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont rationnels, chacun doit éliminer la stratégie avouer qui est strictement dominée ; la solution du jeu est donc avouer,avouer ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or cette solution est dominée au sens de Pareto par le profil nier,nier, plus avantageux pour chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective. Quand pourrait-on observer de la coopération de la part des joueurs? Une hypothèse possible est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de l’ensemble de leurs jeux. Nous allons examiner cette hypothèse. Etude du dilemme du prisonnier répété Comportement rationnel dans le dilemme du prisonnier répété un nombre fini de fois On écrira A et N pour les stratégies avouer et nier du jeu élémentaire. Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les paiements du super-jeu. Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs le jeu élémentaire) puisqu’à chaque t les deux joueurs jouent à l’insu l’un de l’autre. A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1) premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · ,, S T ) dont les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1 sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre de stratégies (pures) possibles pour chacun des joueurs. 12 Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape, stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là et le total des gains de chacun, il reste à jouer un jeu élémentaire où jouer A est strictement dominant pour les deux joueurs : tous deux prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la première étant strictement dominante, les deux joueurs prévoient donc que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait que tous les deux doivent jouer Arep . Cette stratégie du super-jeu y est clairement Pareto-dominée par de nombreuses autres stratégies. On reste devant la même incohérence entre rationalité individuelle et collective que dans le jeu élémentaire! Introduction de présupposés de comportement dans le dilemme du prisonnier répété un nombre fini de fois Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat (“oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (coopérer) à t = 1, puis , à tout t > 1,jouer ce que l’autre a joué à (t − 1). Supposons que le joueur 1 pense que son adversaire peut avec une probabilité ǫ jouer la stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si 1 joue lui-même Arep , avec probabilité ǫ il gagnera 2 la première fois puis plus rien et avec probabilité (1 − ǫ) ses paiements seront toujours nuls : un gain espéré égal à ǫ Jouer lui-même Tit for Tat lui donne, avec probabilité ǫ, T fois un gain de 1 et avec probabilité (1 − ǫ) une perte de 1 puis des paiements nuls : un gain espéré égal à ǫ (T + 1) − 1. Tit for Tat est donc préférable pour lui à la stratégie “rationnelle” Arep dès que ǫ > T1 . (en fait, Tit for Tat n’est pourtant pas sa stratégie optimale car, par exemple, il a intérêt à toujours jouer A à la fin) Comportement dans le dilemme du prisonnier répété une infinité de fois On peut aussi penser qu’il y a un effet d’horizon dans le jeu répété un nombre fini de fois, effet irréaliste puisque dans le monde réel il y a presque toujours de l’incertitude sur la date de fin des relations marchandes ou autres des agents. Pour se débarrasser de l’horizon, on peut étudier des jeux répétés une infinité de fois. Pour que le paiement global ne risque pas de devenir infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’intérêt) ρ > 0, d’où 1 < 1. Le paiement global est alors la somme actualisée, à t = 0 un facteur dd’escompte δ = 1+ρ P par exemple, des paiements gt à t : G = Tt=1 δt gt . On montre alors qu’une coopération parfaite, les deux joueurs jouant constamment nier peut apparaitre ; elle pourrait être induite par le choix par chacun de la stratégie coopérative à déclenchement Jouer N tant que l’autre le joue aussi ; jouer D à tout jamais dès que l’autre a joué une fois N . Le résultat précis est le suivant : La stratégie coopérative à déclenchement est un équilibre de Nash parfait du jeu répété une infinité de foisà condition que δ soit suffisamment proche de 1. Malheureusement il existe de nombreux autres équilibres parfaits! 13 5 Jeux évolutionnaires Un jeu évolutionnaire est un jeu à deux joueurs symétrique en ce sens que : Les deux joueurs ont même ensemble de stratégies pures ; le gain du joueur I (joueur des lignes) avec la stratégie pure i contre la stratégie pure j du joueur II (joueur des colonnes) est le même que celui du joueur II avec i lorsque I joue j. Il est donc caractérisable par la seule matrice carrée (non symétrique) G des gains du joueur I, G = [gi,j ] ; sous forme normale, la matrice du jeu, M , a pour éléments mi,j = (gi,j , gj,i ) ; symboliquement, M = (G, τ G). Lorsque les joueurs jouent respectivement des stratégies mixtesPp P = (p1 , · · · , pi , · · · , pn ) et τ q = (q , · · · , q , · · · , q ), le gain moyen du joueur I est g(p, q) = i 1 j n i j p gi,j qj = p G q. Une stratégie mixte évolutionnairement stable(en abrégé SES), p, est caractérisable par la propriété suivante : ∀q 6= p, autre stratégie mixte, soit g(p, p) > g(q, p) soit g(p, p) = g(q, p) et g(p, q) > g(q, q) Un SES définit donc toujours un équilibre de Nash symétrique (en stratégies mixtes) ; l’inverse n’est pas vrai. 14