Jeux sous forme extensive
Transcription
Jeux sous forme extensive
Théorie des jeux Jeux sous forme extensive Jeux sous forme extensive (Jeux dynamiques) Plan du chapitre (22 juillet 2008) 1/ – Définitions, exemples et équivalences – Arbres de jeux, information et mémoire – Stratégies et réduction en forme normale – Équilibre de Nash parfait en sous-jeux – Sous-jeux et principe d’induction rétroactive – Cas particulier : information parfaite – Jeux répétés (à information complète et observation parfaite) – Jeux répétés à horizon fini – Jeux répétés à horizon infini – Négociation : Approche non-coopérative Jeux sous forme extensive (développée) : prendre en compte de manière détaillée la structure séquentielle du problème de décision (arbre de jeu), l’évolution de l’information, des croyances, et des possibilités d’action – Jeu d’échec, poker, . . . Exemples : – Duopole de Stackelberg (leader / follower) – Problème d’entrée d’une firme sur un marché 2/ Raffinement possible du concept d’équilibre de Nash en éliminant, par exemple, des menaces d’actions non crédibles (équilibre de Nash parfait en sous-jeux, Selten, 1965) Exemple : Menace de guerre des prix de la part d’une firme installée Tout jeu sous forme extensive peut cependant s’écrire sous forme normale si toutes les stratégies possibles de chaque joueur sont spécifiées de manière suffisamment exhaustive Théorie des jeux Jeux sous forme extensive ➢ Ensemble N = {1, 2, . . . , i, . . . , n} des joueurs ➢ Ensemble X des noeuds de l’arbre – Relation d’ordre partiel transitive et asymétrique x ≺ x′ si et seulement si x précède x′ 3/ – – – – Noeud initial : sans prédécesseur et prédécesseur de tous les autres Tous les autres noeuds ont un et un seul prédécesseur immédiat Noeuds terminaux : sans successeurs Noeuds de décision : noeuds non terminaux associés à un seul joueur (ou bien à la Nature, qui détermine les événements aléatoires) – Ensemble des actions pour chaque joueur à chacun de ses noeuds de décision (branches de l’arbre) ➢ (Hi )i∈N : partitions des noeuds de décision en ensembles d’information. ∀ x′ ∈ hi (x), les actions disponibles par le joueur i en x′ sont les mêmes ➢ (ui )i∈N : utilités des joueurs aux noeuds terminaux ➢ Probabilités des éventuels états de la Nature Exemples Dilemme des prisonniers 1 D C 2 4/ D (1, 1) C (3, 0) D (0, 3) ✍ Deux répétitions avec observation parfaite . . . C (2, 2) Théorie des jeux Jeux sous forme extensive Jeu de l’ultimatum (fini) 1 (2, 0) (1, 1) 2 A (0, 2) 2 R 2 A R A R 5/ (2, 0) (0, 0) (1, 1) (0, 0) (0, 2) Jeu d’entrée sur un marché Partager E Ne pas entrer 6/ (0, 5) Entrer (2, 3) I Casser les prix (−1, 1) (0, 0) Théorie des jeux Jeux sous forme extensive Information parfaite/imparfaite Si tous les ensembles d’information du jeu sont réduits à des singletons alors chaque joueur, lors de sa prise de décision 7/ – connaı̂t tous les événements passés – sait ce que les autres ont joué auparavant – personne ne joue simultanément ☞ Jeu est à information parfaite (jeu d’échec, morpion, duopole de Stackelberg, jeu de l’ultimatum, jeu de l’entrée) Sinon, le jeu est à information imparfaite (poker, duopole de Bertrand/Cournot, dilemme des prisonniers) Information complète/incomplète Si certains joueurs ne connaissent pas la structure du jeu, i.e., ne connaissent pas parfaitement – les préférences des joueurs – les actions disponibles – l’identité ou le nombre de joueurs – l’ordre des décisions le jeu est dit à information incomplète 8/ Harsanyi (1967–1968) propose une transformation Information incomplète ➠ information imparfaite en introduisant un joueur fictif, appelé Nature, qui détermine les éléments aléatoires du jeu (les états de la Nature, incluant les croyances des joueurs), avec une distribution de probabilité a priori commune Cas particulier : jeux Bayésiens Théorie des jeux Jeux sous forme extensive 9/ Fig. 1 – John C. Harsanyi (1920–2000) Exemple : jeu de signal Un vendeur d’un bien propose un prix unitaire p, puis un consommateur doit décider de la quantité de bien q qu’il va acheter après avoir observé le prix fixé par le vendeur ⇒ Jeu à information incomplète car tous les joueurs ne connaissent pas nécessairement la fonction de profit du vendeur et la fonction d’utilité du consommateur (e.g., incertitude sur la qualité du produit) 10/ ⇒ Introduction d’un ensemble d’états de la Nature Ω, et d’une distribution de probabilité a priori µ ∈ ∆(Ω) Configuration la plus simple : – un état de la Nature pour chaque niveau de qualité : Ω = {ω1 , ω2 } – le vendeur connaı̂t toujours la qualité – le consommateur ne connaı̂t jamais la qualité Le joueur 1 (le joueur informé) est appelé l’émetteur et le joueur 2 (le joueur non informé) le récepteur Théorie des jeux Jeux sous forme extensive πV (p1 , q1 ; ω1 ) πV (p1 , q2 ; ω1 ) πV (p1 , q1 ; ω2 ) πV (p1 , q2 ; ω2 ) uC (p1 , q1 ; ω1 ) uC (p1 , q2 ; ω1 ) uC (p1 , q1 ; ω2 ) uC (p1 , q2 ; ω2 ) q1 q2 p1 ω1 Vendeur p2 11/ Consommateur q1 q2 p1 ω2 N Vendeur p2 Consommateur q1 q2 (p1 6= p2 ) q1 q2 πV (p2 , q1 ; ω1 ) πV (p2 , q2 ; ω1 ) πV (p2 , q1 ; ω2 ) πV (p2 , q2 ; ω2 ) uC (p2 , q1 ; ω1 ) uC (p2 , q2 ; ω1 ) uC (p2 , q1 ; ω2 ) uC (p2 , q2 ; ω2 ) Lorsque l’utilité des joueurs est indépendante de l’action de l’émetteur, un tel jeu est appelé jeu de communication pure, ou jeu de cheap talk Mémoire parfaite/imparfaite Un jeu est à mémoire parfaite si chaque joueur se souvient de toutes ses actions et de toutes ses informations antérieures Exemples de jeux à mémoire imparfaite : image 12/ 1 g m 1 G D G D d 1 G D Théorie des jeux Jeux sous forme extensive N ω1 ω2 1 S 1 C C S 1 G D G D 13/ G D 1 G D Stratégies et réduction en forme normale Une stratégie est un plan d’action d’un joueur à chacun de ses ensembles d’information (atteints ou non) de telle sorte que la donnée des stratégies choisies par chaque joueur et de l’état de la nature définisse complètement le déroulement (trajectoire, chemin) futur du jeu à partir de n’importe quel noeud de l’arbre 14/ Plus précisément, une stratégie pure du joueur i est une fonction si : Hi → Ai hi 7→ ai ∈ A(hi ) qui associe à chaque ensemble d’information hi ∈ Hi une action ai ∈ A(hi ), où A(hi ) est l’ensemble des actions disponibles à l’ensemble d’information hi Théorie des jeux Jeux sous forme extensive Profil de stratégies + distribution de probabilité sur Ω ➨ Distribution de probabilité sur les noeuds terminaux ➨ 15/ Utilités espérées associées à chaque profil de stratégies | {z } Jeu sous forme normale Exemple : jeu de l’ultimatum (fini) 1 (2, 0) (1, 1) 2 A (2, 0) (0, 2) 2 R A (0, 0) (1, 1) 2 R (0, 0) A R (0, 2) (0, 0) 16/ (2, 0) (1, 1) (0, 2) AAA (2, 0) (1, 1) (0, 2) RAA (0, 0) (1, 1) (0, 2) ARA (2, 0) (0, 0) (0, 2) AAR (2, 0) (1, 1) (0, 0) RRA (0, 0) (0, 0) (0, 2) RAR (0, 0) (1, 1) (0, 0) ARR (2, 0) (0, 0) (0, 0) RRR (0, 0) (0, 0) (0, 0) Théorie des jeux Jeux sous forme extensive Exemple : jeu de l’entrée Partager E Ne pas entrer (2, 3) I Entrer Casser les prix (−1, 1) (0, 5) 17/ I E Entrer Ne pas entrer Partager 2, 3 0, 5 Casser les prix −1, 1 0, 5 Stratégies mixtes Une stratégie mixte du joueur i est une distribution de probabilité sur l’ensemble de ses stratégies pures : σi ∈ Σi ≡ ∆(Si ) ⇒ Dans les jeux sous forme extensive on peut définir ✓ un équilibre de Nash (en stratégies pures ou mixtes) 18/ ✓ les stratégies dominées / rationalisables ✓ la valeur du jeu s’il est à somme nulle comme dans les jeux sous forme normale Il est cependant tentant de vouloir considérer les choix aléatoires des actions aux différents ensembles d’information plutôt que les choix aléatoires de la stratégie pour tout le jeu au départ . . . Théorie des jeux Jeux sous forme extensive Stratégies comportementales Une stratégie locale βhi du joueur i à son ensemble d’information hi est une mesure de probabilité sur l’ensemble des actions disponibles en hi : βhi ∈ ∆(A(hi )) Une stratégie comportementale βi du joueur i est un profil de stratégies locales, une par ensemble d’information de ce joueur : βi = (βhi )hi ∈Hi Exemple : jeu de l’ultimatum 19/ – Stratégie mixte du joueur 1 ⇔ stratégie comportementale du joueur 1 – Stratégie mixte du joueur 2 : distribution de probabilité sur {AAA, . . . , RRR} – Stratégie comportementale du joueur 2 : 3 distributions de probabilité sur {A, R} Une stratégie mixte est équivalente en terme de résultats à une stratégie comportementale si quelles que soient les stratégies des autres joueurs les deux stratégies induisent la même distribution de probabilité sur les issues possibles du jeu (les noeuds terminaux) Exemple. Dans le jeu de l’ultimatum 1 (2, 0) (1, 1) 2 A (2, 0) (0, 2) 2 R (0, 0) A (1, 1) 2 R (0, 0) A (0, 2) R (0, 0) 20/ la stratégie mixte σ2 (AAA) = σ2 (ARA) = σ2 (AAR) = 1/3 est équivalente à la stratégie comportementale βh2 (A) = 1, βh′2 (A) = βh′′2 (A) = 2/3, où h2 , h′2 , h′′2 sont les ensembles d’information du joueur 2 Remarque : Plusieurs stratégies mixtes sont équivalentes à β2 (par exemple, σ2 (AAA) = 2/3 et σ2 (ARR) = 1/3) Théorie des jeux Jeux sous forme extensive Exemple. 1 S C 2 L G 21/ 1 D R G D La stratégie mixte σ1 (S, D) = 0.4, σ1 (S, G) = 0.1, σ1 (C, D) = 0.5 est équivalente à la stratégie comportementale du joueur 1 qui consiste à jouer S et C avec probabilité 1/2, et D avec probabilité 1 Proposition. (Kuhn, 1953) Dans tout jeu sous forme extensive fini et à mémoire parfaite, pour toute stratégie mixte (resp. comportementale) d’un joueur il existe une stratégie comportementale (resp. mixte) de ce joueur qui est équivalente en terme de résultats ⇒ Indifférence entre l’utilisation des stratégies mixtes ou comportementales pour étudier les équilibres de Nash Exemples à mémoire imparfaite où la proposition ne s’applique pas : 22/ 1 m d 1 G D G D ➥ La stratégie mixte σ1 (m, G) = σ1 (d, D) = 1/2 n’a pas de stratégie comportementale équivalente Théorie des jeux Jeux sous forme extensive N ω1 ω2 C C 1 S 1 S 1 G D G D 23/ ➥ La stratégie mixte σ1 (C, C, G) = σ1 (C, C, D) = 1/2 a une stratégie comportementale équivalente (C | ω1 , C | ω2 , 12 G + 21 D | C) ➥ Mais la stratégie mixte σ1 (C, C, G) = σ1 (C, S, D) = 1/2 n’a pas de stratégie comportementale équivalente G D 1 G 0 1 24/ D 0 ➥ La stratégie comportementale qui consiste à jouer G et D avec probabilité 1/2 génère la distribution (1/2, 1/4, 1/4) sur les noeuds terminaux, alors qu’aucune stratégie mixte ne peut générer une distribution de probabilité qui assigne une probabilité strictement positive au deuxième noeud final (l’histoire D, G) ⇒ Toutes les stratégies mixtes donnent une utilité égale à 0 (elles sont donc toutes optimales) alors que la stratégie comportementale optimale consiste à jouer G et D avec probabilité 1/2, qui donne une utilité espérée égale à 1/4 Théorie des jeux Jeux sous forme extensive Menaces non crédibles Dans de nombreux jeux, il existe des équilibres de Nash “non raisonnables”, qui reposent sur des choix hypothétiques irrationnels, des menaces d’actions non crédibles Exemples : image image – Jeu de l’entrée : (Ne pas entrer, casser les prix) – Jeu de l’ultimatum : ((0, 2), RRA) 25/ Sous-jeux Un sous-jeu d’un jeu sous forme extensive G est un jeu sous forme extensive de noeud initial x appartenant à G dont l’ensemble des noeuds non initiaux est le sous ensemble des noeuds successeurs de x dans G, et où les joueurs, les ensembles d’information et les actions associées aux noeuds non terminaux, ainsi que les utilités associées aux noeuds terminaux sont les mêmes que dans le jeu original G Un sous-jeu strict ou propre de G est un sous-jeu de G différent de G Exemple. Le jeu G a 4 sous-jeux stricts 2 G S (1, 2) C 1 G4 a1 26/ G2 1 A1 G1 2 α2 b1 G3 B1 2 A2 B2 1 β2 (4, 0) (1, 1) (2, 1) α1 β1 α1 β1 (3, 3) (1, 5) (4, 2) (5, 1) Théorie des jeux Jeux sous forme extensive Autres exemples : – Dilemme des prisonniers et jeu de signal : pas de sous-jeux stricts – Jeu de l’ultimatum fini : 3 sous-jeux stricts – Jeu de l’entrée : 1 sous-jeu strict Définition. (Selten, 1965) 27/ Un équilibre de Nash parfait en sous-jeux (ENPSJ) est un profil de stratégies tel que pour chaque sous-jeu le profil de stratégies induit est un équilibre de Nash de ce sous-jeu Fig. 2 – Reinhard Selten (1930– ) Remarques. ☞ Si pas de sous-jeux stricts alors EN ⇔ ENPSJ ☞ {ENPSJ} ⊆ {EN} Proposition. 28/ Tout jeu sous forme extensive fini possède au moins un équilibre de Nash parfait en sous-jeux en stratégies mixtes Théorie des jeux Jeux sous forme extensive Résolution par induction rétroactive (Backward induction) Résolution à partir de la fin du jeu : on recherche les EN des plus petits sous-jeux 2 S (1, 2) C 1 a1 29/ b1 1 2 A1 B1 2 α2 B2 A2 1 β2 (2, 1) (4, 0) (1, 1) α1 β1 α1 β1 (3, 3) (1, 5) (4, 2) (5, 1) Jeu de l’entrée. Un seul ENPSJ : (Entrer, Partager) Jeu de l’ultimatum. Deux ENPSJ en stratégies pures : ((2, 0), AAA) et ((1, 1), RAA) et un continu en stratégies mixtes ((2, 0), σ2 (AAA) ≥ 1/2 et ((1, 1), σ2 (AAA) ≤ 1/2) avec σ2 (AAA) + σ2 (RAA) = 1 30/ Proposition. (Kuhn, 1953) Tout jeu fini à information parfaite possède au moins un équilibre de Nash parfait en sous-jeux en stratégies pures Remarques. ☞ L’ensemble des actions à chaque ensemble d’information doit être fini : si A = [0, 1) et ui (a) = a alors pas d’ENPSJ Théorie des jeux Jeux sous forme extensive ☞ La durée du jeu doit être finie : 1 C 1 C 1 C S 1 S 2 ... 1 C 1 C S 3 S k ··· 0 S k+1 ☞ Unicité de l’ENPSJ dans les jeux à information parfaite si les joueurs ne sont jamais indifférents entre deux issues possibles 31/ ☞ Si information parfaite et unicité alors il existe un ordre d’élimination des stratégies faiblement dominées qui est équivalent à l’induction rétroactive (cf. aussi paradoxes) ☞ Si la Nature intervient et si aucun joueur n’a d’information privée alors le jeu peut être réécrit comme un jeu à information parfaite (la Nature intervient à la fin) ✍ Autre exemple à voir : “connaı̂tre le gagnant sans connaı̂tre la solution” pdf Exemple. Engagement/menace crédible. L’armée 1 du pays 1 doit décider si elle attaque l’armée 2 du pays 2 qui est située sur une ı̂le entre les deux pays. En cas d’attaque, l’armée 2 a le choix entre combattre l’armée 1 ou battre en retraite en utilisant le pont qui rejoint son pays. Chaque armée préfère que ce soit elle qui occupe l’ı̂le plutôt que l’armée ennemie. Cependant, pour chaque armée la pire des issues est la bataille. ✍ Forme extensive et équilibre de Nash parfait en sous jeu ? 32/ ✍ Montrer que l’armée 2 peut améliorer son paiement d’équilibre en détruisant le pont qui relie l’ı̂le au pays 2 à l’avance (cette action est observée par l’armée 1 avant qu’elle prenne sa décision) Reconsidérons la situation initiale (sans possibilité de destruction du pont) ✍ Si les deux armées devaient prendre leur décision simultanément, de quel type de jeu s’agirait-il ? (dans le cas où l’ı̂le n’est occupée par aucune armée, supposer une préférence intermédiaire entre le fait d’être seul sur l’ı̂le et le fait d’avoir cédé l’ı̂le) Théorie des jeux Jeux sous forme extensive Duopole de Stackelberg Firme i = 1, 2 produit qi avec coût fixe nul et coût marginal constant λ > 0 Demande inverse linéaire : p(q1 + q2 ) = a − (q1 + q2 ), où a > λ Profit de chaque firme i : ui (q1 , q2 ) = p(q1 + q2 ) qi − λ qi = qi (a − λ − (q1 + q2 )) 33/ Décisions séquentielles : La firme 1 (leader ) choisit (de manière irréversible) q1 puis la firme 2 (follower ) choisit q2 en connaissant le niveau choisi par la firme 1 Stratégie de la firme 1 : choix d’une quantité q1 (comme dans le modèle de Cournot) Stratégie de la firme 2 : fonction qui associe à chaque niveau de production q1 un niveau de production q2∗ (q1 ) pour la firme 2 Résolution par induction à rebours. Production optimale de la firme 2 en fonction de q1 : q2∗ (q1 ) = MR2 (q1 ) = arg max u2 (q1 , q2 ) = q2 a − λ − q1 2 Production optimale de la firme 1 étant donné la stratégie de la firme 2 ➟ maximiser u1 (q1 , q2∗ (q1 )) = q1 (a − λ − (q1 + q2∗ (q1 ))) = 34/ soit q1∗ = a−λ 2 ⇒ q2∗ (q1∗ ) = a−λ 4 Cournot Firme 1 q1 = Firme 2 q2 = 1 q1 (a − λ − q1 ) 2 a−λ 3 a−λ 3 u1 = u2 = Stackelberg (firme 1 leader) (a−λ)2 9 (a−λ)2 9 q1 = q2 = a−λ 2 a−λ 4 u1 = u2 = (a−λ)2 8 (a−λ)2 16 Tab. 1 – Niveaux de production et profits dans les modèles linéaires de duopole de Cournot et de Stackelberg Théorie des jeux Jeux sous forme extensive Paradoxes de l’induction rétroactive 1 35/ C 2 1 C S S 1, 0 0, 10 C 50, 1000 S 100, 5 Que doit faire (penser) le joueur 2 s’il est effectivement amené à jouer ? Le dilemme des prisonniers joué deux fois. 1 D C D D (1, 1) (0, 3) C (3, 0) (2, 2) C 2 D 36/ C D C D C D C D C D C D 2, 2 4, 1 4, 1 6, 0 1, 4 3, 3 3, 3 5, 2 C 1, 4 3, 3 3, 3 5, 2 0, 6 2, 5 2, 5 4, 4 Unique EN (ENPSJ) : les deux joueurs dénoncent aux deux périodes ☞ Même résultat quelle que soit la durée (finie et de connaissance commune) du jeu Que doit faire (penser) un joueur s’il observe que l’autre joueur a coopéré ? Remarque. On verra que répétition infinie ⇒ coopération possible Théorie des jeux Jeux sous forme extensive Références Harsanyi, J. C. (1967–1968) : “Games with Incomplete Information Played by Bayesian Players. Parts I, II, III,” Management Science, 14, 159–182, 320–334, 486–502. Kuhn, H. W. (1953) : “Extensive Games and the Problem of Information,” dans Contributions to the Theory of Games, ed. par H. W. Kuhn et A. W. Tucker, Princeton : Princeton University Press, vol. 2. Selten, R. (1965) : “Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit,” Zeitschrift für dis gesamte Staatswissenschaft, 121, 301–324 and 667–689. 37/