Jeux sous forme extensive

Transcription

Théorie des jeux
(Jeux dynamiques)
Plan du chapitre
(22 juillet 2008)
1/
– Définitions, exemples et équivalences
– Arbres de jeux, information et mémoire
– Stratégies et réduction en forme normale
– Équilibre de Nash parfait en sous-jeux
– Sous-jeux et principe d’induction rétroactive
– Cas particulier : information parfaite
– Jeux répétés (à information complète et observation parfaite)
– Jeux répétés à horizon fini
– Jeux répétés à horizon infini
– Négociation : Approche non-coopérative
Jeux sous forme extensive (développée) : prendre en compte de manière détaillée la
structure séquentielle du problème de décision (arbre de jeu), l’évolution de
l’information, des croyances, et des possibilités d’action
– Jeu d’échec, poker, . . .
Exemples : – Duopole de Stackelberg (leader / follower)
– Problème d’entrée d’une firme sur un marché
2/
Raffinement possible du concept d’équilibre de Nash en éliminant, par exemple, des
menaces d’actions non crédibles (équilibre de Nash parfait en sous-jeux, Selten,
1965)
Exemple : Menace de guerre des prix de la part d’une firme installée
Tout jeu sous forme extensive peut cependant s’écrire sous forme normale si toutes
les stratégies possibles de chaque joueur sont spécifiées de manière suffisamment
exhaustive
Théorie des jeux
➢ Ensemble N = {1, 2, . . . , i, . . . , n} des joueurs
➢ Ensemble X des noeuds de l’arbre
– Relation d’ordre partiel transitive et asymétrique
x ≺ x′ si et seulement si x précède x′
3/
–
–
–
–
Noeud initial : sans prédécesseur et prédécesseur de tous les autres
Tous les autres noeuds ont un et un seul prédécesseur immédiat
Noeuds terminaux : sans successeurs
Noeuds de décision : noeuds non terminaux associés à un seul joueur (ou
bien à la Nature, qui détermine les événements aléatoires)
– Ensemble des actions pour chaque joueur à chacun de ses noeuds de décision
(branches de l’arbre)
➢ (Hi )i∈N : partitions des noeuds de décision en ensembles d’information.
∀ x′ ∈ hi (x), les actions disponibles par le joueur i en x′ sont les mêmes
➢ (ui )i∈N : utilités des joueurs aux noeuds terminaux
➢ Probabilités des éventuels états de la Nature
Exemples
Dilemme des prisonniers
1
D
C
2
4/
D
(1, 1)
C
(3, 0)
D
(0, 3)
✍ Deux répétitions avec observation parfaite . . .
C
(2, 2)
Théorie des jeux
Jeu de l’ultimatum (fini)
1
(2, 0)
(1, 1)
2
A
(0, 2)
2
R
2
A
R
A
R
5/
(2, 0)
(0, 0)
(1, 1)
(0, 0)
(0, 2)
Jeu d’entrée sur un marché
Partager
E
Ne pas entrer
6/
(0, 5)
Entrer
(2, 3)
I
Casser les prix
(−1, 1)
(0, 0)
Théorie des jeux
Information parfaite/imparfaite
Si tous les ensembles d’information du jeu sont réduits à des singletons alors chaque
joueur, lors de sa prise de décision
7/
– connaı̂t tous les événements passés
– sait ce que les autres ont joué auparavant
– personne ne joue simultanément
☞ Jeu est à information parfaite (jeu d’échec, morpion, duopole de Stackelberg,
jeu de l’ultimatum, jeu de l’entrée)
Sinon, le jeu est à information imparfaite (poker, duopole de Bertrand/Cournot,
dilemme des prisonniers)
Information complète/incomplète
Si certains joueurs ne connaissent pas la structure du jeu, i.e., ne connaissent pas
parfaitement
– les préférences des joueurs
– les actions disponibles
– l’identité ou le nombre de joueurs
– l’ordre des décisions
le jeu est dit à information incomplète
8/
Harsanyi (1967–1968) propose une transformation
Information incomplète ➠ information imparfaite
en introduisant un joueur fictif, appelé Nature, qui détermine les éléments aléatoires
du jeu (les états de la Nature, incluant les croyances des joueurs), avec une
distribution de probabilité a priori commune
Cas particulier : jeux Bayésiens
Théorie des jeux
9/
Fig. 1 – John C. Harsanyi (1920–2000)
Exemple : jeu de signal
Un vendeur d’un bien propose un prix unitaire p, puis un consommateur doit décider
de la quantité de bien q qu’il va acheter après avoir observé le prix fixé par le
vendeur
⇒ Jeu à information incomplète car tous les joueurs ne connaissent pas
nécessairement la fonction de profit du vendeur et la fonction d’utilité du
consommateur (e.g., incertitude sur la qualité du produit)
10/
⇒ Introduction d’un ensemble d’états de la Nature Ω, et d’une distribution de
probabilité a priori µ ∈ ∆(Ω)
Configuration la plus simple :
– un état de la Nature pour chaque niveau de qualité : Ω = {ω1 , ω2 }
– le vendeur connaı̂t toujours la qualité
– le consommateur ne connaı̂t jamais la qualité
Le joueur 1 (le joueur informé) est appelé l’émetteur et le joueur 2 (le joueur non
informé) le récepteur
Théorie des jeux
πV (p1 , q1 ; ω1 ) πV (p1 , q2 ; ω1 )
πV (p1 , q1 ; ω2 ) πV (p1 , q2 ; ω2 )
uC (p1 , q1 ; ω1 ) uC (p1 , q2 ; ω1 )
uC (p1 , q1 ; ω2 ) uC (p1 , q2 ; ω2 )
q1
q2
p1
ω1
Vendeur
p2
11/
Consommateur
q1
q2
p1
ω2
N
Vendeur
p2
Consommateur
q1
q2
(p1 6= p2 )
q1
q2
πV (p2 , q1 ; ω1 ) πV (p2 , q2 ; ω1 )
πV (p2 , q1 ; ω2 ) πV (p2 , q2 ; ω2 )
uC (p2 , q1 ; ω1 ) uC (p2 , q2 ; ω1 )
uC (p2 , q1 ; ω2 ) uC (p2 , q2 ; ω2 )
Lorsque l’utilité des joueurs est indépendante de l’action de l’émetteur, un tel jeu
est appelé jeu de communication pure, ou jeu de cheap talk
Mémoire parfaite/imparfaite
Un jeu est à mémoire parfaite si chaque joueur se souvient de toutes ses actions et
de toutes ses informations antérieures
Exemples de jeux à mémoire imparfaite : image
12/
1
g
m
1
G
D
G
D
d
1
G
D
Théorie des jeux
N
ω1
ω2
1
S
1
C
C
S
1
G
D
G
D
13/
G
D
1
G
D
Stratégies et réduction en forme normale
Une stratégie est un plan d’action d’un joueur à chacun de ses ensembles
d’information (atteints ou non) de telle sorte que la donnée des stratégies choisies
par chaque joueur et de l’état de la nature définisse complètement le déroulement
(trajectoire, chemin) futur du jeu à partir de n’importe quel noeud de l’arbre
14/
Plus précisément, une stratégie pure du joueur i est une fonction
si : Hi → Ai
hi 7→ ai ∈ A(hi )
qui associe à chaque ensemble d’information hi ∈ Hi une action ai ∈ A(hi ), où
A(hi ) est l’ensemble des actions disponibles à l’ensemble d’information hi
Théorie des jeux
Profil de stratégies + distribution de probabilité sur Ω
➨
Distribution de probabilité sur les noeuds terminaux
➨
15/
Utilités espérées associées à chaque profil de stratégies
|
{z
}
Jeu sous forme normale
Exemple : jeu de l’ultimatum (fini)
1
(2, 0)
(1, 1)
2
A
(2, 0)
(0, 2)
2
R
A
(0, 0)
(1, 1)
2
R
(0, 0)
A
R
(0, 2)
(0, 0)
16/
(2, 0)
(1, 1)
(0, 2)
AAA
(2, 0)
(1, 1)
(0, 2)
RAA
(0, 0)
(1, 1)
(0, 2)
ARA
(2, 0)
(0, 0)
(0, 2)
AAR
(2, 0)
(1, 1)
(0, 0)
RRA
(0, 0)
(0, 0)
(0, 2)
RAR
(0, 0)
(1, 1)
(0, 0)
ARR
(2, 0)
(0, 0)
(0, 0)
RRR
(0, 0)
(0, 0)
(0, 0)
Théorie des jeux
Exemple : jeu de l’entrée
Partager
E
Ne pas entrer
(2, 3)
I
Entrer
Casser les prix
(−1, 1)
(0, 5)
17/
I
E
Entrer
Ne pas entrer
Partager
2, 3
0, 5
Casser les prix
−1, 1
0, 5
Stratégies mixtes
Une stratégie mixte du joueur i est une distribution de probabilité sur l’ensemble de
ses stratégies pures :
σi ∈ Σi ≡ ∆(Si )
⇒ Dans les jeux sous forme extensive on peut définir
✓ un équilibre de Nash (en stratégies pures ou mixtes)
18/
✓ les stratégies dominées / rationalisables
✓ la valeur du jeu s’il est à somme nulle
comme dans les jeux sous forme normale
Il est cependant tentant de vouloir considérer les choix aléatoires des actions aux
différents ensembles d’information plutôt que les choix aléatoires de la stratégie
pour tout le jeu au départ . . .
Théorie des jeux
Stratégies comportementales
Une stratégie locale βhi du joueur i à son ensemble d’information hi est une
mesure de probabilité sur l’ensemble des actions disponibles en hi : βhi ∈ ∆(A(hi ))
Une stratégie comportementale βi du joueur i est un profil de stratégies locales,
une par ensemble d’information de ce joueur : βi = (βhi )hi ∈Hi
Exemple : jeu de l’ultimatum
19/
– Stratégie mixte du joueur 1 ⇔ stratégie comportementale du joueur 1
– Stratégie mixte du joueur 2 : distribution de probabilité sur {AAA, . . . , RRR}
– Stratégie comportementale du joueur 2 : 3 distributions de probabilité sur {A, R}
Une stratégie mixte est équivalente en terme de résultats à une stratégie
comportementale si quelles que soient les stratégies des autres joueurs les deux
stratégies induisent la même distribution de probabilité sur les issues possibles du
jeu (les noeuds terminaux)
Exemple. Dans le jeu de l’ultimatum
1
(2, 0)
(1, 1)
2
A
(2, 0)
(0, 2)
2
R
(0, 0)
A
(1, 1)
2
R
(0, 0)
A
(0, 2)
R
(0, 0)
20/
la stratégie mixte σ2 (AAA) = σ2 (ARA) = σ2 (AAR) = 1/3 est équivalente à la
stratégie comportementale βh2 (A) = 1, βh′2 (A) = βh′′2 (A) = 2/3, où h2 , h′2 , h′′2
sont les ensembles d’information du joueur 2
Remarque : Plusieurs stratégies mixtes sont équivalentes à β2 (par exemple,
σ2 (AAA) = 2/3 et σ2 (ARR) = 1/3)
Théorie des jeux
Exemple.
1
S
C
2
L
G
21/
1
D
R
G
D
La stratégie mixte
σ1 (S, D) = 0.4, σ1 (S, G) = 0.1, σ1 (C, D) = 0.5
est équivalente à la stratégie comportementale du joueur 1 qui consiste à jouer S et
C avec probabilité 1/2, et D avec probabilité 1
Proposition. (Kuhn, 1953)
Dans tout jeu sous forme extensive fini et à mémoire parfaite, pour toute stratégie
mixte (resp. comportementale) d’un joueur il existe une stratégie comportementale
(resp. mixte) de ce joueur qui est équivalente en terme de résultats
⇒ Indifférence entre l’utilisation des stratégies mixtes ou comportementales pour
étudier les équilibres de Nash
Exemples à mémoire imparfaite où la proposition ne s’applique pas :
22/
1
m
d
1
G
D
G
D
➥ La stratégie mixte σ1 (m, G) = σ1 (d, D) = 1/2 n’a pas de stratégie
comportementale équivalente
Théorie des jeux
N
ω1
ω2
C
C
1
S
1
S
1
G
D
G
D
23/
➥ La stratégie mixte σ1 (C, C, G) = σ1 (C, C, D) = 1/2 a une stratégie
comportementale équivalente (C | ω1 , C | ω2 , 12 G + 21 D | C)
➥ Mais la stratégie mixte σ1 (C, C, G) = σ1 (C, S, D) = 1/2 n’a pas de stratégie
comportementale équivalente
G
D
1
G
0
1
24/
D
0
➥ La stratégie comportementale qui consiste à jouer G et D avec probabilité 1/2
génère la distribution (1/2, 1/4, 1/4) sur les noeuds terminaux, alors qu’aucune
stratégie mixte ne peut générer une distribution de probabilité qui assigne une
probabilité strictement positive au deuxième noeud final (l’histoire D, G)
⇒ Toutes les stratégies mixtes donnent une utilité égale à 0 (elles sont donc toutes
optimales) alors que la stratégie comportementale optimale consiste à jouer G et D
avec probabilité 1/2, qui donne une utilité espérée égale à 1/4
Théorie des jeux
Menaces non crédibles
Dans de nombreux jeux, il existe des équilibres de Nash “non raisonnables”, qui
reposent sur des choix hypothétiques irrationnels, des menaces d’actions non
crédibles
Exemples : image
image
– Jeu de l’entrée : (Ne pas entrer, casser les prix)
– Jeu de l’ultimatum : ((0, 2), RRA)
25/
Sous-jeux
Un sous-jeu d’un jeu sous forme extensive G est un jeu sous forme extensive de
noeud initial x appartenant à G dont l’ensemble des noeuds non initiaux est le sous
ensemble des noeuds successeurs de x dans G, et où les joueurs, les ensembles
d’information et les actions associées aux noeuds non terminaux, ainsi que les
utilités associées aux noeuds terminaux sont les mêmes que dans le jeu original G
Un sous-jeu strict ou propre de G est un sous-jeu de G différent de G
Exemple. Le jeu G a 4 sous-jeux stricts
2
G
S
(1, 2)
C
1
G4
a1
26/
G2
1
A1
G1 2
α2
b1
G3
B1
2
A2
B2
1
β2
(4, 0) (1, 1)
(2, 1)
α1
β1
α1
β1
(3, 3) (1, 5) (4, 2) (5, 1)
Théorie des jeux
Autres exemples :
– Dilemme des prisonniers et jeu de signal : pas de sous-jeux stricts
– Jeu de l’ultimatum fini : 3 sous-jeux stricts
– Jeu de l’entrée : 1 sous-jeu strict
Définition. (Selten, 1965)
27/
Un équilibre de Nash parfait en sous-jeux (ENPSJ) est un profil de stratégies tel
que pour chaque sous-jeu le profil de stratégies induit est un équilibre de Nash de ce
sous-jeu
Fig. 2 – Reinhard Selten (1930– )
Remarques.
☞ Si pas de sous-jeux stricts alors EN ⇔ ENPSJ
☞ {ENPSJ} ⊆ {EN}
Proposition.
28/
Tout jeu sous forme extensive fini possède au moins un équilibre de Nash parfait en
sous-jeux en stratégies mixtes
Théorie des jeux
Résolution par induction rétroactive
(Backward induction)
Résolution à partir de la fin du jeu : on recherche les EN des plus petits sous-jeux
2
S
(1, 2)
C
1
a1
29/
b1
1
2
A1
B1
2
α2
B2
A2
1
β2
(2, 1)
(4, 0) (1, 1)
α1
β1
α1
β1
(3, 3) (1, 5) (4, 2) (5, 1)
Jeu de l’entrée. Un seul ENPSJ : (Entrer, Partager)
Jeu de l’ultimatum. Deux ENPSJ en stratégies pures :
((2, 0), AAA) et ((1, 1), RAA)
et un continu en stratégies mixtes
((2, 0), σ2 (AAA) ≥ 1/2 et ((1, 1), σ2 (AAA) ≤ 1/2)
avec σ2 (AAA) + σ2 (RAA) = 1
30/
Proposition. (Kuhn, 1953)
Tout jeu fini à information parfaite possède au moins un équilibre de Nash parfait
en sous-jeux en stratégies pures
Remarques.
☞ L’ensemble des actions à chaque ensemble d’information doit être fini : si
A = [0, 1) et ui (a) = a alors pas d’ENPSJ
Théorie des jeux
☞ La durée du jeu doit être finie :
1 C 1 C 1 C
S
1
S
2
... 1 C 1 C
S
3
S
k
··· 0
S
k+1
☞ Unicité de l’ENPSJ dans les jeux à information parfaite si les joueurs ne sont
jamais indifférents entre deux issues possibles
31/
☞ Si information parfaite et unicité alors il existe un ordre d’élimination des
stratégies faiblement dominées qui est équivalent à l’induction rétroactive (cf.
aussi paradoxes)
☞ Si la Nature intervient et si aucun joueur n’a d’information privée alors le jeu
peut être réécrit comme un jeu à information parfaite (la Nature intervient à la
fin)
✍ Autre exemple à voir : “connaı̂tre le gagnant sans connaı̂tre la solution” pdf
Exemple. Engagement/menace crédible.
L’armée 1 du pays 1 doit décider si elle attaque l’armée 2 du pays 2 qui est située
sur une ı̂le entre les deux pays. En cas d’attaque, l’armée 2 a le choix entre
combattre l’armée 1 ou battre en retraite en utilisant le pont qui rejoint son pays.
Chaque armée préfère que ce soit elle qui occupe l’ı̂le plutôt que l’armée ennemie.
Cependant, pour chaque armée la pire des issues est la bataille.
✍ Forme extensive et équilibre de Nash parfait en sous jeu ?
32/
✍ Montrer que l’armée 2 peut améliorer son paiement d’équilibre en détruisant le
pont qui relie l’ı̂le au pays 2 à l’avance (cette action est observée par l’armée 1
avant qu’elle prenne sa décision)
Reconsidérons la situation initiale (sans possibilité de destruction du pont)
✍ Si les deux armées devaient prendre leur décision simultanément, de quel type de
jeu s’agirait-il ? (dans le cas où l’ı̂le n’est occupée par aucune armée, supposer une
préférence intermédiaire entre le fait d’être seul sur l’ı̂le et le fait d’avoir cédé l’ı̂le)
Théorie des jeux
Duopole de Stackelberg
Firme i = 1, 2 produit qi avec coût fixe nul et coût marginal constant λ > 0
Demande inverse linéaire : p(q1 + q2 ) = a − (q1 + q2 ), où a > λ
Profit de chaque firme i :
ui (q1 , q2 ) = p(q1 + q2 ) qi − λ qi = qi (a − λ − (q1 + q2 ))
33/
Décisions séquentielles : La firme 1 (leader ) choisit (de manière irréversible) q1 puis
la firme 2 (follower ) choisit q2 en connaissant le niveau choisi par la firme 1
Stratégie de la firme 1 : choix d’une quantité q1 (comme dans le modèle de Cournot)
Stratégie de la firme 2 : fonction qui associe à chaque niveau de production q1 un
niveau de production q2∗ (q1 ) pour la firme 2
Résolution par induction à rebours.
Production optimale de la firme 2 en fonction de q1 :
q2∗ (q1 ) = MR2 (q1 ) = arg max u2 (q1 , q2 ) =
q2
a − λ − q1
2
Production optimale de la firme 1 étant donné la stratégie de la firme 2 ➟
maximiser
u1 (q1 , q2∗ (q1 )) = q1 (a − λ − (q1 + q2∗ (q1 ))) =
34/
soit q1∗ =
a−λ
2
⇒ q2∗ (q1∗ ) =
a−λ
4
Cournot
Firme 1
q1 =
Firme 2
q2 =
1
q1 (a − λ − q1 )
2
a−λ
3
a−λ
3
u1 =
u2 =
Stackelberg (firme 1 leader)
(a−λ)2
9
(a−λ)2
9
q1 =
q2 =
a−λ
2
a−λ
4
u1 =
u2 =
(a−λ)2
8
(a−λ)2
16
Tab. 1 – Niveaux de production et profits dans les modèles linéaires de duopole de
Cournot et de Stackelberg
Théorie des jeux
Paradoxes de l’induction rétroactive
1
35/
C
2
1
C
S
S
1, 0
0, 10
C
50, 1000
S
100, 5
Que doit faire (penser) le joueur 2 s’il est effectivement amené à jouer ?
Le dilemme des prisonniers joué deux fois.
1
D
C
D
D
(1, 1)
(0, 3)
C
(3, 0)
(2, 2)
C
2
D
36/
C
D
C
D
C
D
C
D
C
D
C
D
2, 2
4, 1
4, 1
6, 0
1, 4
3, 3
3, 3
5, 2
C
1, 4
3, 3
3, 3
5, 2
0, 6
2, 5
2, 5
4, 4
Unique EN (ENPSJ) : les deux joueurs dénoncent aux deux périodes
☞ Même résultat quelle que soit la durée (finie et de connaissance commune) du jeu
Que doit faire (penser) un joueur s’il observe que l’autre joueur a coopéré ?
Remarque. On verra que répétition infinie ⇒ coopération possible
Théorie des jeux
Références
Harsanyi, J. C. (1967–1968) : “Games with Incomplete Information Played by Bayesian Players. Parts I, II, III,”
Management Science, 14, 159–182, 320–334, 486–502.
Kuhn, H. W. (1953) : “Extensive Games and the Problem of Information,” dans Contributions to the Theory of
Games, ed. par H. W. Kuhn et A. W. Tucker, Princeton : Princeton University Press, vol. 2.
Selten, R. (1965) : “Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit,” Zeitschrift für dis
gesamte Staatswissenschaft, 121, 301–324 and 667–689.
37/

Jeux sous forme extensive

Transcription

Documents pareils

Fiche de préparation d`une sortie géologique

Jeux sous forme extensive

TP 7 - LSV

Poker des cafards

L`Homme de cour

Yummy. Contenu: 106 cartes 1 règle Le jeu contient 106 cartes

1 La roulette du casino

La théorie des jeux

Niveau Minima Requis : Etre 2ème série en classement FFT Critères

Calcetto Championship 2014 Bulletin d`inscription joueur

Estimation conjointe de plusieurs mod`eles de régression

Jeux sous forme normale

Stratégies Mixtes

Risque et sélection d`équilibre dans un jeu de