M1 IAD UE DECISION et JEUX Notes de cours (4) THEORIE des

Transcription

M1 IAD UE DECISION et JEUX Notes de cours (4) THEORIE des
M1 IAD UE DECISION et JEUX
Notes de cours (4)
Jean-Yves Jaffray
Patrice Perny
4 avril 2006
THEORIE des JEUX
1
Jeux
La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir
des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies
jouées par l’ensemble des joueurs.
Une stratégie peut se réduire à une décision élémentaire, mais peut aussi consister en un
plan d’action complexe, comme nous le verrons plus loin.
Un jeu est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des
autres. La théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les
joueurs de la possibilité de former entre eux des coalitions.
2
Jeux non-coopératifs
2.1
Jeux sous forme normale
Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est
défini par la donnée :
d’un ensemble de joueurs N = {1,..,i,..,n} ;
pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 ,..,ail ,..,aimi } ;
et d’une fonction(vectorielle)
de paiement
N
u = (u1 ,..ui ,..un ) : ni=1 Ai −→ Rn
a = (a1 ,..ai ,..an ) 7−→ u(a) = (u1 (a),..,ui (a),..,un (a)),
où ui (a) = ui (a1 ,..,ai ,..,an ) est le paiement du joueur i (ce peut être aussi bien un gain
monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, c-à-d, lorsque
le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj , j ∈ N \{i}.
n
Notation : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 ,..,ai−1 ,ai+1
N ,..a ),j
i
−i
−i
1
i−1
i−1
n
i
−i
−i
a = (a , a ), u (a) = (u (a),..,u (a),u (a),..,u (a)), u(a) = (u (a), u (a)), A = j6=i A ,
A = Ai × A−i , etc.
Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.
1
Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice
du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des
joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 ,a2 ),u2 (a1 ,a2 )).
N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs connaissent
la matrice du jeu.
Exemples
La bataille des sexes
Line et Colin doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun
séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que l’opéra, l’autre
que la boxe ; enfin, leur soirée à tous deux sera gâchée s’ils ne sont pas ensemble.
Line \ Colin
opéra
boxe
opéra
2, 1
−1, − 1
boxe
−1, − 1
1, 2
Peut-on dire ce que doivent faire, prédire ce que vont faire, Line et Colin?
Le dilemme du prisonnier
P ris. I \ P ris. II
nier
avouer
nier
1, 1
2, − 1
avouer
−1, 2
0, 0
Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés séparément
par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine et s’ils avouent tous
les deux ils seront condamnés à une peine plus forte ; si l’un des deux avoue tandis que l’autre
nie, le premier n’aura qu’une peine de principe alors que le second aura la peine maximale.
Que vont faire, que doivent faire, les deux prisonniers?
2.2
2.2.1
Analyse d’un jeu sous forme normale
Considérations de dominance
Dominances
La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque :
ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ;
elle la domine si elle la domine faiblement et que, de plus :
∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ;
enfin, elle la domine strictement lorsque :
ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i .
La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante)
si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }.
Equilibre en stratégies strictement dominantes
On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une
autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs.
Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu.
On dit alors qu’il existe un équilibre en stratégies strictement dominantes.
C’est le cas dans le dilemme du prisonnier pour (avouer, avouer).
2
Remarquons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ;
il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par l’optimalité au sens de Pareto :
Optimum de Pareto
Une suite de stratégies a∗ = (a1∗ ,..ai∗ ,..an∗ ) est un optimum de Pareto lorsqu’ aucun des joueurs
ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :
i i −i
i i −i
i i −i
u (a , a ) ≥ ui (ai∗ ,a−i
∗ ),∀i =⇒ u (a , a ) = u (a∗ ,a∗ ),∀i .
Equilibre itératif en stratégies strictement dominantes
Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où
chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme
dominées à cette étape de son raisonnement.
Exemple
Matrice du jeu :
G
C
D
(2, 5) (4, 8) (1, 3)
(1, 4) (2, 5) (3, 6)
(3, 7) (5, 8) (2, 9)
H
M
B
Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs pas
non plus de colonne dominant strictement toutes les autres colonnes).
Dans la recherche d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :
C
D
G strictement dominé par C →
C
→
M
B
H
M
B
(4, 8) (1, 3)
(2, 5) (3, 6)
(5, 8) (2, 9)
; H strictement dominé par B
D
(2, 5) (3, 6)
(5, 8) (2, 9)
D
; C strictement dominé par D →
B strictement dominé par M →
M
M
B
(3, 6)
(2, 9)
;
D
. (M,D) est l’équilibre itéré en stratégies
(3, 6)
strictement dominées cherché.
Equilibre et équilibre itératif en stratégies dominantes
On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en
existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour
certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il
ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies
dominantes.
En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes.
En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies
dominées adopté, on peut aboutir à des résultats différents.
3
2.2.2
Equilibre de NASH
Lorsque, comme dans la bataille des sexes, il n’existe pas d’équilibre, même itératif, en
stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des
stratégies aux propriétés plus faibles :
Meilleure réponse
La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des
autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai .
Equilibre de Nash
Un profil de stratégies a∗ = (a1∗ ,..ai∗ ,..an∗ ) est un équilibre de Nash lorsque chacune de ses
composantes constitue une meilleure réponse aux autres :
i
i
i i −i
ui (ai∗ , a−i
∗ ) ≥ u (a , a∗ ), ∀a ∈ A ,∀i = 1,..,n.
Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque,
un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il n’a
aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre.
Par exemple, les joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ;
une trahison reste toujours possible ; cependant chacun a intérêt à respecter cet accord si les
autres le respectent aussi.
La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille des sexes,
il y a deux équilibres de Nash (opéra,opéra) et (boxe,boxe) ; sans entente préalable, Line peut
vouloir jouer l’un et Colin l’autre, avec pour résultat les paiements (−1, − 1) ; les jeux où se
rencontre cette difficulté sont appelés jeux de coordination.
Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le dilemme du prisonnier
(avouer, avouer) étant un équilibre en stratégies (strictement) dominantes est aussi équilibre
de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur pour chacun des
deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.
On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en
stratégies dominées est nécessairement un équilibre de Nash.
L’inverse n’est pas vrai et le processus itératif d’élimination de stratégies dominées peut écarter
un équilibre de Nash attractif comme dans l’exemple suivant.
Exemple
J. I \ J. II
G
D
H
10, 0 5, 2
B
10, 11 2, 0
Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement)
par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un
deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé!
L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le
jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être
joués par des joueurs rationnels.
4
2.3
Forme normale et forme extensive
Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites
commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :
Exemple (Attaque publicitaire)
Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs
(1,5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de
marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2,3) ; en revanche, si E 2 réagit
en lançant sa propre campagne, les bénéfices deviendront (0,2). L’arbre que l’on associe à ce jeu
est le suivant :
pub
pub
E2
statu quo
E
(0, 2)
(2, 3)
1
statu quo
(1, 5)
Fig. 1 – arbre du jeu
Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence
sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub.
Le jeu a pour forme normale:
E1 \ E2
pub
statu quo
pub
0, 2
1, 5
statu quo
2, 3
1, 5
Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme
extensive nous assure que le second ne sera pas joué: si E 1 choisit pub, E 2 jouera statu quo qui
lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo.
(On peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera
pas pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait
douteuse).
Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de
prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des
autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.
On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent
pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand
l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant que
les autres au moment où il joue; elle est dite asymétrique sinon.
L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels
sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent).
5
Dans la prochaine section, nous allons étudier de façon approfondie les jeux sous forme
extensive.
3
3.1
Jeux sous forme extensive
Définitions
Arbres de jeu
Un jeu sous forme extensive est décrit à l’aide d’un arbre de jeu, qui est en fait une arborescence :
graphe orienté possédant un sommet (sa racine) tel qu’il existe un chemin et un seul menant
de ce sommet à chacun des autres sommets ; une arborescence n’a ni circuit ni cycle, a une
seule racine et chaque sommet, sauf la racine, a exactement un parent (= prédécesseur direct) ;
les sommets sans enfant (= sans successeur direct) sont les sommets terminaux ou feuilles ; les
prédécesseurs directs ou indirects d’un sommet sont ses ascendants et ses successeurs directs ou
indirects sont ses descendants.
On appelle profondeur d’un sommet la longueur (= le nombre d’arcs) du chemin le reliant à la
racine et profondeur (de l’arbre) du jeu le maximum de profondeur parmi ses sommets.
Le lien entre un jeu et l’arbre de jeu associé est le suivant : chaque chemin de la racine
à une feuille correspond à l’un des déroulements possibles du jeu ; à ce chemin - en fait à la
feuille f qui suffit à le définir - on associe le vecteur des paiements résultants pour les joueurs
u(f ) = (u1 (f ),..,ui (f ),..,un (f )).
Le déroulement d’un jeu et son issue peuvent parfois dépendre d’événements extérieurs, c-à-d
qui ne peuvent pas être contrôlés par les joueurs ; on dit alors que le jeu comporte de l’incertitude ou qu’il se déroule en environnement incertain ; nous nous placerons alors toujours dans le
cas où cette incertitude est probabilisée (cas du risque) et où tous les joueurs ont pour critère
l’espérance d’utilité (EU ) ; ui est alors l’utilité de vNM du joueur i.
Dans un jeu en environnement certain (absence d’incertitude) chaque sommet est associé à
l’un des n joueurs ; les arcs issus d’un sommet associé au joueur i, dit sommet de décision du
joueur i, correspondent aux différentes actions possibles pour ce joueur à cet instant.
Pour les jeux en environnement incertain, certains sommets, dits sommets d’information, expriment de l’arrivée d’information sous la forme de l’annonce qu’un événement d’une partition
E est réalisé ; on associe un tel sommet à un joueur fictif, la Nature ; chacun des arcs issus de ce
sommet correspond à la réalisation d’un événement Ek ∈ E ; la Nature choisissant Ek avec une
certaine probabilité pk .
Un graphe étant fini, on ne peut représenter à l’aide d’un arbre de jeu que les jeux à nombre
fini de joueurs, ayant un nombre fini de choix à faire entre chaque fois un nombre fini d’actions
et où n’interviennent qu’un nombre fini d’événements. Un tel jeu est dit jeu fini.
Ensembles d’information
Au moment d’effectuer lui-même une action, un joueur (non-fictif) peut connaı̂tre, en tout
en en partie, les actions déjà effectuées par les autres joueurs et les événements réalisés.
On indique l’état exact del’information des joueurs sur l’arbre du jeu par leurs ensembles d’information lors de chacune de leurs actions. Le principe est le suivant : dès qu’un joueur ne sait
pas quelle action a prise l’un des autres joueurs ou quel événement a été réalisé à une étape
précédente, il ne sait pas exactement à quel sommet de l’arbre du jeu il se trouve ; l’ensemble
des sommets possibles constitue son ensemble d’information à cette étape du jeu.
6
Nous ferons toujours une hypothèse qui simplifiera énormément la structure du jeu : c’est
que les joueurs, y compris la Nature n’oublient jamais rien de ce qu’ils ont su ; c’est l’hypothèse
de mémoire parfaite. Pour un des n joueurs, cela signifie que, lors d’un déroulement possible
du jeu, les sommets de son ensemble d’information à une étape donnée sont nécessairement des
descendants de ceux de ses ensembles d’information des étapes antérieures ; pour la Nature, cela
signifie qu’au cours du jeu les événements réalisés appartiennent à des partitions de plus en plus
fines.
On dit qu’un jeu est à information parfaite lorsqu’on peut le représenter à l’aide d’un arbre
de jeu, pouvant contenir des sommets d’information, où les ensembles d’information sont tous
des singletons. Autrement dit, dans un jeu à information parfaite, chaque joueur observe toute
les actions faites par ses adversaires ainsi que tous les événements qui sont réalisés et ne les
oubliera jamais : il sait toujours exactement où il se trouve. Dans le cas contraire, le jeu est dit
à information imparfaite.
N.B. : il n’est pas nécessaire que le déroulement du jeu tel que le représente l’arbre coı̈ncide
parfaitement avec son déroulement chronologique réel ; l’introduction des ensembles d’information nous donne en effet une certaine souplesse ; il en résulte qu’un même jeu peut être représenté
par différents arbres de jeu.
Exemples
Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames
et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage
à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le
jeu complété reste à information parfaite.
Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition des
cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain :
Le Bonneteau
Le Manipulateur place une bille sous l’une de 3 coupes renversées : la G(auche), celle du C(entre)
ou la D(roite) ; le Gogo mise m e , choisit une des coupes (g(auche),c(entre) ou d(roite)) et
gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre de décision (Fig.1) on a indiqué
l’ensemble d’information du Gogo au moment de jouer ( ellipse en pointillés) : il ne sait pas où
se trouve la bille, donc est incapable de distinguer les 3 sommets où il peut avoir à jouer.
Le dilemme du prisonnier
Dans ce jeu, les deux joueurs jouent simultanément ; on peut pourtant le représenter sous forme
extensive en plaçant dans l’arbre du jeu l’action de l’un avant celle de l’autre ; ce dernier ne
connaissant pas le choix de l’autre ne sait où il se trouve dans l’arbre : son ensemble d’information ( ellipse en pointillés) a deux éléments. C’est un jeu à information imparfaite.
Stratégies
Une stratégie du joueur i ( que nous appellerons plus tard stratégie pure quand nous introduirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables
en chacun des sommets de décision qui lui sont associés.
Dans les jeux à information imparfaite, un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante :
sélectionner la même action à tous les sommets d’un même ensemble d’information.
7
g
Gogo
c
d
M −m
−m
−m
G
g
C
c
Gogo
M an.
d
−m
M −m
−m
D
g
Gogo
c
d
−m
−m
M −m
Fig. 2 – arbre du jeu du Bonneteau
N.B. Cette condition n’apporte aucune restriction dans les jeux à information parfaite puisque
tous les ensembles d’information y sont des singletons.
Un profil de stratégies est une suite a = (a1 ,..,ai ,..an ), c-à-d consiste en la donnée d’une
stratégie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de stratégies a détermine complètement
le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on
appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent :
U (a) = (U 1 (a),..,U i (a),..,U n (a)) = u(f ) = (u1 (f ),..,ui (f ),..,un (f )).
Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des
stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de
stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la
loi de probabilité
des divers événements) ; a donne donc au joueur i une espérance d’utilité
P
U i (a) = f P (f ) ui (f ).
La donnée d’un jeu sous forme extensive permet donc d’obtenir sa forme normale.
Remarque : On peut se demander pourquoi l’on exige qu’ une stratégie du joueur i spécifie les
actions choisies par ce joueur à tous ses sommets de décision, même à ceux situés dans des
parties de l’arbre de jeu que ses premières actions rendront inaccessibles. Nous verrons que cette
spécification est nécessaire pour pouvoir analyser complètement les équilibres de Nash du jeu.
Elle est aussi indispensable si l’on veut tenir compte de la possibilité pour les joueurs de commettre des erreurs - jouer certaines actions à la place de celles qu’ils jugent optimales.
N.B. On supposera toujours que l’ensemble du jeu est connaissance commune, c-à-d que : chaque
joueur connait l’arbre du jeu, les ensembles d’information de chacun, les probabilités de tous les
événements, les paiements de chacun à chaque feuille ; chacun sait que les autres connaissent
l’ensemble du jeu ; chacun sait que les autres savent qu’il connait l’ensemble du jeu ; etc.
On supposera en outre connaissance commune que tous les joueurs ont une capacité illimitée de
raisonnement et de traitement de l’information.
8
nier
nier
(1, 1)
avouer
(− 1, 2)
nier
(2, − 1)
avouer
(0, 0)
P ris.II
P ris.I
avouer
P ris.II
Fig. 3 – Un arbre du jeu possible pour le dilemme du prisonnier
3.2
Résolution d’un jeu sous forme extensive à information parfaite
i) Prenons d’abord le cas d’un jeu dans le certain.
Considérons une feuille de profondeur maximum. Cette feuille a un sommet parent, qui est
un sommet de décision d’un des joueurs. En ce sommet, ce joueur, i, a à choisir entre plusieurs
actions, menant l’une à la feuille considérée, les autre nécessairement à d’autres feuilles ; si le
déroulement du jeu devait faire passer la trajectoire par ce sommet, le joueur i sait quelle action
il choisirait (celle qui lui apporterait un paiement maximum), donc à quelle feuille aboutirait la
trajectoire et quels seraient son paiement et ceux des autres joueurs.
Connaissant tous les éléments du jeu, les autres joueurs le savent aussi. On peut donc modifier
l’arbre en supprimant les feuilles enfants de ce sommet, qui devient donc une feuille que l’on
dote des paiements ci-dessus et n’étudier que le jeu tronqué qui en résulte.
Comme ceci peut se répéter et que l’arbre du jeu a un nombre fini de sommets, on détermine
de proche en proche le comportement optimal de chaque joueur en chacun de ses sommets de
décision, c-à-d sa stratégie optimale.
ii) voyons le cas d’un jeu dans l’incertitude.
La méthode décrite ci-dessus amenera à certaines étapes à un sommet parent qui est un
sommet d’information ; on sait qu’en un tel sommet les joueurs attendent un paiement aléatoire,
calculable puisque l’on connait les paiements des joueurs aux feuilles, qui sont des utilités ou
des espérances d’utilité, ainsi que les probabilités des événements réalisables à ce sommet ; on
peut donc calculer les paiements à associer à ce sommet lorsqu’il deviendra feuille, qui sont les
espérances de ces espérances d’utilité.
Le reste se déroule comme dans le cas (i).
9
En résumé, en procédant par induction arrière on détermine de proche en proche, en partant
des feuilles et remontant vers la racine, une stratégie optimale pour chaque joueur.
Le profil de stratégies ainsi est obtenu est appelé solution du jeu.
La solution du jeu n’est en général pas unique ; en effet, nous avons supposé dans notre raisonnement qu’il y avait à chaque optimisation une action optimale unique ; en fait il peut y avoir
des ex-aequo ; on peut trancher arbitrairement à chaque fois, ce qui revient in fine à sélectionner
une stratégie particulière pour chaque joueur parmi plusieurs possibles.
Remarquons que la solution du jeu est automatiquement un équilibre de Nash ; pour un
joueur i dévier de la stratégie optimale trouvée signifie choisir des actions différentes des actions
optimales à certains de ses sommets de décision ; mais, à stratégies fixées des autres joueurs, la
stratégie optimale de i n’est autre que sa stratégie optimale dans le risque (il n’y a plus que lui
et la Nature) pour le critère de l’espérance d’utilité et sa valeur ne peut être améliorée.
Nous venons de démontrer :
Théorème 1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite a une solution qui est un équilibre de Nash en stratégies pures.
En fait, cet équilibre de Nash est, de plus, parfait en sous-jeux comme nous le verrons plus
loin. Avant cela, nous allons examiner un cas particulier.
3.3
Cas des jeux à deux joueurs à information parfaite à somme nulle
Un jeu sous forme extensive à deux joueurs est à somme nulle lorsqu’en toute feuille f les
paiements satisfont u1 (f ) + u2 (f ) = 0.
Un profil de stratégies pures a = (a1 , a2 ) offre alors au joueur 1 un paiement (une espérance
d’utilité s’il y a de l’incertitude) U 1 (a) = U 1 (a1 , a2 ) et l’opposé au joueur 2.
On démontre facilement (cf Chap. Dualité) que :
maxa1 mina2 U 1 (a1 , a2 ) ≤ mina2 maxa1 U 1 (a1 , a2 ).
En cas d’égalité, on appelle valeur du jeu cette valeur commune au maximin et au minimax.
Or, le théorème de Kuhn nous dit qu’il existe un profil de stratégies pures (a∗ ) = (a1∗ , a2∗ )
qui est un équilibre de Nash et donc tel que
U 1 (a1∗ , a2∗ ) = maxa1 U 1 (a1 , a2∗ ) = mina2 U 1 (a1∗ , a2 )
d’où
maxa1 mina2 U 1 (a1 , a2 ) ≥ mina2 U 1 (a1∗ , a2 ) = maxa1 U 1 (a1 , a2∗ ) ≥ mina2 maxa1 U 1 (a1 , a2 )
et donc l’égalité
maxa1 mina2 U 1 (a1 , a2 ) = mina2 maxa1 U 1 (a1 , a2 ) [ = U 1 (a1∗ , a2∗ )].
On peut donc conclure que :
Théorème 2 (Zermelo). Tout jeu fini à deux personnes sous forme extensive à information
parfaite et à somme nulle a une valeur qui est obtenue par un équilibre de Nash en stratégies
pures.
10
Exemple Le jeu d’échec est un jeu fini à somme nulle à information parfaite (et dans le
certain). Il y a donc une valeur du jeu ; comme elle ne peut prendre que l’une des modalités
suivantes : gain des Blancs, Gain des Noirs, partie nulle, le théorème précédent a pour corollaire
lui-même dû à Zermelo:
Aux échecs, soit les Blancs ont une stratégie gagnante ; soit les Noirs ont une stratégie gagnante ; soit l’un et l’autre ont des stratégies leur permettant d’obtenir au moins partie nulle.
Rappelons que dans le cas général des jeux à somme nulle, y compris ceux qui sont à information imparfaite, il existe une valeur du jeu en stratégies mixtes (Th. de von Neumann).
3.4
Stratégies mixtes et forme extensive
Nous avons introduit les stratégies mixtes à propos de jeux sous forme normale (cf Chap.
Dualité). L’introduction de stratégies mixtes dans un jeu modifie celui-ci, puisque l’ensemble des
stratégies du jeu n’est plus le même. On étudie en fait un autre jeu, l’extension mixte du jeu ou
jeu mixte engendré par le jeu initial, qui a pour stratégies pures les stratégies mixtes du jeu initial.
Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une
infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice
du jeu initial.
On ne parlera donc pas de jeu mixte mais précisera, stratégie pure et stratégie mixte du jeu
initial.
Nash a démontré que :
Théorème 3 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de
Nash] en stratégies mixtes.
Sous-jeu
On appelle sous-jeu d’un jeu donné tout jeu dont la forme extensive est un sous-arbre de
l’arbre de ce jeu.
Chaque sous-jeu a ses propres équilibres de Nash.
Considérons un sous-jeu dont la racine est située sur la trajectoire engendrée par un équilibre
de Nash du jeu et qui, de plus, s’il y a de l’incertitude, a une probabilité positive d’être atteinte :
les sous-stratégies des stratégies de l’équilibre constituent nécessairement un équilibre de Nash
du sous-jeu, puisqu’une déviation bénéfique pour un joueur dans le sous-jeu lui serait aussi
bénéfique dans le jeu, ce qui est impossible à l’équilibre.
Cet argument ne s’étend pas aux sous-jeux hors trajectoire, puisque les modifications hors
trajectoire des stratégies n’ont pas d’effets sur les paiements possibles. Or des stratégies dont
les sous-stratégies ne forment pas un équilibre de Nash dans tout sous-jeu perdent de leur
crédibilité, car une déviation (accidentelle : la main tremblante) de la trajectoire ne peut pas
toujours être exclue.
Un équilibre de Nash est dit parfait en sous-jeux (en abrégé: équilibre parfait) lorsque les
stratégies qui le constituent engendrent un équilibre de Nash dans tout sous-jeu.
Détermination d’un équilibre de Nash parfait en sous-jeux
11
La solution du jeu construite par l’algorithme de la démonstration du th. de Kuhn a pour
trace sur tout arbre de sous-jeu un profil de sous-stratégies qui est une solution - et donc un
équilibre de Nash - de ce sous-jeu. Cette solution est donc un équilibre parfait en sous-jeux.
De plus, tout équilibre parfait peut être obtenu ainsi (si à certains sommets il y a plusieurs
décisions optimales possibles, alors il y a plusieurs équilibres parfaits).
4
Jeux répétés
Introduction
Reprenons l’exemple du dilemme du prisonnier :
P ris. I \ P ris. II
nier
avouer
nier
1, 1
2, − 1
avouer
−1, 2
0, 0
L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante :
Si les joueurs sont rationnels, chacun doit éliminer la stratégie avouer qui est strictement dominée ; la solution du jeu est donc avouer,avouer ; c’est nécessairement un équilibre de Nash et
c’est en fait le seul.
Or cette solution est dominée au sens de Pareto par le profil nier,nier, plus avantageux pour
chacun des joueurs.
Il y a donc conflit entre la rationalité individuelle et la rationalité collective.
Quand pourrait-on observer de la coopération de la part des joueurs? Une hypothèse possible
est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie
dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de
l’ensemble de leurs jeux.
Nous allons examiner cette hypothèse.
Etude du dilemme du prisonnier répété
Comportement rationnel dans le dilemme du prisonnier répété un nombre fini de fois
On écrira A et N pour les stratégies avouer et nier du jeu élémentaire.
Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des
dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les
paiements du super-jeu.
Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs le jeu élémentaire) puisqu’à chaque t les deux joueurs jouent à l’insu l’un de l’autre.
A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1)
premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des
joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · ,, S T ) dont
les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée de
S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1 sont
les actions de l’autre joueur qu’il aura déjà observées à t.
Il y a donc un très grand nombre de stratégies (pures) possibles pour chacun des joueurs.
12
Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape,
stratégie que nous noterons Arep .
A la date T , quel qu’ait été le déroulement du jeu jusque là et le total des gains de chacun, il
reste à jouer un jeu élémentaire où jouer A est strictement dominant pour les deux joueurs : tous
deux prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans
le jeu élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu
formé de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la première
étant strictement dominante, les deux joueurs prévoient donc que l’autre jouera A à (T − 1)
comme à T .
Par récurrence, on montrerait que tous les deux doivent jouer Arep .
Cette stratégie du super-jeu y est clairement Pareto-dominée par de nombreuses autres stratégies.
On reste devant la même incohérence entre rationalité individuelle et collective que dans le jeu
élémentaire!
Introduction de présupposés de comportement dans le dilemme du prisonnier répété un
nombre fini de fois
Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en
compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori
sur le comportement l’autre joueur.
Nous prendrons l’exemple suivant : on appelle Tit for Tat (“oeil pour oeil, dent pour dent”) la
stratégie suivante :
Jouer N (coopérer) à t = 1, puis , à tout t > 1,jouer ce que l’autre a joué à (t − 1).
Supposons que le joueur 1 pense que son adversaire peut avec une probabilité ǫ jouer la stratégie
Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep .
Si 1 joue lui-même Arep , avec probabilité ǫ il gagnera 2 la première fois puis plus rien et avec
probabilité (1 − ǫ) ses paiements seront toujours nuls : un gain espéré égal à ǫ
Jouer lui-même Tit for Tat lui donne, avec probabilité ǫ, T fois un gain de 1 et avec probabilité
(1 − ǫ) une perte de 1 puis des paiements nuls : un gain espéré égal à ǫ (T + 1) − 1.
Tit for Tat est donc préférable pour lui à la stratégie “rationnelle” Arep dès que ǫ > T1 .
(en fait, Tit for Tat n’est pourtant pas sa stratégie optimale car, par exemple, il a intérêt à
toujours jouer A à la fin)
Comportement dans le dilemme du prisonnier répété une infinité de fois
On peut aussi penser qu’il y a un effet d’horizon dans le jeu répété un nombre fini de fois,
effet irréaliste puisque dans le monde réel il y a presque toujours de l’incertitude sur la date
de fin des relations marchandes ou autres des agents. Pour se débarrasser de l’horizon, on peut
étudier des jeux répétés une infinité de fois. Pour que le paiement global ne risque pas de devenir
infini, on introduit un taux d’escompte (= taux d’actualisation ou taux d’intérêt) ρ > 0, d’où
1
< 1. Le paiement global est alors la somme actualisée, à t = 0
un facteur dd’escompte δ = 1+ρ
P
par exemple, des paiements gt à t : G = Tt=1 δt gt .
On montre alors qu’une coopération parfaite, les deux joueurs jouant constamment nier
peut apparaitre ; elle pourrait être induite par le choix par chacun de la stratégie coopérative à
déclenchement
Jouer N tant que l’autre le joue aussi ; jouer D à tout jamais dès que l’autre a joué une fois N .
Le résultat précis est le suivant : La stratégie coopérative à déclenchement est un équilibre de
Nash parfait du jeu répété une infinité de foisà condition que δ soit suffisamment proche de 1.
Malheureusement il existe de nombreux autres équilibres parfaits!
13
5
Jeux évolutionnaires
Un jeu évolutionnaire est un jeu à deux joueurs symétrique en ce sens que :
Les deux joueurs ont même ensemble de stratégies pures ;
le gain du joueur I (joueur des lignes) avec la stratégie pure i contre la stratégie pure j du joueur
II (joueur des colonnes) est le même que celui du joueur II avec i lorsque I joue j.
Il est donc caractérisable par la seule matrice carrée (non symétrique) G des gains du joueur I,
G = [gi,j ] ; sous forme normale, la matrice du jeu, M , a pour éléments mi,j = (gi,j , gj,i ) ; symboliquement, M = (G, τ G).
Lorsque les joueurs jouent respectivement des stratégies mixtesPp P
= (p1 , · · · , pi , · · · , pn ) et
τ q = (q , · · · , q , · · · , q ), le gain moyen du joueur I est g(p, q) =
i
1
j
n
i
j p gi,j qj = p G q.
Une stratégie mixte évolutionnairement stable(en abrégé SES), p, est caractérisable par la
propriété suivante :
∀q 6= p, autre stratégie mixte,
soit g(p, p) > g(q, p)
soit g(p, p) = g(q, p) et g(p, q) > g(q, q)
Un SES définit donc toujours un équilibre de Nash symétrique (en stratégies mixtes) ; l’inverse n’est pas vrai.
14