cours 8 : introduction a la theorie des jeux

Transcription

cours 8 : introduction a la theorie des jeux
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Université Pierre et Marie Curie
Licence Informatique 2015-2016
Cours 3I027 - Industrie Informatique et son Environnement Économique
Responsable : Jean-Daniel Kant ([email protected])
COURS 8 :
INTRODUCTION A LA THEORIE DES JEUX
1
Jeux
Le comportement des oligopoles montrent la forte interdépendance entre les firmes. Quand la
marché est contrôlé par un petit nombre d’entreprises, chaque firme analyse les comportements
des autres et peaufine sa stratégie en partie en fonction de celles des autres. Ainsi, ces comportements interdépendants peuvent apparaı̂tre comme des jeux, où chaque firme jouerait un
coup, puis recevrait la réponse d’une autre en riposte, etc. C’est pourquoi la théorie des jeux est
souvent utilisée en économie pour modéliser les comportements oligopolistiques. Elle est aussi
utilisée dans d’autres domaines de l’économie industrielle, en économie du travail, des échanges
internationaux, etc. Elle est cependant plus normative que descriptive, car rien ne prouve que les
acteurs raisonnent exactement comme la théorie des jeux le prescrit. C’est plus une abstraction
de comportement, une vision stylisée qu’un véritable modèle.
La théorie des jeux étudie des situations (les jeux ) où des agents (les joueurs) ont à choisir
des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies
jouées par l’ensemble des joueurs. Une stratégie peut se réduire à une décision élémentaire, mais
peut aussi consister en un plan d’action complexe, comme nous le verrons plus loin. Un jeu
est non-coopératif lorsque les joueurs choisissent leurs stratégies à l’insu les uns des autres. La
théorie des jeux coopératifs étudie au contraire les avantages que peuvent tirer les joueurs de la
possibilité de former entre eux des coalitions.
2
2.1
Jeux non-coopératifs
Jeux sous forme normale
Un jeu est présenté sous forme normale (on dit encore sous forme stratégique) lorsqu’il est
défini par la donnée :
• d’un ensemble de joueurs N = {1, .., i, .., n} ;
• pour chaque joueur i, d’un ensemble de stratégies Ai = {ai1 , .., ail , .., aimi } ;
• et d’une fonction(vectorielle)
de paiement :
Nn
1
i
n
i
u = (u , ..u , ..u ) : i=1 A −→ Rn
1
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - a = (a1 , ..ai , ..an ) 7−→ u(a) = (u1 (a), .., ui (a), .., un (a)),
où ui (a) = ui (a1 , .., ai , .., an ) est le paiement du joueur i (ce peut être aussi bien un gain
monétaire qu’un niveau d’utilité) lorsque les joueurs jouent le profil de stratégies a, cà-d, lorsque le joueur i joue la stratégie ai et les autres joueurs jouent les stratégies aj ,
j ∈ N \{i}.
n
Notations : Il sera commode de noter −i l’ensemble N \{i}, d’où a−i = (a1 , .., ai−1 , ai+1 , ..a
N ), a =
i
−i
−i
1
i−1
i+1
n
i
−i
−i
(a , a ), u (a) = (u (a), .., u (a), u (a), .., u (a)), u(a) = (u (a), u (a)), A = j6=i Aj ,
A = Ai × A−i , etc.
Cette définition peut être étendue à un nombre infini de joueurs ou de stratégies.
Dans le cas de deux joueurs (n = 2), on peut représenter un tel jeu à l’aide de la matrice
du jeu, dont les lignes et colonnes sont respectivement identifiées aux stratégies de chacun des
joueurs et l’élément de ligne a1 et colonne a2 est le couple (u1 (a1 , a2 ), u2 (a1 , a2 )).
Ainsi le jeu est décrit par la matrice U de terme Uij = ui (aj ).
N.B. Dans un jeu sous forme normale on suppose toujours que les deux joueurs
connaissent la matrice U du jeu.
Exemples
La bataille du couple
Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet à l’avance, chacun
séparément ; ils n’ont pas la possibilité de communiquer ; ils n’aiment l’une que les chanteuses
américaines décolorées, l’autre que le football ; enfin, leur soirée à tous deux sera gâchée s’ils ne
sont pas ensemble.
Kevina \ Kevin
concert
f oot
concert
2, 1
−1, −1
f oot
−1, −1
1, 2
Peut-on dire ce que doivent faire, prédire ce que vont faire, Kevin et Kevina ? S’ils sont
rationnels, chacun a intérêt à choisir sa préférence, car il vaut mieux gagner 2 ou perdre -1, que
gagner 1 ou perdre -1. Mais dans ce cas, ils vont perdre à coup sûr. Il vaudrait mieux jouer
(concert,concert) ou (foot,foot). Mais cela ne donnera des gains que s’ils jouent le même. La
bataille du couple est difficile à résoudre !
Le dilemme du prisonnier
P ris. I \ P ris. II
nier
avouer
nier
3, 3
1, 10
avouer
10, 1
6, 6
Ce jeu tire son nom de l’interprétation suivante : deux criminels présumés sont interrogés
séparément par la police ; s’ils nient tous les deux ils seront condamnés à une faible peine (3
ans) et s’ils avouent tous les deux ils seront condamnés à une peine plus forte (6 ans) ; si l’un
2
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - des deux avoue tandis que l’autre nie, le premier n’aura qu’une peine de principe (1 an) alors
que le second aura la peine maximale (10 ans). La matrice ci-dessus représente donc des pertes
(gains négatifs).
Que vont faire, que doivent faire, les deux prisonniers ? Quel que soit l’action de l’autre,
chacun a intérêt à avouer, car les gains seront toujours meilleurs (peines moindres) que nier.
Cependant si on change maintenant la matrice des gains :
P ris. I \ P ris. II
nier
avouer
nier
3, 3
30, 10
avouer
10, 30
30, 30
Il vaut alors mieux nier, vu qu’avouer entraı̂ne la peine maximale à chaque fois.
2.2
Analyse d’un jeu sous forme normale
2.2.1
Considérations de dominance
Dominances
• La stratégie ai du joueur i domine faiblement sa stratégie bi lorsque :
ui (ai , a−i ) ≥ ui (bi , a−i ), ∀a−i ∈ A−i ;
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure ou égale
que bi .)
• elle la domine si elle la domine faiblement et que, de plus :
∃c−i ∈ A−i t.q. ui (ai , c−i ) > ui (bi , c−i ) ;
(il y a au moins un cas, i.e. une réponse des autres joueurs, pour lequel ai est meilleure
que bi )
• enfin, ai domine strictement bi lorsque : ui (ai , a−i ) > ui (bi , a−i ), ∀a−i ∈ A−i .
(quelque soient les stratégies a−i des autres joueurs, la stratégie ai est meilleure strictement que bi .)
La stratégie ai est dite faiblement dominante (resp. dominante, resp. strictement dominante)
si elle domine faiblement (resp. domine, resp. domine strictement) tous les bi ∈ Ai \{ai }.
Equilibre en stratégies strictement dominantes
On peut penser qu’un joueur rationnel ne choisira jamais une stratégie s’il dispose d’une
autre stratégie lui assurant un gain supérieur quel que soit le comportement des autres joueurs.
Si chaque joueur a une stratégie strictement dominante, il doit donc la jouer et le jeu est résolu.
On dit alors qu’il existe un équilibre en stratégies strictement dominantes.
C’est le cas pour (avouer, avouer) dans le premier dilemme du prisonnier ci-dessus. Remarquons que les joueurs obtiendraient tous deux plus qu’à cet équilibre en jouant (nier, nier) ;
il n’est donc pas efficace du point de vue de la rationalité collective, qui se caractérise par
l’optimalité au sens de Pareto.
3
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Optimum de Pareto
Une suite de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un optimum de Pareto lorsqu’ aucun des
joueurs ne peut obtenir un paiement plus élevé sans que le paiement d’un des autres diminue :
i i −i
i i −i
i i
−i
u (a , a ) ≥ ui (ai∗ , a−i
∗ ), ∀i =⇒ u (a , a ) = u (a∗ , a∗ ), ∀i .
L’optimum de Pareto exprime bien l’idée que collectivement on ne peut pas améliorer la
situation. Souvent il fournit une solution plus efficace que quand chaque joueur raisonne individuellement.
Equilibre itératif en stratégies strictement dominantes
Quand il n’en existe pas, le jeu peut souvent être simplifié par un processus itératif où
chaque joueur, tablant sur la rationalité de ses adversaires, écarte les stratégies apparues comme
dominées à cette étape de son raisonnement.
Exemple
Matrice du jeu :
G
H
M
B
C
D
(2, 5) (4, 8) (1, 3)
(1, 4) (2, 5) (3, 6)
(3, 7) (5, 8) (2, 9)
Il n’existe pas d’équilibre en stratégies strictement dominantes car aucune ligne ne donne
strictement plus, composante par composante, que toutes les autres lignes (il n’existe d’ailleurs
pas non plus de colonne dominant strictement toutes les autres colonnes). Dans la recherche
d’un équilibre itéré en stratégies strictement dominantes, on élimine successivement :
C
G strictement dominé par C →
C
→
M
B
H
M
B
D
(4, 8) (1, 3)
(2, 5) (3, 6)
(5, 8) (2, 9)
; H strictement dominé par B
D
(2, 5) (3, 6)
(5, 8) (2, 9)
D
; C strictement dominé par D →
B strictement dominé par M →
M
M
B
(3, 6)
(2, 9)
;
D
. (M, D) est l’équilibre itéré en stratégies
(3, 6)
strictement dominées cherché.
4
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Equilibre et équilibre itératif en stratégies dominantes
On peut penser qu’un joueur rationnel ne devrait jamais jouer non plus une stratégie s’il en
existe une autre assurant un gain supérieur ou égal quoi qu’il arrive et strictement supérieur pour
certaines stratégies des autres joueurs. Ici encore si chaque joueur a une stratégie dominante (il
ne peut en avoir plus d’une), il doit la jouer. On dit alors qu’il existe un équilibre en stratégies
dominantes.
En revanche, le concept d’équilibre itératif en stratégies dominantes pose des problèmes.
En effet, contrairement au cas de la dominance stricte, selon l’ordre d’élimination de stratégies
dominées adopté, on peut aboutir à des résultats différents.
2.2.2
Equilibre de NASH
Lorsque, comme dans la bataille du couple, il n’existe pas d’équilibre, même itératif, en
stratégies strictement dominantes, il faut examiner l’intérêt présenté pour les joueurs par des
stratégies aux propriétés plus faibles :
Meilleure réponse
La stratégie ai∗ du joueur i est une meilleure réponse à des stratégies données b−i ∈ A−i des
autres joueurs lorsque : ui (ai∗ , b−i ) ≥ ui (ai , b−i ), ∀ai ∈ Ai .
Equilibre de NASH
Un profil de stratégies a∗ = (a1∗ , ..ai∗ , ..an∗ ) est un équilibre de Nash lorsque chacune de ses
composantes constitue une meilleure réponse aux autres :
i
i
ui (ai∗ , a∗−i ) ≥ ui (ai , a−i
∗ ), ∀a ∈ A , ∀i = 1, .., n.
Un équilibre de Nash est donc un profil de stratégies (c’est-à-dire la donnée d’une stratégie
d’équilibre pour chaque joueur) dans laquelle chaque stratégie est une meilleure réponse à toute
autre stratégie jouée.
Un équilibre de Nash a la propriété de stabilité suivante : si, pour une raison quelconque,
un des joueurs pense que tous ses adversaires vont jouer leurs stratégies d’équilibre, alors il
n’a aucune incitation à jouer lui-même autre chose que sa stratégie d’équilibre. Par exemple, les
joueurs peuvent parfois se mettre d’accord avant le jeu pour jouer un équilibre ; une trahison reste
toujours possible ; cependant chacun a intérêt à respecter cet accord si les autres le respectent
aussi.
La multiplicité des équilibres de Nash peut poser des problèmes. Dans la bataille du couple,
il y a deux équilibres de Nash (concert, concert) et (f oot, f oot) ; sans entente préalable, Kevina
peut vouloir jouer l’un et Kevin l’autre, avec pour résultat les paiements (−1, −1) ; les jeux où
se rencontre cette difficulté sont appelés jeux de coordination.
Enfin, un équilibre de Nash n’est pas forcément souhaitable. Dans le premier dilemme du
prisonnier ci-dessus (avouer, avouer) étant un équilibre en stratégies (strictement) dominantes
est aussi équilibre de Nash ; comme nous l’avons remarqué, (nier, nier) est strictement meilleur
pour chacun des deux joueurs ; un équilibre de Nash n’est donc pas en général Pareto-optimal.
5
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - On voit facilement qu’un équilibre itératif en stratégies strictement dominées et même en
stratégies dominées est nécessairement un équilibre de Nash. L’inverse n’est pas vrai et le
processus itératif d’élimination de stratégies dominées peut écarter un équilibre de Nash attractif
comme dans l’exemple suivant. Exemple
J. I \ J. II
H
B
G
10, 0
10, 11
D
5, 2
2, 0
Si le joueur II pense que le joueur I éliminera la stratégie B, dominée (mais pas strictement)
par H, il jouera D et l’issue du jeu sera (5, 2) ; (H, D) est bien un équilibre de Nash, mais un
deuxième équilibre, (B, G), qui domine strictement (H, D) au sens de Pareto a été éliminé !
L’étude d’un jeu sous sa forme extensive, qui contient en général plus d’information sur le
jeu, permettra d’identifier les équilibres de Nash qui sont crédibles, c-à-d susceptibles d’être
joués par des joueurs rationnels.
3
Jeux sous forme extensive
Certaines situations où les agents prennent des décisions à tour de rôle peuvent être décrites
commodément à l’aide d’un arbre de jeu (en fait, une arborescence) :
3.1
Exemple : attaque publicitaire
Deux entreprises E 1 et E 2 sont en duopole sur un produit et font des bénéfices respectifs
(1, 5) ; E 1 peut ou non lancer une campagne publicitaire (coûteuse) pour agrandir sa part de
marché, ce qui réussira si E 2 ne réagit pas et les amènera alors à (2, 3) ; en revanche, si E 2 réagit
en lançant sa propre campagne, les bénéfices deviendront (0, 2). L’arbre que l’on associe à ce jeu
est le suivant :
Figure 1 – arbre du jeu
6
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Chacun des joueurs a deux stratégies, pub et statu quo, mais celles de E 2 n’ont d’influence
sur le déroulement et l’issue du jeu que si E 1 a choisi la stratégie pub.
Le jeu a pour forme normale :
E1 \ E2
pub
statu quo
pub
0, 2
1, 5
statu quo
2, 3
1, 5
Il y a deux équilibres de Nash, (pub, statu quo) et (statu quo, pub) ; seule l’analyse de la forme
extensive nous assure que le second ne sera pas joué : si E 1 choisit pub, E 2 jouera statu quo qui
lui rapporte alors à coup sûr plus que pub ; le prévoyant, E 1 doit préférer pub à statu quo. (On
peut arriver à la même conclusion sur la forme normale en raisonnant que E 2 ne jouera pas
pub, dominée par statu quo, mais cette dominance n’étant pas stricte, la conclusion resterait
douteuse).
3.2
Information
Le jeu de l’exemple ci-dessus est un jeu à information parfaite, c.-à-d. qu’à l’instant de
prendre une décision les joueurs connaissent toutes les décisions passées (les leurs et celles des
autres joueurs) et, de plus, s’il y a de l’incertitude, tous les joueurs ont les mêmes informations.
On parlera au contraire, de jeu à information imparfaite lorsque certains des joueurs ne savent
pas toujours exactement à quel sommet de l’arbre de décision ils se trouvent (par exemple quand
l’un d’eux ne saura pas exactement ce que vient de jouer l’un de ses adversaires).
L’information (imparfaite) est symétrique lorsque chaque joueur en sait au moins autant
que les autres au moment où il joue ; elle est dite asymétrique sinon.
L’information est dite incomplète lorsque certains joueurs ne savent pas exactement quels
sont les paiements de la matrice de jeu (ils ne savent pas à quel jeu ils jouent).
Le jeu de l’Attaque publicitaire est un jeu à information parfaite. Les jeux d’échec, de dames
et de Go aussi. Si dans l’un de ces jeux on fait précéder la partie d’un coup de la nature - tirage
à P ile ouF ace - pour savoir qui aura les Blancs (les Noirs au Go) et commencera la partie, le
jeu complété reste à information parfaite.
Le poker, dans toutes ses variantes, est un jeu en environnement incertain (la répartition
des cartes est aléatoire) à information imparfaite. Voyons un exemple avec environnement certain.
Dans le Bonneteau, le Manipulateur place une bille sous l’une de 3 coupes renversées :
la G(auche), celle du C(entre) ou la D(roite) ; le Gogo mise m e , choisit une des coupes
(g(auche),c(entre) ou d(roite)) et gagne M e s’il a désigné celle qui cache la bille. Sur l’arbre
de décision (Fig. 2) on a indiqué l’ensemble d’information du Gogo au moment de jouer ( ellipse
en pointillés) : il ne sait pas où se trouve la bille, donc est incapable de distinguer les 3 sommets
où il peut avoir à jouer.
Le dilemme du prisonnier Dans ce jeu, les deux joueurs jouent simultanément ; on peut
pourtant le représenter sous forme extensive en plaçant dans l’arbre du jeu l’action de l’un avant
celle de l’autre ; ce dernier ne connaissant pas le choix de l’autre ne sait où il se trouve dans
l’arbre : c’est un jeu à information imparfaite.
7
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Figure 2 – arbre du jeu du Bonneteau
3.3
3.3.1
Stratégies
Stratégies pures
Une stratégie du joueur i (que nous appellerons plus tard stratégie pure quand nous introduirons les stratégies mixtes) est une règle sélectionnant une action parmi les actions réalisables
en chacun des sommets de décision qui lui sont associés. Dans les jeux à information imparfaite,
un joueur ne sachant pas distinguer deux sommets appartenant au même ensemble d’information, une stratégie doit vérifier la condition suivante : sélectionner la même action à tous les
sommets d’un même ensemble d’information. N.B. Cette condition n’apporte aucune restriction dans les jeux à information parfaite puisque tous les ensembles d’information y sont des
singletons.
Un profil de stratégies est une suite a = (a1 , .., ai , ..an ), c-à-d consiste en la donnée d’une
stratégie ai pour chaque joueur i.
Dans un jeu en environnement certain, un profil de stratégies a détermine complètement
le déroulement du jeu ; il sélectionne un chemin de la racine vers l’une des feuilles f , que l’on
appelle la trajectoire du jeu. Les paiements sont alors eux-même déterminés et valent : U (a) =
(U 1 (a), .., U i (a), .., U n (a)) = u(f ) = (u1 (f ), .., ui (f ), .., un (f )).
Dans un jeu en environnement incertain, le déroulement du jeu dépend conjointement des
stratégies des joueurs et des événement réalisés ; la trajectoire est alors aléatoire ; à profil de
8
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - stratégies a donné, chaque feuille f est atteinte avec une probabilité P (f ) (déterminée par la
loi de probabilité
des divers événements) ; a donne donc au joueur i une espérance d’utilité
P
i
i
U (a) =
f P (f ) u (f ). La donnée d’un jeu sous forme extensive permet donc d’obtenir sa
forme normale.
On a le résultat suivant :
Theorem 3.1 (Kuhn). Tout jeu fini à n personnes, sous forme extensive, à information parfaite
a une solution qui est un équilibre de Nash en stratégies pures.
3.4
Stratégies mixtes
Une stratégie mixte en théorie des jeux est une stratégie où le joueur choisit au hasard le
coup qu’il joue parmi les coups possibles. Cela revient à attribuer une certaine distribution de
probabilité sur l’ensemble des stratégies pures du jeu. Dans certains jeux, seules les stratégies
mixtes sont optimales.
Exemple : McDonald’s vs. Quick
Prenons l’exemple de l’affrontement entre les 2 géants du fast food, McDonald’s et Quick, et
modélisons le avec la matrice de jeu suivante :
M D \ QK
prix bas (LP)
publicité forte (HA)
prix bas (LP)
60, 35
55, 50
publicité forte (HA)
55, 45
60, 40
Ce jeu n’admet pas d’équilibre de Nash en stratégie pure. Par exemple si M D = LP, QK =
HA, alors M D va essayer HA mais du coup QK, à partir de (HA, HA), préfère jouer LP . En
(HA, LP ), M D préfère LP et alors QK joue HA : nous voilà revenus à la case départ.
En stratégie mixte, on introduit les probabilités pLM que Mc Do joue prix bas et pLQK que
Quick joue prix bas. Pour Mc Do, il faut maximiser le profit espéré :
EM D = pLM (60.pLQK + 55.(1 − pLQK )) + (1 − pLM )(55.pLQK + 60.(1 − pLQK ))
= 10.pLM .pLQK − 5.pLM − 5.pLQK + 60
Pour maximiser il faut :
∂EM D
∂EM D
=
= 0 ⇒ pLM = pLQK = 0, 5
∂pLM
∂pLQK
Pour Quick, il faut maximiser le profit espéré :
EQK
= pLQK (35.pLM + 50.(1 − pLM )) + (1 − pLQK )(45.pLM + 40.(1 − pLM ))
= −20.pLM .pLQK + 10.pLQK + 5.pLM + 60
Pour maximiser il faut :
∂EQK
∂EQK
=
= 0 ⇒ pLQK = 0, 5 ; pLM = 0, 25
∂pLM
∂pQK
9
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - La stratégie optimale pour les 2 entreprises est donc de jouer chaque stratégie avec une
probabilité de 50%.
Ce jeu mixte n’est pas représentable sous forme extensive, car, chaque joueur y ayant une
infinité de stratégies, ce n’est plus un jeu fini (or un graphe est fini). On continue donc à raisonner
sur l’arbre du jeu initial, de même que, sous forme normale, on continue à utiliser la matrice du
jeu initial.
Nash a démontré que :
Theorem 3.2 (Nash). Tout jeu fini à n personnes sous forme normale a un équilibre [de Nash]
en stratégies mixtes.
4
Jeux répétés
4.1
Introduction
Reprenons l’exemple du dilemme du prisonnier (ici on représente des gains positifs) :
P ris. I \ P ris. II
nier
avouer
nier
1, 1
2, −1
avouer
−1, 2
0, 0
L’analyse de ce jeu nous a conduit à une conclusion peu satisfaisante : Si les joueurs sont
rationnels, chacun doit éliminer la stratégie nier qui est strictement dominée ; la solution du jeu
est donc (avouer, avouer) ; c’est nécessairement un équilibre de Nash et c’est en fait le seul. Or
cette solution est dominée au sens de Pareto par le profil (nier, nier), plus avantageux pour
chacun des joueurs. Il y a donc conflit entre la rationalité individuelle et la rationalité collective.
Quand pourrait-on observer de la coopération de la part des joueurs ? Une hypothèse possible
est que dans la réalité les agents n’ont pas affaire à une situation de jeu isolée, mais à une
succession de jeux, sinon identiques du moins de structures semblables, et que la stratégie choisie
dans l’un d’eux n’est qu’une composante de leur stratégie globale dans le super-jeu constitué de
l’ensemble de leurs jeux. Nous allons examiner cette hypothèse.
4.2
4.2.1
Etude du dilemme du prisonnier répété
Comportement rationnel dans le dilemme du prisonnier répété un nombre
fini de fois
N.B. On écrira A et N pour les stratégies avouer et nier du jeu élémentaire.
Deux joueurs jouent le super-jeu consistant à jouer T fois au dilemme du prisonnier, à des
dates t = 1, 2, · · · , t, · · · , T . Les gains des différentes parties s’additionnent pour constituer les
paiements du super-jeu. Ce super-jeu est un jeu fini à information imparfaite (comme d’ailleurs
le jeu élémentaire) puisqu’à chaque date t les deux joueurs jouent à l’insu l’un de l’autre.
A la date t, chaque joueur sait ce que son adversaire et lui-même ont joué aux (t − 1)
premières parties et il peut en faire dépendre son action à cette date. Une stratégie S de l’un des
10
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - joueurs dans le super-jeu est donc caractérisable par une suite S = (S 1 , · · · , S t , · · · , S T ) dont
les composantes, toutes à valeurs dans {A, N }, sont déterminées récursivement par la donnée
de S 1 et de fonctions φt , t = 2, · · · , T , par S t = φt (S 1 , R1 , · · · , S t−1 , Rt−1 ) où R1 , · · · , Rt−1
sont les actions de l’autre joueur qu’il aura déjà observées à t. Il y a donc un très grand nombre
de stratégies (pures) possibles pour chacun des joueurs.
Montrons qu’une stratégie optimale pour chacun des joueurs est d’avouer à chaque étape,
stratégie que nous noterons Arep . A la date T , quel qu’ait été le déroulement du jeu jusque là
et le total des gains de chacun, il reste à jouer un jeu élémentaire ayant sous forme normale la
matrice de gains totaux finaux
P ris. I \ P ris. II
nier
avouer
nier
mI + 1, mII + 1
mI + 2, mII − 1
avouer
mI − 1, mII + 2
mI , mII
où les sommes mI et mII dépendent du sommet atteint après (T − 1) étapes. Quelles que
soient ces sommes, jouer A est strictement dominant pour chacun des deux joueurs : tous deux
prévoient donc que l’autre jouera A à T . Mais alors, à (T − 1), au moment de jouer dans le jeu
élémentaire à cette date, chacun doit seulement comparer les paiements dans le sous-jeu formé
de deux jeux élémentaires les sous-stratégies A suivi de A et N suivi de A ; la matrice des gains
finaux étant du type précédent (avec pour mI et mII les sommes acquises après T −2 étapes), les
deux joueurs prévoient que l’autre jouera A à (T − 1) comme à T . Par récurrence, on montrerait
que tous les deux doivent jouer Arep . Le couple (Arep , Arep ) est clairement Pareto-dominé par
de nombreuses autres couples de stratégies du super-jeu, comme par exemple (Nrep , Nrep ). On
reste donc devant la même incohérence entre rationalité individuelle et collective que dans le jeu
élémentaire !
4.2.2
Introduction de présupposés de comportement dans le dilemme du prisonnier
répété un nombre fini de fois
Un joueur peut être rationnel et pourtant avoir un comportement coopératif, s’il prend en
compte d’autres éléments que la simple description du jeu, par exemple s’il a des idées a priori
sur le comportement l’autre joueur. Nous prendrons l’exemple suivant : on appelle Tit for Tat
(”oeil pour oeil, dent pour dent”) la stratégie suivante : Jouer N (nier) à t = 1, puis , à tout
t > 1, jouer ce que l’autre a joué à (t − 1).
Supposons que le joueur I pense que son adversaire peut avec une probabilité jouer la
stratégie Tit for Tat au lieu de la stratégie rationnelle non-coopérative Arep . Si I joue lui-même
Arep , avec probabilité , II jouant Tit for Tat, I gagnera 2 la première fois puis plus rien et avec
probabilité (1 − ), II jouant Arep , les paiements (de I comme de II) seront toujours nuls ; d’où
un gain espéré égal à 2.
Si maintenant I joue lui-même Tit for Tat, avec probabilité , II jouant lui-même Tit for
Tat avec probabilité , I réalisera T fois un gain de 1. Avec probabilité (1 − ), II jouant Arep ,
et donc I perdra 1 à t = 1, puis tous les paiements seront nuls. D’où un gain espéré égal à
.T + (1 − )(−1) = (T + 1) − 1.
11
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Tit for Tat est donc préférable pour lui à la stratégie ”rationnelle” Arep dès que
1
(T + 1) − 1 > 2 ⇔ > T −1
. Cela dit, Tit for Tat n’est pourtant pas sa stratégie optimale
car, par exemple, il a toujours intérêt à jouer A à la dernière période.
Simulation du Tit-for-Tat 1
Robert Axelrod, dans son ouvrage “The Evolution of Cooperation” (1984), cherche à répondre
à la question suivante : ”Under what conditions will cooperation emerge in a world of egoists
without central authority ?” Pour tester la stabilité de cet équilibre, R. Axelrod demande à des
collègues, qui ont étudié le dilemme du prisonnier dans leurs différentes disciplines (psychologie,
biologie, économie, physique, mathématique, science politique, sociologie etc.), de proposer un
programme, qu’ils estiment susceptible de remporter le plus de points, pour jouer à un jeu du dilemme du prisonnier répété 200 fois. Chaque programme contient la stratégie d’un joueur. Le jeu
s’apparente à un tournoi dans lequel chaque stratégie est confrontée à tous les autres, à lui-même
et à un programme aléatoire jouant au hasard. Le programme vainqueur est celui totalisant le
plus de points. Le premier tournoi impliquant 14 programmes donna le programme gagnantgagnant ou Tit for Tat d’Anatol Rapoport vainqueur. R. Axelrod décide de renouveler
l’expérience avec 62 programmes et de nouveau le programme gagnant-gagnant d’A.Rapoport
l’emporte. Or la stratégie gagnant-gagnant ou Tit for Tat d’A. Rapoport n’emporte
aucun match du tournoi ! R. Axelrod (1984) (1) en déduit, que [le dilemme du prisonnier]
est simplement une formulation abstraite de quelques situations très courantes et intéressantes
dans lesquelles ce qui est le meilleur pour une personne individuellement conduit à une situation
d’échec mutuel tandis que chacune pourrait mieux s’en tirer avec une coopération mutuelle .
L’interprétation de ces résultats qui impliquent la supériorité du comportement coopératif dans
un environnement de dilemmes du prisonnier répétés a été sujette à de nombreuses discussions.
Selon Eber (2004), les résultats d’Axelrod montrent que, dans un monde de conflits permanents,
il serait optimal de se comporter de la façon suivante : être a priori coopératif avec les
autres (jouer [la stratégie de coopération (C)] lors du premier dilemme du prisonnier auquel on
se trouve confronté), punir son partenaire lorsqu’il n’a pas coopéré (jouer [la stratégie de noncoopération (D)] chaque fois que le joueur à jouer D au tour précédent) pardonner et revenir à
la coopération lorsque le partenaire se remet à coopérer (jouer C à chaque fois qu’il a joué C le
coup précédent) . Cette philosophie politique, certes plaisante, est très débattue. Les conclusions auxquelles Axelrod aboutit sont en particulier liées à la simplification du modèle comparé
à la situation réelle analysée 2 .
5
Applications
Les champs d’application de la Théorie des Jeux sont très variés par exemples :
• Défense, Relations Internationales
— la crise des missiles de Cuba en octobre 1962 :
On peut la représenter par le jeu suivant :
1. D’après Wikipedia, http ://fr.wikipedia.org/wiki/Théorie des jeux en relations internationales.
2. Référence : Milgrom P. R. (1984), “Book review : Axelrod’s ”The Evolution of Cooperation” The Evolution
of Cooperation. R. Axelrod” Review author[s] : Paul R. Milgrom, The RAND Journal of Economics, Vol. 15, No.
2. (Summer, 1984), pp. 305-309.
12
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Kennedy \ Kroutchev
blocus naval
raid aérien
retrait
Compromis (3, 3)
V ictoire U S (4, 2)
maintenir
V ictoire U RSS (2, 4)
Guerre N ucléaire (−3, −3)
A priori, personne ne veut la pire situation, mais il s’agit de ne pas perdre la face.
Cela s’apparente à ce que les américains ont appelé le game of chicken, un jeu très à
la mode dans les années 1950 (voir le film La fureur de vivre). Deux automobilistes
roulent en sens inverse dans une rue étroite, le perdant qualifié de poule mouillée
est celui qui donne un coup de volant pour éviter son concurrent. Ce jeu représente
bien des situations de crise dans le domaine des relations internationales.
Analyse par Steven Brams 3 :
Needless to say, the strategy choices, probable outcomes, and associated payoffs
provide only a skeletal picture of the crisis as it developed over a period of thirteen days. Both sides considered more than the two alternatives listed, as well
as several variations on each. The Soviets, for example, demanded withdrawal
of American missiles from Turkey as a quid pro quo for withdrawal of their
own missiles from Cuba, a demand publicly ignored by the United States.
Nevertheless, most observers of this crisis believe that the two superpowers were
on a collision course, which is actually the title of one book describing this
nuclear confrontation. They also agree that neither side was eager to take any
irreversible step, such as one of the drivers in Chicken might do by defiantly
ripping off the steering wheel in full view of the other driver, thereby foreclosing
the option of swerving.
Although in one sense the United States ”won” by getting the Soviets to withdraw their missiles, Premier Nikita Khrushchev of the Soviet Union at the same
time extracted from President Kennedy a promise not to invade Cuba, which
seems to indicate that the eventual outcome was a compromise of sorts. But this
is not game theory’s prediction for Chicken, because the strategies associated
with compromise do not constitute a Nash equilibrium.
— les politiques de constitution de convois de bateaux en temps de guerre ;
— la façon de gérer un coup de surprise politique (Nasser à Suez, de Gaulle au Québec,
Eltsine lors du putsch, annonces électorales...) ou marketing ;
— la lutte contre le terrorisme.
• Sociologie et génétique : des chercheurs ont utilisé la stratégie des jeux pour mieux comprendre l’évolution du comportement des espèces face à la modification de leur environnement
• Marketing et stratégie entreprise
• Economie ; notamment les travaux de Jean Tirole en économie industrielle
Les résultats peuvent être appliqués à des divertissements (comme le jeu télévisé Friend
or Foe 4 sur une chaı̂ne câblée spécialisée aux États-Unis, Game Show Network).
Le Professeur Thomas Schelling, ”prix Nobel d’économie” 2005, s’est spécialisé dans l’explication des diverses stratégies utilisées (à utiliser) dans les conflits internationaux, tels la guerre
froide et la guerre nucléaire (dissuasion..)
3. http ://plus.maths.org/content/game-theory-and-cuban-missile-crisis
4. http ://en.wikipedia.org/wiki/Friend or Foe%3F
13
c J.-D. Kant 2016
UPMC - 3I027 IIEE - Cours 8 - Albert W. Tucker a par exemple diffusé de nombreuses interprétations du dilemme du prisonnier dans la vie courante. Des biologistes ont utilisé la théorie des jeux pour comprendre
et prévoir les résultats de l’évolution, en particulier la notion d’équilibre évolutivement stable
introduit par John Maynard Smith dans son essais La théorie des jeux et l’évolution de la lutte
(Game Theory and the Evolution of Fighting). Voir aussi son livre Evolution and the Theory of
Games.
Dans le domaine de la science politique appliquée à l’environnement, on peut citer la tragédie
des communs 5 :
L’exemple typique utilisé pour illustrer ce phénomène est celui d’un champ de fourrage
commun à tout un village, dans lequel chaque éleveur vient faire paı̂tre son propre
troupeau. Hardin décrit l’utilité que chaque éleveur a à ajouter un animal de plus à
son troupeau dans le champ commun comme étant la valeur de l’animal, tandis que
le coût encouru par ce même éleveur est seulement celui de l’animal divisé par le
nombre d’éleveurs ayant accès au champ. En clair, l’intérêt de s’accaparer le plus de
ressources communes possible dépasse toujours le prix à payer pour l’utilisation de
ces ressources. Rapidement, chaque éleveur emmène autant d’animaux que possible
paı̂tre dans le champ commun pour empêcher, autant que faire se peut, les autres
éleveurs de prendre un avantage sur lui en utilisant les ressources communes, et le
champ devient vite une mare de boue où plus rien ne pousse. 6 .
Selon Garrett Hardin, il y a trois solutions différentes pour éviter la surexploitation des ressources : la nationalisation, la privatisation, et la gestion par des communautés locales.
Il faut noter cependant des critiques fortes adressées aux partisans de la théorie
des jeux, parmi lesquels on peut citer celle de Bernard Guerrien objectant que les visions très
abstraites de la théorie des jeux ont du mal à représenter adéquatement le réel, qu’on ne sait pas
s’il y a des équilibres de Nash dans la Nature, ni si cette notion même d’équilibre de Nash est
la prédiction issue de la théories des jeux, le résultat du comportement rationnel des joueurs ou
la solution du jeu (Cf. B. Guerrien, Can we espect anything from Game Theory, in E. Fullbrook
(ed.), A Guide to What’s wrong with Economics, Anthem Press, 2004,pp. 198-208. Le débat est
loin d’être clos.
5. G. Hardin, The tragedy of the Commons, Science, 1968
6. Daprès Wikipedia https ://fr.wikipedia.org/wiki/Tragédie des biens communs
14

Documents pareils

PROJET DE FIN D`ETUDES Université Galatasaray ÉQUILIBRE DE

PROJET DE FIN D`ETUDES Université Galatasaray ÉQUILIBRE DE Dans les jeux stratégiques, on donne une échelle numérique avec laquelle les joueurs peuvent comparer les résultats associés à chaque combinaison des choix des stratégies. On peut aussi l’ap...

Plus en détail