conventions_larquier..

Transcription

conventions_larquier..
Peut-on suivre de mauvaises conventions ? Coordination et Pareto-optimalité*
Can we follow « bad » conventions ? Coordination and Pareto optimality
Guillemette de Larquier
Philippe Batifoulier
Guillemette de Larquier
Philippe Batifoulier
Adresse professionnelle : FORUM, Université
Paris X-Nanterre, Maison Max Weber, 200,
avenue de la République, 92001 Nanterre
cedex.
Adresse professionnelle : FORUM, Université
Paris X-Nanterre, Maison Max Weber, 200,
avenue de la République, 92001 Nanterre
cedex.
e-mail : [email protected]
e-mail : [email protected]
Résumé
En s’appuyant sur une revue critique des approches stratégique et évolutionniste des conventions en
théorie des jeux, l’article s’interroge sur leur possible sous-optimalité, ce qui implique un défaut de
coordination. Le suivi d’une convention sous-optimale, ou mauvaise convention, peut être
individuellement rationnel en statique et évolutionnairement plus stable en dynamique, si elle a la
propriété d’être risque-dominante. L’article souligne les difficultés, pour la théorie des jeux, de se
saisir de l’éventuelle inefficacité des règles conventionnelles.
Summary
While being based on a critical survey of the ‘strategic’ and ‘evolutionary’ approaches of
convention in games theory, the article deals with the possible non-optimality of the convention,
which implies a coordination failure. Actually, to follow a sub-optimal, but risk-dominant,
convention can be individually rational in static and evolutionary more stable in dynamics. This
paper underlines the incapacity from the game theory to capture the potential inefficacity of
conventional rules.
INTRODUCTION
*
Des versions différentes de cet article ont été présentées à divers séminaires et colloques. Nous remercions les
participants à ces conférences et en particulier les membres de l’équipe « Travail, Institutions et Politiques Sociales » du
laboratoire Forum. Nous avons également bénéficié, à différentes occasions, des commentaires de A. Orléan et F.
Gannon auxquels nous sommes redevables et nous remercions les deux rapporteurs anonymes de la revue dont les
1
Les conventions sont des règles de coordination, que l’on suit et perpétue parce qu’elles vont
simplement de soi. Elles s’imposent naturellement aux acteurs et ceux-ci ne songent même pas
qu’elles pourraient être différentes. Alors qu’elles sont respectées avec une forte régularité, leur
formulation reste floue et on en trouvera difficilement des fondations unanimement reconnues. Tous
les domaines de la vie sociale et économique sont investis de telles règles. On observe souvent dans
un collectif de travail la mobilisation de conventions pour régler de petites décisions quotidiennes
comme la durée ou le moment de la pause, mais aussi de plus grandes décisions comme le niveau
d’effort ou le mode de fixation des rémunérations.
Les conventions appartiennent ainsi au champ des problèmes de coordination, thème de recherche
ordinaire de l’économie. Pourtant, l’intégration de la notion de convention en économie par le biais
de la théorie des jeux a été opérée non pas par un économiste mais par un philosophe du langage,
David Lewis (1969), qui s’appuie sur la théorie des jeux de coordination de Schelling (1960), jeux
caractérisés par la multiplicité des équilibres. Lewis va faire de la convention la solution arbitraire
d’un problème de coordination, se présentant comme une régularité de comportement où chacun, de
manière rationnelle, se conforme au comportement qu’il croit que l’autre adoptera. Mais,
aujourd’hui, l’auteur le plus souvent mentionné dans les travaux qui veulent faire référence à
l’approche économique des phénomènes conventionnels est certainement Peyton Young (1993,
1996, 1998). Il s’agit alors de mobiliser la théorie des jeux évolutionniste en insistant sur
l’émergence des conventions ou leur origine (question délaissée par Lewis1). Fondamentalement, la
convention est de même nature chez Lewis et chez Young : un équilibre de Nash dans un jeu de
coordination. Néanmoins, si la convention en appelle à la rationalité des agents chez le premier
auteur, elle relève beaucoup plus de la stabilité d’un système d’automates calculateurs chez le
second. Cependant, ces deux approches différentes, stratégique et évolutionniste, peuvent se
suggestions ont permis d’améliorer le texte. Au-delà de la convention d’usage, nous restons seuls responsables des
insuffisances de cet article.
1
Voir l’analyse de Postel (2003).
2
compléter l’une l’autre pour proposer une explication utilitariste des conventions2 : on suit des
conventions par intérêt, comme des joueurs plus ou moins rationnels mettent en œuvre un équilibre
de Nash dans une matrice de gains.
Ce travail n’est pas un texte de théorie des jeux. Il ne cherche pas à raffiner les notions d’équilibre
mobilisées. Il souhaite, plus modestement, mettre en lumière le type de compréhension des
conventions que l’approche par la théorie des jeux sous-tend. En revenant sur les principes de
formalisation de ces analyses stratégiques et évolutionnistes, c’est un regard critique que nous
portons sur leur capacité à expliquer l’éventuelle inefficacité des règles conventionnelles. En effet,
la caractéristique fondamentalement arbitraire de la convention (au sens où il y a toujours plusieurs
solutions envisageables) rend toujours possible le fait que les individus adoptent une « mauvaise »
solution. Si l’on peut Pareto-ordonner les conventions, on pourra parler indifféremment du choix
d’une mauvaise convention ou d’un défaut de coordination. Au niveau micro-économique, pour
reprendre l’exemple du monde du travail, on peut concevoir qu’un collectif soit bloqué dans une
organisation inefficace, alors que chacun sait que d’autres organisations du travail existent. C’est
d’ailleurs pour formaliser une composante de l’X-efficiency, que Harvey Leibenstein (1982, 1987) a
mobilisé le concept de convention dans un cadre de théorie des jeux. Au niveau macro-économique,
on pourrait rapprocher cette question de celle des défauts de coordination à la Cooper et John
(1988) où une économie est durablement installée sur un équilibre Pareto-dominé3. La possible
sous-optimalité paretienne de la convention interpelle la théorie des jeux : pourquoi donc des
joueurs maximisateurs de gains se mettraient-ils à suivre des conventions dont ils savent qu’elles ne
sont pas optimales pour eux-mêmes comme pour les autres ?
2
L’approche des conventions présentée ici se distingue donc de celle connue sous le terme générique de « Économie
des conventions ». Cf. Batifoulier (2001) pour une mise en perspective des différentes théories des conventions.
3
Toutes deux liées à une situation où des équilibres multiples sont Pareto-ordonnés, la notion de mauvaise convention
peut se confondre avec celle de défaut de coordination, à la différence près que la première n’a pas la portée macroéconomique de la seconde et ne cherche pas à l’avoir.
3
La première partie du texte rend compte de l’étendue du champ couvert par l’approche stratégique
des conventions et étudie les liens entre le type de convention formalisée dans une interaction
donnée et l’optimalité de la solution. On appellera convention les stratégies jouées à l’équilibre de
Nash sélectionné par des joueurs rationnels. Pour expliquer le choix d’une mauvaise convention, il
faudra ajouter au critère paretien celui de risque-dominance [Harsanyi, J.C. et Selten, R. (1988)],
deux critères que les jeux du type « chasse au cerf » permettent d’isoler clairement. Mais la
rationalisation du processus de sélection qui s’ensuit réduit beaucoup l’aspect conventionnel de la
solution. C’est pourquoi, dans le cadre de la théorie des jeux évolutionniste où l’hypothèse de
rationalité des joueurs est affaiblie, la seconde partie s’attachera à montrer comment sont
départagées les conventions Pareto-optimales et risque-dominantes lors de leur émergence. Le
résultat a priori paradoxal que nous obtenons est qu’une approche fondée sur l’intérêt et le calcul a
plus de facilité à justifier le suivi de mauvaises conventions que l’inverse, au détriment donc de
conventions alternatives pourtant équilibres de Nash Pareto-optimaux ! Il y aurait donc une
persistance des défauts de coordination, à moins d’introduire une hypothèse de mobilité des agents,
impliquant en quelque sorte une mise en concurrence des conventions, ce qui n’est pas moins
paradoxal.
I. - LES CONVENTIONS ET LES PROBLEMES DE COORDINATION
Depuis les travaux de Lewis (1969), l’analyse stratégique des conventions s’est considérablement
étoffée et, aujourd’hui, elle n’est plus confinée aux seuls jeux de coordination. Avec les travaux de
Leibenstein, elle s’est étendue aux problèmes de coopération comme dans le dilemme du prisonnier.
Cependant, même dans ce dernier cas, la solution « convention » n’a de sens que si les joueurs ont à
résoudre un problème de coordination, i.e. s’ils ont un intérêt commun à atteindre un résultat donné
du jeu, équilibre ou non. Cette définition assez large de la convention explique qu’elle puisse être
considérée comme solution de plusieurs configurations dérivées du même jeu générique.
4
I.1. A chaque configuration, sa convention
Nous proposons ici de différencier les grandes classes de jeux non coopératifs où existe, sous une
forme ou une autre, un problème de coordination. Ce travail de classification sera mené à partir
d’un jeu (tableau 1) où deux individus parfaitement rationnels, César et Rosalie, ont les deux
mêmes stratégies possibles X et Y. Il s’agit d’un jeu – classique dans la littérature – statique,
symétrique, en information complète et imparfaite dans lequel a, b, c et d sont des paramètres
quelconques.
Tableau 1 : Matrice de gains d’un jeu symétrique 2×
×2
Rosalie
X
Y
X
(a,a)
(b,c)
A
B
Y
(c,b)
(d,d)
C
D
Ordre de lecture : (gain de César, gain de Rosalie).
César
A partir de cette matrice de gains, nous proposons, dans le tableau 2, une typologie originale,
adaptée de Batifoulier et Larquier (2001) qui distingue , différentes classes de jeux répertoriés selon
le nombre d’équilibres, leur Pareto-optimalité et leur risque-dominance. La risque-dominance est un
critère de classement – défini et axiomatisé par Harsanyi et Selten (1988) – non pas de toutes les
issues du jeu mais uniquement des équilibres de Nash. On peut donc considérer que dans un jeu où
l’équilibre de Nash est unique, il est par défaut risque-dominant4.
On se restreint au cas où a > d. Le même travail avec a < d donnerait un tableau en partie
symétrique. Le cas a = d ferait apparaître des configurations de jeu « limites » où les équilibres de
Nash des jeux « règle d’or », « dilemme du prisonnier », « rendez-vous » et « chasse au cerf »
seraient tous Pareto-optimaux au sens large (ce qui enlève notamment tout intérêt au dilemme du
prisonnier) et ne modifierait pas les équilibres des jeux du « croisement » et de la « coupure
téléphonique ».
Enfin, on se restreint également aux équilibres de Nash purs. En effet, intuitivement il est beaucoup
4
Dans le cas où existent deux équilibres, on calcule de la manière suivante ce critère de dominance. Soient ui et vi
positifs, avec i=1,2, les pertes subies par le joueur i s’il dévie respectivement des équilibres de Nash U et V :
• soit u1u2 > v1v2 et U risque-domine V
• soit u1u2 < v1v2 et V risque-domine U
• soit u1u2 = v1v2 et U et V sont risque-équivalents,
[Harsanyi, J.C. et Selten, R. (1988), p. 87]
5
plus difficile d’accepter qu’un équilibre en stratégies mixtes puisse correspondre à un
comportement conventionnel. « Ce type de ‘coordination’ n’est pas satisfaisant […]. Ce que
chacun veut est que la coordination soit garantie, non qu’il existe une (petite) probabilité qu’elle
puisse être atteinte. » (souligné par les auteurs) [Goyal, S. et Janssen, M. (1996), p. 32].
Tableau 2 : Type de jeux et qualification des équilibres
d-b<0
d-b>0
a-c>0
a-c<0
Équilibre : A
A Pareto-optimal et risque-dominant
RO
Équilibres : B et C
B et C Pareto-optimaux
et risque-équivalents5
si b = c
si b ≠ c
CT
JC
Équilibres : A et D
A Pareto-optimal
si (a–c) < (d–b)
si (a–c) > (d–b)6
A risque-dominant
D risque-dominant
RV
CC
Équilibre : D
D Pareto-dominé et risque-dominant
DP
RO : règle d’or ; DP : dilemme du prisonnier ; JC : jeu du croisement ; RV : jeu du rendez-vous ;
CC : jeu de chasse au cerf ; CT : jeu de la coupure téléphonique
Chaque classe de jeux7 présente une configuration spécifique où la notion de convention,
fournissant une solution à l’interaction, prend une forme particulière. Écartons tout d’abord le cas
de la « règle d’or »8, où le résultat mutuellement avantageux est l’équilibre du jeu unique, Paretodominant toutes les autres issues. Sans concertation, se forme un accord évident et unanime entre
César et Rosalie pour le même résultat. Cet accord peut être qualifié de conventionnel car il va de
soi. La solution étant triviale, l’intérêt théorique de la convention est ici assez faible, voire nul.
Le dilemme du prisonnier, bien que présentant également un équilibre de Nash unique, constitue
une configuration opposée. En effet, la notion de convention est ici loin d’être triviale. Elle peut
5
En effet, on a ici u1u2 = v1v2 soit (c-a)(b-d) = (c-a)(b-d).
Ici la condition de risque-dominance est (a-c)² > (d-b)² qui devient (a-c) > (d-b), étant donné la positivité des deux
termes.
7
Nous avons utilisé ici des appellations « conventionnelles » pour qualifier ces types de jeux, notamment celles mises
en avant par Walliser (1986).
8
En fait, ce type de jeux n’a pas d’appellation communément admise ; celle de « règle d’or » nous paraît la plus
satisfaisante.
6
6
même paraître surprenante car l’équilibre de Nash, néfaste à tous puisque Pareto-dominé par au
moins une autre issue, n’a rien pour aller de soi. En fait, l’application de la notion de convention
comme solution à ce type de jeux ne cherche pas à qualifier l’équilibre mais au contraire à s’en
éloigner ! La notion de « convention d’effort » de Leibenstein (1982, 1987) permet, en effet,
d’échapper à l’équilibre sous-optimal, et la coopération, pourtant bien improbable dans un DP,
émerge si l’on se force individuellement à se coordonner avec autrui sur un résultat donné,
mutuellement avantageux mais hors équilibre. Coopérer, ce serait taire les antagonismes évidents du
jeu pour revaloriser l’enjeu de la coordination qui était caché derrière les conflits. Néanmoins, les
deux joueurs peuvent-ils réussir à « tenir » une coordination instable par définition (puisque non
équilibre de Nash) sans dispositif extérieur ? Dans le cas des comportements a priori conflictuels
entre salariés et employeurs (niveau d’effort, niveau de rémunération), Leibenstein soutient que les
partenaires coopèrent au lieu de tomber dans la solution rationnelle mais non raisonnable. Mais,
pour ce faire, il faut que chaque partie fixe en son sein une règle qui éloigne du comportement
opportuniste et autorise ainsi la coopération entre les parties. Dans le cas des salariés, que privilégie
Leibenstein, c’est un « étalon d’effort entre collègues » qui joue ce rôle de vecteur de coopération.
Cet étalon se présente comme une convention car chaque salarié qui entre dans l’entreprise,
l’observe, l’adopte et la perpétue. Mais cette convention d’effort n’émerge pas de la relation
bilatérale entre l’employeur et le salarié. Elle résout leur problème de coopération verticale en
assurant d’abord une coordination horizontale entre salariés (concernant leur effort), d’une part, et
entre employeurs (concernant leur réputation), d’autre part. La convention d’effort, solution instable
dans un DP, provient finalement et plus classiquement d’un des équilibres de Nash d’un jeu de
coordination9.
Au sein du DP, la convention suivie n’est donc pas forcément l’équilibre du jeu. Elle n’y est pas
auto-renforçante, mais elle perdure car elle est soutenue par la menace implicite d’une sanction qui
9
Dans la même perspective, Schotter (1981, p. 159) présente les « conventions de guerre » comme un moyen d’éviter
l’équilibre de Nash (utilisation par deux pays de l’arme nucléaire) pour conduire à une solution instable, mais
raisonnable et optimale (uniquement les « armes conventionnelles »), grâce à une concertation au sein de chaque pays
tenant compte de la peur des dommages.
7
viendra punir celui qui déroge à la convention et fait défection. En fait, cette sanction n’est autre
que la perte associée à l’échec de la coordination horizontale dans le jeu de coordination associé.
Chez Leibenstein, la sanction s’applique à celui qui ne suit pas la convention d’effort, c’est-à-dire
qui ne s’est pas coordonné avec ses collègues, en dérogeant par exemple à la déontologie
professionnelle. Elle vient du groupe d’ouvriers et non du patron. Au total, la convention comme
solution au DP, ne peut être qu’une « convention externe »10, c'est-à-dire une convention qui
s’applique bien à un jeu donné, mais dont la stabilité trouve sa source de manière externe, dans un
autre jeu.
On peut alors difficilement savoir, à partir du seul DP, si la convention suivie est bonne ou
mauvaise. Pour le dire, il faudrait connaître la teneur de la coordination qui s’est jouée en amont
entre les salariés. C’est en effet le niveau du standard d’effort collectif qui induit la coopération
entre les acteurs du DP. Rien n’interdit que ce standard soit faible, auquel cas la solution
individualiste du DP perdurera. Pour lever cette incertitude, il faudrait savoir comment les salariés
en viennent à se coordonner, entre eux, sur une convention d’effort. Le problème se rabat alors
clairement sur les jeux de coordination.
Les jeux du rendez-vous11, de la chasse au cerf12, du croisement et de la coupure téléphonique13,
sont quatre types différents de jeux de coordination. Leur caractéristique commune est de posséder
deux équilibres de Nash. Dans les deux premiers jeux, il s’agit pour les deux joueurs de choisir la
10
Dans le même ordre d’idées, pour désigner ces conventions d’un type particulier qui viennent résoudre un DP, Orléan
(1997) emploie le terme de « conventions légitimées » et Van der Lecq (1996) préfère celui « d’institutions ».
11
Nom que l’on peut donner à tous les jeux qui s’inspirent de l’exemple resté célèbre de point focal, à savoir la Gare
centrale à New-York, proposé par Schelling (1960, p. 55).
12
Le jeu de la chasse au cerf est adapté de la parabole de J-J. Rousseau que l’on trouve dans son « Discours sur
l’origine de l’inégalité parmi les Hommes ». Rousseau étudie le cas d’hommes sauvages qui n’ont pas de contrainte
morale ou sociale. « Voilà comment les hommes purent insensiblement acquérir quelques idées grossières des
engagements mutuels, et de l’avantage de les remplir mais seulement autant que pouvait l’exiger l’intérêt présent et
sensible ; car la prévoyance n’était rien pour eux, et, loin de s’occuper d’un avenir éloigné, ils ne songeaient même pas
au lendemain. S’agissait-il de prendre un cerf, chacun sentait bien qu’il devait pour cela garder fidèlement son poste ;
mais si un lièvre venait à passer à la portée de l’un d’eux, il ne faut pas douter qu’il le poursuivît sans scrupule, et
qu’ayant atteint sa proie il ne se soucia fort peu de faire manquer la leur à ses compagnons » [Rousseau, J.-J. (1754),
p. 59].
13
Ce jeu, récurrent sous la plume de Lewis, décrit le problème de coordination de deux individus qui cherchent à
reprendre leur communication téléphonique quand celle-ci a été coupée. Qui doit rappeler l’autre ?
8
même stratégie (dans l’un, se rendre au même endroit pour se retrouver, dans l’autre, chasser le
même gibier) ; dans les deux autres, il faut au contraire que les deux joueurs choisissent des
stratégies différentes car complémentaires (dans l’un, freiner et passer, dans l’autre, rappeler et
attendre d’être rappelé). Dans un jeu de coordination, il n’existe pas de meilleure stratégie
systématique au sens où X (resp. Y) est la meilleure stratégie que si l’autre joue X (resp. Y), dans RV
et CC, ou Y (resp. X), dans JC et CT. Néanmoins, comme dans la règle d’or, il n’y a pas
d’antagonisme entre les joueurs : il est individuellement avantageux de se coordonner sur un des
équilibres, il existe bien des intérêts communs.
La convention sert à sélectionner l’un des équilibres de Nash car si la rationalité des agents suffit à
calculer ces équilibres, elle échoue pour ce qui est d’en singulariser un parmi les autres [Rabin, M.
(1994)]. Le problème de coordination est résolu quand non seulement chacun choisit la stratégie
liée à la convention mais aussi s’attend à ce que l’autre en fasse autant. Ainsi, pour César, choisir X
ou Y devient une affaire conventionnelle pensant, à distance, que Rosalie en fera autant. L’équilibre
de Nash du jeu sélectionné apparaît comme un repère conventionnel car il a retenu l’attention des
deux joueurs : il appartient à leur histoire commune, il a la force du précédent. En reprenant les
termes de Lewis, les joueurs se sont coordonnés sur la base d’une régularité de comportement ayant
le statut de convention stable car auto-renforçante, du fait de son statut d’équilibre de Nash.
Chacun, non seulement, maintient son action si l’autre en fait autant, mais préfère qu'il en soit ainsi.
Ici, la convention n’a donc pas besoin d’être renforcée par un dispositif extérieur au jeu. On peut
alors parler de « convention interne » par opposition à la convention externe dans les jeux de
coopération. Elle est équilibre de Nash du jeu de coordination et peut justement fournir un appui à
la convention externe d’un DP.
Le tableau suivant caractérise en détails les différentes configurations.
9
Tableau 3 : Types des jeux et des conventions associées
Types de jeu
Caractéristiques
essentielles du jeu
Type de solution
apportée au jeu par
la convention
Règle d’or
Equilibre de Nash
unique Paretooptimal
Entérine la solution
Dilemme du
prisonnier
Permet de sortir de
Équilibre de Nash l’équilibre de Nash par
unique, sous-optimal une solution Pareto
améliorante
Jeu de la
coupure
téléphonique
Pure coordination :
Deux équilibres de
Nash Paretooptimaux
Jeu du
croisement
Deux équilibres de
Nash, Stackelberg,
Pareto-optimaux
Jeu du
rendez–vous
Jeu de la
chasse au cerf
Deux équilibres de
Nash, le même
Pareto-optimal et
risque-dominant
Deux équilibres de
Nash, un Paretooptimal et l’autre
risque-dominant
Sélectionne un des
deux équilibres
impossibles à
départager sinon
Sélectionne un des
deux équilibres
favorable à l’un,
défavorable à l’autre
Sélectionne un
équilibre de Nash, non
pas forcément celui
qui est Pareto-optimal
Sélectionne un
équilibre de Nash,
risque-dominant ou
Pareto-optimal
Forme
particulière prise
par la
convention
Accord unanime
et trivial
Etalon d’effort
externe car
provenant d’un
jeu de
coordination
Régularité de
comportement
Règle de
répartition, ordre
de priorité
Point focal
ou repère
conventionnel
Régularité
« prudente » de
comportement
Ce tableau nous permet de poser la question du suivi d’une mauvaise convention ou du défaut de
coordination. Dit autrement, est-ce que se coordonner par convention garantit un choix collectif
optimal (au sens paretien du terme) ? Pour répondre à cette interrogation, il faut se restreindre aux
quatre configurations où il y a multiplicité d’équilibres. Dans CT, les deux équilibres sont
identiques et Pareto-optimaux ; on ne peut les départager, ce qui est typique d’un problème dit de
pure coordination. Dans JC, chacun des équilibres avantage un joueur plutôt que l’autre. En ce sens,
les deux équilibres sont opposés ; plus précisément, il s’agit de deux équilibres de Nash, Paretooptimaux, correspondant chacun à un équilibre de Stackelberg pour celui qui passe et oblige l’autre
à freiner. La convention doit fixer l’ordre de priorité, et si chacun arrivé au croisement préfère un
ordre plutôt que l’autre, collectivement il n’existe pas de bonne ou mauvaise convention. Ce n’est
10
donc pas avec ces deux premiers jeux (CT et JC) que l’on peut répondre à notre question. La
convention, ni bonne ni mauvaise, valide une asymétrie dans le jeu que tous jugent pertinente : par
exemple, l’un des deux joueurs était celui/celle qui appelait quand la communication a été
interrompue ; l’un des deux automobilistes arrive sur la droite de l’autre [Sugden, R. (1986)].
En revanche, dans les jeux RV et CC, les équilibres sont Pareto-ordonnés ; il y a donc place pour de
mauvaises conventions. Or, en premier lieu, les joueurs adoptent une convention pour réussir leur
coordination (se retrouver, chasser le même gibier pour ne pas revenir bredouille), ou encore pour
éviter les issues où les stratégies sont différentes et font échouer l’action collective. Peu importe que
la solution soit la meilleure ou non, l’important est qu’elle existe. Serait-il donc possible que suivre
une convention présente un manque à gagner ? Pour y répondre, il faudra s’intéresser à l’autre
critère de classement des équilibres de Nash, la risque-dominance, sachant que dans RV, le même
équilibre est Pareto-optimal et risque-dominant, tandis que dans CC, l’équilibre Pareto-optimal est
distinct de l’équilibre risque-dominant. C’est donc ce dernier jeu qui pose avec le plus d’acuité la
question de l’arbitrage entre considérations d’optimalité et considérations de risque pour le choix
d’une convention14.
I.2. Une bonne convention est-elle optimale ou peu risquée ?
L’analyse stratégique des conventions parvient à positionner la convention par rapport à l’équilibre
de Nash, elle achoppe cependant sur la liaison convention-optimalité. En effet, comme nous l’avons
laissé entendre plus haut, il est toujours possible que la convention, dans une interaction RV ou CC,
corresponde à la solution sous-optimale. On comprend mal – a priori − pourquoi des joueurs qui
suivent des conventions par intérêt personnel finissent par adopter des conventions dont ils savent
qu’elles ne maximisent pas leur intérêt personnel. Les joueurs sont-ils irrationnels lorsqu’ils
14
L’éventail et l’importance des problèmes de coordination pouvant être analysés à partir d’un jeu de chasse au cerf
(voir pour d’autres illustrations, Defalvard (1999)) lui permettent de revendiquer un statut proche de celui du dilemme
du prisonnier en sciences sociales.
11
s’accordent sur le résultat sous-optimal donnant sens à la maxime : « le mieux est l’ennemi du
bien » ? Dans CC, spécifié dans le tableau 4, ne vaut-il pas mieux par prudence élémentaire se
contenter d’un lièvre plutôt que mourir de faim ?
Tableau 4. La chasse au cerf
Chasseur n°2
Cerf
Lièvre
(Laisser filer le
(Attraper le
lièvre et
lièvre)
rabattre le cerf)
Chasseur n°1
Cerf
(Laisser filer le
lièvre et rabattre
le cerf)
Lièvre
(Attraper le
lièvre)
(3, 3)
(−10, 1)
(1, –10)
(1, 1)
Pour se nourrir, deux individus totalement libres peuvent chasser le lièvre ou le cerf. L’avantage du
lièvre est qu’il peut être chassé seul alors que pour le cerf, il faut être deux, l’un devant faire le
rabatteur. Toutefois, le cerf a un résultat nutritif plus important (gain de 3 contre 1 pour le lièvre). Si
un chasseur chasse le cerf seul, il n’a aucune chance de se nourrir et il meurt (d’où un gain de - 10).
C’est pour ce type de configuration CC que Lewis recourt implicitement à la distinction entre une
« bonne » convention et un « bon équilibre ». La convention est soutenue par la force du précédent
qui constitue le gage d’une coordination réussie. Elle indique quelle attitude adopter en fonction de
celle adoptée hier, par exemple chasser le lièvre ou le cerf. Peu importe la teneur de la convention,
celle-ci sera considérée comme « bonne » car elle évite l’échec de coordination. Mais, ceci implique
que le précédent peut aussi bien soutenir la convention Pareto-optimale que risque-dominante. Dans
ces conditions, le précédent, pourtant vecteur d’efficacité, peut accoucher d’une mauvaise solution,
ce que reconnaît Lewis. En effet, chasser le lièvre est une convention aussi longtemps que tous les
chasseurs ont attrapé séparément des lièvres dans le passé plutôt que de rabattre ensemble un cerf
mais cet équilibre n’est pas « un bon équilibre de coordination », [Lewis, D. (1969), p. 47].
La théorie de Lewis n’est pas outillée pour traiter de ce cas de défaut de coordination où une
12
convention peut correspondre à un mauvais équilibre [Batifoulier, Ph., Merchiers, J. et Urrutiaguer,
D. (2002)]. Pour traiter ce type de problème, nous devons mieux spécifier le type de rationalité des
joueurs comme nous y invitent les travaux de Harsanyi et Selten (1988).
Chaque joueur sait que l’autre est rationnel, donc chacun sait que l’autre est capable de calculer les
deux équilibres de Nash. Mais l’hypothèse de rationalité parfaite, sans autre précision, ne nous dit
rien sur la sélection des équilibres. En particulier, elle n’implique pas une prédilection a priori pour
les situations collectivement optimales. Donc, il n’est pas irrationnel que, dans son processus de
prise de décision, chaque joueur intègre une probabilité non nulle que l’autre ne choisisse pas la
convention Pareto-optimale. Dans ce cas où les joueurs se donnent des probabilités subjectives sur
les possibles actions d’autrui, la rationalité est non seulement parfaite mais également bayésienne et
c’est l’espérance de leur bien-être que les agents maximisent. Or, il se peut que l’espérance de bienêtre ne soit pas individuellement maximisée en choisissant l’équilibre Pareto-optimal ; c’est
effectivement le cas dans le jeu de la chasse au cerf.
Pour le premier chasseur, Cerf est la meilleure stratégie s’il pense que l’autre chasseur choisira
également Cerf avec une probabilité p telle que son espérance de gains soit strictement supérieure à
celle associée à la stratégie Lièvre. Soit :
ap + b(1-p) > cp + d(1-p), ce qui implique p >
(d −b)
(1−(−10))
=
= 11 .
(a − c) + (d −b) (3−1)+(1−(−10)) 13
Par conséquent, Lièvre est la meilleure stratégie si le premier chasseur pense que l’autre choisira
également Lièvre avec une probabilité : (1-p) >
(a − c)
(3−1)
=2 .
=
(a −c)+(d −b) (3−1)+(1−(−10)) 13
Le jeu étant symétrique, il en est de même pour le second chasseur. Dans ces conditions, chasser le
lièvre demande un niveau de croyances ou de prévisions sur le comportement d’autrui beaucoup
moins exigeant : il suffit de croire un peu (probabilité subjective de 15.4%) que l’autre risque de
chasser le lièvre pour faire comme lui, alors qu’il faut être presque convaincu (probabilité
subjective d’au moins 84.6%) qu’il va chasser le cerf pour faire de même. En d’autres termes, si la
valeur minimale requise de p est supérieure à la valeur minimale requise de (1-p), alors l’équilibre
13
(Cerf, Cerf) apparaît plus risqué que (Lièvre, Lièvre). On a donc bien : pmin > (1-pmin) ⇔ (a – c) <
(d – b), condition que nous avons précisée dès le tableau 2. L’équilibre (Lièvre, Lièvre) est dit
risque-dominant, conformément à la définition qu’en donnent Harsanyi et Selten (1988).
L’objectif de ces auteurs est de montrer qu’en cas de multiplicité des équilibres, la sélection de l’un
d’eux peut s’effectuer de manière endogène en usant de la seule rationalité. Or, ils insistent bien sur
le fait que la risque-dominance et la Pareto-dominance correspondent à deux critères distincts et
possibles de rationalité. « La risque-dominance est fondée sur une rationalité individuelle : c’est
une extension de la rationalité bayésienne […] si un équilibre E1 risque-domine l’équilibre E2,
cela signifie que, dans une situation où les joueurs sont indécis quant à savoir lequel de E1 ou de
E2 sera le résultat effectif, tout joueur, qui essaie de maximiser son espérance de gains
conditionnellement à des probabilités subjectives rationnellement choisies sur les stratégies de
l’autre joueur, optera pour E1. Au contraire, la domination en gains [la Pareto-dominance] est
fondée sur une rationalité collective : elle s’appuie sur l’hypothèse selon laquelle en l’absence de
raisons contraires, les joueurs rationnels vont choisir un équilibre procurant à tous des gains plus
élevés, plutôt qu’un autre leur procurant des gains plus faibles. En d’autres termes, elle s’appuie
sur l’hypothèse selon laquelle des individus rationnels vont coopérer pour poursuivre leur intérêt
commun si les conditions le leur permettent15» (souligné par nous) (1988, p. 356). Dans une société
de chasseurs où la rationalité « individuelle » est de connaissance commune, le résultat du jeu sera
(Lièvre, Lièvre) ; dans une autre société avec cette fois-ci une rationalité « collective » de
connaissance commune, c’est l’issue Pareto-optimale (Cerf, Cerf) qui sera choisie.
Si l’on adhère à cette hypothèse ajoutée à la rationalité initiale des joueurs lewisiens, la convention
perd alors de son arbitraire, caractéristique pourtant première d’une convention. En effet,
l’information complète sur le jeu et la connaissance du type de rationalité des joueurs suffisent à
désigner sans erreur les stratégies d’équilibre retenues. Décréter que les joueurs sont
rationnellement collectifs ou bayésiens, cela revient à les doter dès le départ d’un critère de
15
Par exemple, les conditions du dilemme du prisonnier ne le permettent pas.
14
sélection supplémentaire pour mettre en œuvre un équilibre de Nash parmi plusieurs, résolvant de la
sorte tout problème de coordination avant même de s’y confronter. A ce stade, on peut alors se
demander ce qu’il reste de conventionnel à la solution adoptée pour résoudre la coordination ? Plus
grand chose sans doute. Des individus intellectuellement si bien dotés par la nature n’ont plus
besoin de conventions pour gérer leurs interactions16.
Donc pour interroger l’approche utilitariste des conventions sur l’optimalité ou non des conventions
sans initialement « piper les dés », il faut changer d’hypothèse sur la rationalité des joueurs. De la
sorte, on explique mieux pourquoi la théorie des conventions s’est essentiellement développée dans
le champ de la théorie des jeux évolutionniste. Il s’agit dans ce cadre, où il n’est plus question de
rationalité parfaite mais de joueurs myopes et naïfs, de prédire lequel des équilibres de Nash rivaux
prendra le statut de convention et ceci de manière durable : l’optimal ou le moins risqué ?
II. - QUAND LES « MAUVAISES » CONVENTIONS SE REVELENT
EVOLUTIONNAIREMENT ET STOCHASTIQUEMENT PLUS STABLES
« Il est sans doute plus utile de moins se focaliser sur la rationalité et de penser les conventions
comme le fruit d'un processus évolutionniste » [Sugden, R. (1989), p. 90-91]. La théorie des jeux
évolutionniste apparaît comme une sérieuse candidate pour l’explication des conventions dès lors
que l’on insiste plus particulièrement sur l’un des traits propres à tout comportement conventionnel,
à savoir son enracinement dans le passé.
Si des agents choisissent une solution dite conventionnelle, cela signifie qu’ils ne l’ont pas inventée
à l’instant ; en quelque sorte elle était à leur disposition pour leur éviter des calculs et raisonnements
infinis. Elle vient du passé. Cela a une première implication directe : le problème de coordination en
question a déjà eu lieu. Une théorie des conventions devrait donc concevoir des interactions qui se
répètent. Par ailleurs, venir du passé ne suffit pas pour prétendre être une solution, il est nécessaire
que les succès passés d’un comportement confèrent à ce dernier une prégnance reconnue pertinente
16
D’ailleurs, Harsanyi et Selten, qui nous intéressent ici à cause du concept de risque-dominance, n’utilisent jamais
celui de convention.
15
par les individus. Autrement dit, on suppose que les agents sont sensibles à la force du précédent ;
ils préfèrent se conformer à un précédent réussi plutôt que d’imaginer un nouveau comportement.
C’est une condition nécessaire, sans elle point de régularité dans le temps. Il semble alors logique
de plaider pour une théorie des conventions mettant en scène des agents dont les décisions sont
prises en regardant le passé plutôt que l’avenir.
Or, la théorie des jeux évolutionniste associe ces deux caractéristiques que nous venons de qualifier
de nécessaires : i) approche dynamique, les interactions y sont récurrentes17 ; ii) supposant la
rationalité limitée, les agents qu’elle met en scène calculent leur espérance de gains en fonction
uniquement de l’information issue des périodes précédentes.
La micro-société de joueurs constitue en fait un système d’automates recalculant à chaque période
leur stratégie. Chacun est myope : personne n’anticipe l’avenir. De plus, aucun joueur ne reconnaît
ses partenaires. Ainsi, Rosalie et César, si le hasard fait qu’ils se rencontrent lors d’une interaction,
que ce soit à la première ou à la nième période du jeu, ne s’identifient pas l’un l’autre. Avec Mailath
(1998), on peut ajouter au qualificatif de myope celui de naïf. En effet, période après période,
chacun joue sa stratégie en réagissant par rapport aux états passés du système dans sa globalité et
ainsi, de manière non intentionnelle, contribue au changement du système, ou encore à son
évolution. « Les joueurs ne croient pas – ne comprennent pas – que leur propre comportement
affecte potentiellement le jeu de leur adversaire et les joueurs en particulier ne tiennent pas compte
de la possibilité que leur adversaire s’ajuste également à leurs comportements. » (p. 1348).
L’ambition de la théorie des jeux évolutionniste est alors de montrer (i) que des agents à la
rationalité ainsi limitée vont jouer in fine un équilibre de Nash, et (ii) comment un équilibre est
sélectionné parmi plusieurs [Mailath, G. (1998)]. Or, la redéfinition du concept d’équilibre en
évolution, que ce soit en termes de stabilité évolutionnaire ou de stabilité stochastique, correspond à
des régularités de comportements dans une population. C’est pourquoi il n’y a plus qu’un pas à faire
17
Les jeux sont dits récurrents lorsque les interactions sont répétées entre des joueurs différents à chaque fois.
16
pour reconnaître ici une théorie de l’émergence et de la stabilité des conventions, où la question du
caractère Pareto-optimal ou risque-dominant de la convention sélectionnée est centrale.
II.1. Le jeu « or » versus « sel »
Nous reprenons ici le jeu proposé par Larquier, Abecassis et Batifoulier (2001), ayant une structure
proche de celle de la chasse au cerf. Par ailleurs, notre démarche évolutionniste est plus fidèle à
celle de Kandori, Mailath et Rob (1993) qu’à celle de Young (1998). Enfin, nous considérons une
dynamique uniquement en temps discret. A une date mythique t, dans une population de marchands
existent deux moyens d’échange, le sel et l’or. Tous les marchands se rencontrent deux à deux selon
un tirage aléatoire pour échanger des biens de natures différentes. Étant dans une économie
monétaire, ils ne peuvent pas effectuer de trocs et doivent donc, avant de quitter leur boutique,
remplir leur bourse soit de sel soit d’or pour régler leurs achats. Dans l’absolu, pour faciliter les
échanges, le sel est plus performant. Mais si deux agents ayant choisi des moyens d’échange
différents se rencontrent, au moment de rendre la monnaie, celui qui a de l’or a un avantage sur
celui qui propose du sel. Ce jeu admet deux conventions correspondant aux deux équilibres de
Nash. Ces derniers étant Pareto-ordonnés (l’équilibre « sel » Pareto-domine l’équilibre « or »), l’une
des conventions, l’or, peut être qualifiée de « mauvaise ». Par ailleurs, « or » risque-domine « sel ».
Chacune des conventions a ainsi ses qualités propres suivant le critère choisi et on cherche à savoir
laquelle va s’imposer quand le système évolue avec le temps.
Tableau 5 : Le jeu « sel » versus « or »
Marchand 2
Marchand
1
sel
or
sel
10,10
4,7
or
7,4
8,8
A la date t, l’état du système est résumé par la distribution des stratégies parmi les joueurs. Si tous
choisissent le sel (respectivement l’or), cet état du système perdurera à l’infini en l’absence de
17
perturbation. Si au contraire, à la date t, la population est mélangée, une proportion pt choisissant le
sel et une proportion 1-pt l’or, le système va évoluer grâce à l’apprentissage des marchands. Comme
il suffit de connaître la variable pt pour connaître l’état du système en t, la série des p0, p1, p2, …, pT
retranscrit l’évolution du système de l’origine à la période T, et la fonction b(.) avec b(pt) = pt+1 est
la dynamique du système. Le principe d’une dynamique évolutionniste est de vérifier une propriété
(D) dite darwinienne [Kandori et alii (1993), p. 32] :
pt+1 = b(pt)
avec
(D) : sign(b(p)-p) = sign(πS(p)-πO(p))
avec πS(p) (resp. πO(p)) l’espérance de gains à jouer la stratégie sel (resp. or) quand le système est
tel que pt=p. Une stratégie « gagnante » à la période t sera adoptée par une fraction plus importante
de joueurs en t+1. Cela repose sur un processus de sélection « naturelle », qui élimine peu à peu les
stratégies en moyenne moins efficaces.
Dans ces conditions, que la dynamique évolutionniste soit celle de réplication (la plus connue)18, de
meilleure réponse19 ou autre (pourvu qu’elle soit darwinienne), on peut associer à la fonction b(.)
une chaîne de Markov dont la matrice de transition est régulière, faite de 0 et de 1 et avec une
somme par ligne toujours égale à l’unité, ce qui implique au moins un état stationnaire p* déterminé
par la situation initiale du système. On qualifie de stationnaire un état p* tel que b(p*)=p*. Soit ~
p
= 4/7 (valeur où πS(p) = πO(p) = 10p + 4(1-p) = 8(1-p) +7p) et soit p0 l’état initial du système, la
dynamique darwinienne a trois états stationnaires : p*=0 si p0< ~
p , p*=1 si p0> ~
p et p*= ~
p 20 si
p0 = ~
p . On peut appeler ~
p la masse critique qui, selon qu’elle est atteinte ou non en période initiale
nous indique, sans autre incident lors du processus, si le sel sera ou non le moyen d’échange
18
Cette dynamique est directement issue de l’évolutionnisme biologique [Fisher, R.A. (1930)] et introduite en théorie
des jeux par Taylor et Jonker (1978). Néanmoins, elle est très critiquable, car elle ignore totalement le niveau microéconomique des joueurs qui n’effectuent aucun calcul. Leur rationalité n’est pas affaiblie mais nulle. En quelque sorte,
la dynamique de réplication est une fonction macroéconomique sans fondements microéconomiques.
19
Cette dynamique est plus satisfaisante dans le cas de systèmes avec interactions localisées. Sur la base des
observations en t-1, les joueurs procèdent à des calculs d’espérance conditionnellement à leur voisinage et jouent leur
meilleure réponse. Une fois ces choix décentralisés agrégés, la dynamique macro-économique b(.) doit continuer de
vérifier la propriété (D).
20
p*= ~
p correspond bien sûr à l’équilibre en stratégies mixtes du jeu statique. Même s’il peut s’agir d’un état
stationnaire du système, de manière générale on refuse le label de convention à cet état, d’autant plus qu’il se révèlera
instable.
18
conventionnel de cette société. Soit p0 est supérieur à 4/7 et l’état stationnaire du système
consacrera l’hégémonie du moyen d’échange sel ; soit p0 est inférieur à 4/7 et l’état correspondra à
la « mauvaise » convention or. En d’autres termes, c’est la fréquence initiale des stratégies sel et or
qui détermine la convention du système. Il s’agit de la propriété bien connue de path dependency.
A ce stade, on va chercher à tester la résistance des conventions ayant émergé : si des
comportements déviants surgissent, comment le système et les joueurs vont-ils être influencés ? La
force du précédent (ici, l’hégémonie d’un comportement en t-1) est-elle puissante ou fragile ? Il faut
donc caractériser ces conventions, ou plus exactement ces états du système, en terme de stabilité ou
de résistance. Pour tester la stabilité d’un état, il faut le perturber, nous allons donc introduire des
chocs exogènes dans la dynamique déterministe. On suppose qu’à l’état stationnaire, où une
convention est hégémonique, une petite proportion d’individus changent de stratégie. On qualifie
ces individus de mutants. Si malgré ces mutations en nombre restreint, le système revient à l’état
stationnaire de départ alors, selon la définition de Maynard Smith et Price (1973), la stratégie qui lui
est associée est dite évolutionnairement stable.
A ce test, p*=0 et p*=1 résistent. On qualifie également ces deux états de points fixes
asymptotiquement stables (PFAS) : toute trajectoire engendrée par la dynamique, qui prend son
départ suffisamment près d’un de ces points fixes (nombre de mutants suffisamment petit),
converge vers lui sans jamais trop s’en écarter. Ainsi, les deux équilibres de Nash stricts
correspondent-ils à des stratégies évolutionnairement stables (SES), et l’on peut calculer leur
résistance aux mutations. De fait, ce calcul nous ramène à celui de la masse critique ~
p =4/7 ou celui
de la risque-dominance. Considérons un état où tous les marchands utilisent du sel, la proportion de
mutants 1-p devient trop importante, au point de rendre l’abandon du sel inéluctable, dès lors que
1-p est plus grand que 3/7. La résistance de la stratégie sel est donc 3/7 et celle de l’or 4/7. Cette
dernière SES, ayant une plus grande résistance, est donc moins facilement déstabilisée par
d’éventuelles mutations.
19
Néanmoins, malgré cet avantage pour la mauvaise convention or, les deux équilibres, en tant que
PFAS concurrents, peuvent soutenir chacun une convention, fonction de l’héritage historique (les
conditions initiales) et des incidents historiques non prévisibles (les mutants). Pour prédire la
convention adoptée par une zone monétaire, nul besoin de jugement sur l’optimalité ou sousoptimalité, seule l’histoire importe ! C’est du moins l’impression donnée lorsque l’on se cantonne
aux dynamiques darwiniennes déterministes.
Introduisons maintenant un processus de mutation continu et aléatoire. Le jeu devient stochastique
puisque tout joueur est susceptible de modifier son comportement sans raison apparente, de manière
aléatoire, avec une probabilité ε infime mais non nulle. Une fois ce processus de mutation ou
d’erreur introduit, la stabilité du système est beaucoup plus complexe. Si on se limitait à un critère
de stabilité locale pour les PFAS (avec un phénomène de mutation ponctuel), à présent « les
caractéristiques de la dynamique globale deviennent essentielles » et le critère de stabilité
stochastique qui s’impose est plus exigeant ; il sélectionne plus fortement les équilibres [Orléan, A.
(1996), p. 591]21. En fait, pour toute dynamique respectant la propriété darwinienne, quand le taux
de mutation ε tend vers 0, et quelle que soit la situation initiale du système, celui-ci stationnera à
long terme « une ‘infinité’ de fois plus longtemps » [Orléan, A. (1996), p. 597] dans l’état p* que
dans tout autre état. Cet état p* est dit stochastiquement stable [Foster, D. et Young, H.P. (1990),
Kandori, M., Mailath, G. et Rob, R. (1993), Young, H.P. (1993)].
En fait, l’état stochastiquement stable (ESS) est celui qui possède le plus grand bassin d’attraction :
son potentiel stochastique (le nombre minimal de mutations nécessaires pour atteindre son bassin
d’attraction) est faible ou encore sa résistance (le nombre minimal de mutations pour quitter son
21
La dynamique systémique devient une équation différentielle stochastique non linéaire :
pt+1 = b(pt) + xt – yt
où x et y sont des variables aléatoires de paramètre ε représentant la part d’agents qui expérimentent respectivement sel
et or. Ce système dynamique stochastique définit une chaîne de Markov dont la matrice de transition a cette fois-ci tous
ses éléments strictement positifs (à cause des mutations, toutes les transitions d’un état à un autre sont rendues
possibles). Or, si la matrice est strictement positive, le processus est dit ergodique : à terme, il y a indépendance par
rapport aux conditions initiales.
20
bassin d’attraction) élevée. Comme les calculs de résistance et de risque-dominance sont
équivalents lorsqu’il n’existe que deux équilibres, il en découle un résultat assez général : dans un
jeu avec deux équilibres de Nash, l’un Pareto-optimal et l’autre risque-dominant, c’est le second
équilibre, parce que son bassin d’attraction est plus grand, qui sera plus probablement adopté par
l’ensemble de la population à très long terme.
PFAS et ESS sont ainsi propices à représenter l’état d’une société guidée par une convention
puisqu’ils impliquent bien une régularité de comportement. Mais, concernant l’émergence de la
convention, le pouvoir explicatif des deux concepts est très différent. Pour le premier, tout dépend
des conditions initiales (en t=0, quelle est la distribution des stratégies dans la population ?). Pour le
second, ce sont les caractéristiques de la matrice des gains qui déterminent seules la convention
finale (laquelle est risque-dominante ?). Par conséquent, les prédictions sur l’optimalité des
conventions sont également différentes. Si l’on considère que seuls les ESS sont à même de
représenter des sociétés où règne une convention, alors on prédit que toutes les conventions sont
risque-dominantes. Si l’on accepte aussi les PFAS comme systèmes de joueurs avec convention,
alors tout se joue à la date 0 : le choix de la convention est en quelque sorte déjà fait à l’origine des
temps et la dynamique ne nous apprend rien ! Soit le « choix » est déjà là et il peut être sousoptimal, soit il n’est pas déjà fait et il a toutes les chances de l’être, s’il entre en contradiction avec
des considérations de risque. Ces résultats présentent le défaut de coordination comme une issue
plus « probable » que l’inverse. Cette conclusion pessimiste est-elle inévitable ?
II.2. Peut-on échapper à une convention finale sous-optimale ?
Considérer qu’une convention correspond à un ESS plutôt qu’à une SES peut être intellectuellement
plus satisfaisant. La convention est ainsi associée à l’état le plus résistant possible aux stratégies
« incorrectes » pouvant survenir dans la population, certes de manière très rare (n’oublions pas que
ε→0) mais totalement imprévisible (aléatoire). Cette résistance continue aux comportements
aberrants est une caractéristique importante des conventions. Or, si l’on place les scénarios
21
d’évolution des conventions dans un environnement stochastique, en abandonnant une dynamique
déterministe, la théorie des jeux évolutionnistes va-t-elle fatalement et systématiquement justifier la
pérennité de défauts de coordination22 ?
Ce résultat serait pour le moins pessimiste, sachant que l’économiste est traditionnellement très
attaché à la Pareto-optimalité. De fait, la majorité des travaux de l’approche évolutionniste des
conventions s’attache à définir les conditions permettant a contrario l’émergence d’une convention
Pareto-optimale. Sachant que la stratégie risque-dominante s’adapte mieux à un univers
stochastique et donc hétérogène « alors que l’efficacité de la stratégie Pareto-optimale ne se révèle
pleinement que dans des contextes de forte homogénéité des choix » [Orléan, A. (1996), p. 593]23,
on peut s’interroger, sur la possibilité d’échapper à un défaut de coordination programmé, en
assurant aux joueurs un environnement homogène par le biais de plus petits voisinages.
Si les interactions ont lieu dans un réseau, on s’attend à ce que les joueurs prennent l’habitude de ne
rencontrer que les membres de leur voisinage, ce qui devrait diminuer les risques de noncoordination et revaloriser le critère paretien dans leur prise de décision. Toute une littérature24, qui
se définit comme « théorie économique des conventions », a ainsi intégré dans les modèles
évolutionnistes l’hypothèse d’interactions localisées afin de relier propriétés de la convention
émergeante et forme du réseau. Mais cette hypothèse supplémentaire ne suffit pas en elle-même.
Car, dans un réseau même sans mutation, l’effet contagion par chevauchement des voisinages
privilégie lui aussi la diffusion des stratégies risques-dominantes [Lee, I.H. et Valentinyi, A.
(2000)]. C’est pourquoi, parmi ces modèles, ceux qui cherchent à expliquer l’émergence d’une
stratégie conventionnelle Pareto-optimale ont toujours besoin d’une hypothèse supplémentaire pour
atteindre leur objectif.
22
Nous nous restreignons aux cas où Pareto-optimalité et risque-dominance sont associés à des équilibres distincts.
Ou encore, en reprenant les termes de Sugden, les agents sont sensibles à deux qualités des conventions : leur
efficacité (Pareto-dominance) et leur polyvalence (versatility) face à toute autre stratégie (la capacité de diminuer le
risque en cas de non coordination). Or, « l’évolution aura tendance à valoriser les conventions ‘polyvalentes’ mais
inefficientes par rapport à celles qui sont moins ‘polyvalentes’ et plus efficientes » [Sugden, R. (1989), p. 94].
24
De manière absolument non exhaustive : Ellison (1993), Blume (1993), Anderlini et Ianni (1996), Berninghaus et
Schwalbe (1996). On peut également citer Boyer et Orléan (1992), ces derniers s’intéressant plutôt à un jeu du rendezvous où l’équilibre Pareto-dominant est aussi risque-dominant. Voir Larquier et Gannon (2001)
23
22
Par exemple, la convention peut être optimale s’il existe, contre un coût raisonnable, le moyen
d’être flexible (de s’ajuster parfaitement au comportement d’autrui, quelle que soit sa stratégie), et
cela dans un réseau unidimensionnel, avec une dynamique de meilleure réponse déterministe
[Goyal, S. et Janssen, M. (1997)]. Or, sachant que le résultat est le même sans réseau et avec une
dynamique stochastique [Galesloot, B.M. et Goyal, S. (1997)], ce n’est donc pas la modélisation en
réseau qui est déterminante, mais bien l’hypothèse de flexibilité.
Pour forcer le système à produire une convention Pareto-optimale, on a pu également jouer sur la
structure du taux de mutation. On suppose par exemple que les joueurs sont plus souvent tentés
d’expérimenter une nouvelle stratégie dans l’état risque-dominant que dans l’état Pareto-optimal
(hypothèse de mutation dépendante à l’état). Cela permet à la convention optimale d’émerger
[Bergin, J. et Lipman, B.L. (1996)]. Mais les résultats sont très fragiles. D’une part, une préférence
pour l’expérimentation de stratégies Pareto-optimales dans une société qui suit une convention
risque-dominante est particulièrement coûteuse. L’hypothèse inverse est plus vraisemblable pour
des joueurs utilitaristes maximisateurs d’espérance de gains [Young, H.P. (1998)], ce qui nous
ramène à l’émergence d’une convention risque-dominante. D’autre part, le résultat de Bergin et
Lipman (1996) ne tient, même à structure d’erreur inchangée, que si les interactions ne sont pas
localisées dans un réseau [Lee, I.H., Szeidl, A., Valentinyi A. (2003)] ou si le réseau a une forme
très particulière [Jackson, M.O. et Watts, A. (2002)] !25
En fait, pour obtenir « à coup sûr » l’émergence et l’unicité de la convention Pareto-optimale dans
l’ensemble de la population, une dernière hypothèse doit être ajoutée : la mobilité des agents dans le
réseau. On aborde là une famille de modèles en pleine expansion [Oechssler, J. (1997), Dieckmann,
T. (1999), Mailath, G., Samuelson, L. et Shaked, A. (2000), Ely, J. (2002)]26, qui suppose que la
structure d’interaction n’est plus figée, avec chaque joueur attaché à un nœud du réseau et connecté
25
On pourrait encore allonger la liste des travaux qui, explorant d’autres hypothèses portant essentiellement sur la règle
de décision des joueurs (tels ceux de Robson et Vega-Redondo (1996) qui supposent un comportement d’imitation),
concluent à l’émergence d’une convention Pareto-optimale. Cependant, on pourra toujours montrer que leurs résultats
ne sont vérifiés que sous certaines conditions. En quelque sorte, ces travaux ont un pouvoir explicatif « local » et n’ont
pas la puissance de prédiction de l’hypothèse de mobilité des agents.
23
aux joueurs de son voisinage. A présent, les nœuds du réseau sont des lieux où peuvent se
rencontrer tous les joueurs choisissant de s’y rendre. En quelque sorte, ce sont les jeux de
coordination de classe CC qui forment les nœuds du réseau. Or, si les joueurs se déplacent dans le
réseau, chacun rejoint sciemment un site où la convention jouée en t-1 maximise son espérance de
gains : parmi un certain nombre de conventions déjà établies en des endroits distincts, les joueurs
font le choix a posteriori de leur propre comportement conventionnel ! De la sorte, en chaque nœud
du réseau, l’hétérogénéité des stratégies diminue, le risque de non coordination s’affaiblit, la
stratégie Pareto-optimale y gagne en attraction et l’on échappe enfin à l’émergence programmée de
la convention risque-dominante mais Pareto-dominée. Ainsi, dans un univers stochastique, des
joueurs myopes, naïfs mais mobiles finiront-ils par adopter de bonnes conventions. Nous retrouvons
là l’effet régulateur bien connu d’un mécanisme de marché, fondé sur la stratégie « exit » : si la
convention en vigueur chez moi est Pareto-dominée par celle suivie par mes voisins, je m’en vais
chez eux… Le seul moyen d’éviter un défaut de coordination serait donc de mettre les conventions
en concurrence !
De nouveau, on ne voit pas ce qui reste de conventionnel dans des choix ainsi définis. Si l’on est
capable d’arbitrer entre différentes conventions, en fonction de leurs avantages et coûts comparés,
le suivi de la règle ne repose plus sur la préférence pour la conformité mais sur un choix conscient
et lucide d’une des branches de l’alternative. Les individus sont ici aussi trop bien dotés par la
nature pour avoir besoin de convention pour gérer leurs interactions.
CONCLUSION
Cet article a proposé une réflexion critique, de nature épistémologique, sur l’usage du mot
« convention » en théorie des jeux. Il a distingué l’approche stratégique mobilisant une hypothèse
de rationalité parfaite de l’approche évolutionniste revendiquant une hypothèse de rationalité
26
Cette modélisation est plus particulièrement appliquée dans le champ de l’économie spatiale [Bhaskar, V. et VegaRedondo, F. (2004), Blume, A. et Temzelides, T. (2003)] et des réseaux sociaux [Goyal, S. et Vega-Redondo, F. (1999),
Droste, E., Gilles, R.P. et Johnson, C. (2000)].
24
limitée. Les deux approches peuvent être regroupées dans une catégorie plus vaste : la théorie
utilitariste des conventions. L’article a exploité l’une des interrogations importantes de cette théorie,
à savoir la possibilité qu’une convention puisse être sous-optimale au sens de Pareto. L’existence
d’un défaut de coordination ou mauvaise convention soulève en effet des difficultés que la théorie
des jeux a du mal à surmonter. Le traitement des mauvaises conventions a un prix élevé conduisant
à dégrader le caractère conventionnel de la solution.
En effet, récapitulons les défauts de coordination présentés dans ce texte : un collectif de travail
ayant un étalon d’effort faible (induisant le renforcement d’une mauvaise politique salariale), des
hommes et leur famille sous-alimentés ne sachant pas attraper un cerf et une économie où la
mauvaise monnaie a chassé la bonne. Toute interaction, où Pareto-optimalité et risque-dominance
entrent en conflit, risque de mener ainsi à une règle de coordination conventionnelle stable mais
« mauvaise ». Ce résultat est imputable soit à la force du précédent qui supporte une convention
sous-optimale qui n’est pas un « bon équilibre » (à la Lewis), soit à une parfaite rationalité
individuelle bayésienne (à la Harsanyi et Selten), soit encore à une dynamique stochastique
darwinienne (sensible aux mêmes probabilités du calcul bayésien, mais correspondant alors à des
fréquences). Les moyens d’échapper à ce résultat sont également circonscrits : une parfaite
rationalité collective, une dynamique déterministe avec une origine des temps où la « bonne »
stratégie est majoritaire, et enfin la parfaite mobilité de agents.
Les outils de la théorie des jeux permettent donc d’expliquer pourquoi des individus soumis à un
problème de coordination ne se comportent pas comme l’âne de Buridan : ils décident malgré
l’indécidable de la situation [Sugden, R. (1998)]. Mais cela a une implication directe sur la nature
des conventions. Le fait de pouvoir classer a priori les cas où perdura ou non une mauvaise
convention remet en cause la composante arbitraire des conventions. On peut toujours expliquer
pourquoi aujourd’hui des agents suivent telle ou telle convention et non pas telle autre : les
individus ne sont pas indifférents aux différentes branches de l’alternative. Toutes les conventions,
y compris les mauvaises, ne sont arbitraires qu’en apparence. On rejoint alors un certain nombre de
25
travaux qui dénoncent, au-delà de l’économie, la caractéristique arbitraire des conventions. Marmor
(1996), Gilbert (1990), Mc Adams (2001) soulignent en effet la fragilité, sur ce point, de la
construction de Lewis : une convention ne peut être arbitraire dans la mesure où il est toujours
possible de la justifier. Si tel est le cas, cela renforce la résistance de la convention aux tentatives de
correction ou de réforme, qu’elle corresponde à une situation « efficace » ou « bloquée ». Une
(mauvaise) convention est difficile à déstabiliser non pas parce qu’elle est arbitraire mais au
contraire parce qu’elle peut être justifiée. Elle l’est par le calcul, comme le soulignent les
développements de théorie des jeux. Mais, il existe d’autres registres de justification dont la prise en
compte ouvre à la fois sur une approche plus large et plurielle de la rationalité et sur une conception
différente de l’interaction construite par des individus qui mobilisent des conventions [Orléan, A.
(2004)]. On accéderait alors à une autre théorie de la coordination, celle de l’Économie des
conventions.
BIBLIOGRAPHIE
Anderlini, L. et Ianni, A. [1996], « Path Dependance and Learning from Neighbors », Games and
Economic Behavior, vol 13, n° 2, April, p. 141-177.
Batifoulier, Ph. [2001], éd., Théorie des conventions, Economica, Paris.
Batifoulier, Ph., Larquier, G. de [2001], « La convention en théorie des jeux » in Batifoulier (éd.),
Théorie des conventions, Economica, Paris, p. 99-126.
Batifoulier P., J. Merchiers et D. Urrutiaguer [2002], « David Lewis et la rationalité des
conventions », Revue de philosophie économique, n°6, p. 37-56.
Bergin, J. et Lipman, B.L. [1996], « Evolution with State-Dependent Mutations », Econometrica,
vol. 64, n° 4, July, p. 943-956.
Berninghaus, S.K. et Schwalbe U. [1996], « Conventions, Local Interaction, and Automata
Networks », Journal of Evolutionary Economics, vol. 6, n° 3, August, p. 297-312.
Bhaskar, V. et Vega-Redondo, F. [2004], « Migration and the Evolution of Conventions », Journal
26
of Economic Behavior & Organization, vol 55, n° 3, November, p. 397-418.
Blume, A. et Temzelides, T. [2003], « On the Geography of Conventions », Economic Theory,
vol. 22, n° 4, p. 863-873.
Blume, L. [1993], « The Statistical Mechanics of Strategic Interaction », Games and Economic
Behavior, vol. 5, n° 3, July, p. 387-424.
Boyer, R. et Orléan, A. [1992], « How do Convention Evolve ? » Journal of Evolutionary
Economics, vol. 2, n° 3, October, p. 165-177.
Cooper, R. et John, A. [1988], « Coordinating Coordination Failures in Keynesian Models », The
Quarterly Journal of Economics, vol. 103, n° 3, August, p. 441-463.
Defalvard H. [1999], « Coordination, anticipations et croyances : la part des institutions »,
Économie appliquée, Tome LII, n°3, pp. 7-39.
Dieckmann, T. [1999], « The Evolution of Conventions with Mobile Players », Journal of
Economic Behavior & Organization, vol. 38, n° 1, January, p. 93-111.
Droste E., Gilles, R.P. et Johnson, C. [2000], Evolution of Conventions in Endogenous Social
Networks, mimeo, Tilburg University.
Ellison, G. [1993], « Learning, Local Interaction, and Coordination », Econometrica, vol. 61, n° 5,
September, p. 1047-1071.
Ely, J. [2002], « Local Conventions », Advances in Theoretical Economics, vol. 2, n° 1, p.1-31.
Fisher, R.A. [1930], The Genetical Theory of Natural Selection, Clarendon Press, Oxford.
Foster, D. et Young, H.P. [1990], « Stochastic Evolutionary Game Dynamics », Theoretical
Population Biology, vol. 38, n°2, October, p. 219-232.
Galesloot, B.M. et Goyal, S. [1997], « Costs of Flexibility and Equilibrium Selection », Journal of
Mathematical Economics, vol. 28, n° 3, October, p. 249-264.
Gilbert, M. [1990], « Rationality, Coordination and Convention », Synthese, vol. 84, p. 1-21.
Goyal, S. et Janssen, M. [1996], « Can We Rationally Learn to Coordinate ? », Theory and
Decision, vol. 40, n° 1, January, p. 29-49.
27
Goyal, S. et Janssen, M. [1997], « Non-Exclusive Conventions and Social Coordination », Journal
of Economic Theory, vol. 77, n° 1, November, p. 34-57.
Goyal, S. et Vega-Redondo, F. [1999], Learning, Network Formation and Coordination,
Econometric Institute Report 9954/A, Rotterdam.
Harsanyi, J.C. et Selten, R. [1988], A General Theory of Equilibrium Selection in Games, MIT
Press, Cambridge.
Jackson, M.O. et Watts, A. [2002], « On the Formation of Interaction Networks in Social
Coordination Games », Games and Economic Behavior, vol. 41, n° 2, November, p. 265-291.
Kandori, M., Mailath G.J. et Rob, R. [1993], « Learning, Mutation, and Long Run Equilibria in
Games », Econometrica, vol. 61, n° 1, January, p. 1019-1045.
Larquier, G. de, Abecassis, Ph. et Batifoulier, Ph. [2001], « La dynamique des conventions en
théorie des jeux », in Théorie des conventions, Batifoulier (éd.), Economica, Paris, p. 127-159.
Larquier, G. de, Gannon, F. [2001], « Rivalité et coexistence des conventions dans les jeux
évolutionnistes », in Théorie des conventions, Batifoulier (éd.), Economica, Paris, p. 161-190.
Lee I.H., Szeidl, A. et Valentinyi, A. [2003], « Contagion and State Dependent Mutations »,
Advances in Theoretical Economics, vol. 3., n° 1, January, p. 1-28.
Lee, I.H. et Valentinyi, A. [2000], « Noisy Contagion without Mutation », Review of Economic
Studies, vol. 67, n° 1, January, p. 47-56.
Leibenstein, H. [1982], « The Prisonner’s Dilemma in the Invisible Hand: an Analysis of intra Firm
Productivity », The American Economic Review, vol 72, n° 2, p. 92-97.
Leibenstein, H. [1987], Inside the firm, Harvard University Press, Cambridge.
Lewis, D. [1969] Convention. A Philosophical Study, Harvard University Press, Cambridge.
Mailath, G. [1998], « Do People Play Nash Equilibrium ? Lessons from Evolutionary Game
Theory », Journal of Economic Literature, vol. 36, n° 3, September, p. 1347-74.
Mailath, G., Samuelson, L. et Shaked, A. [2000] « Endogenous Interactions », in The Evolution of
Economic Diversity, Pagano et Nicita (éd.), Routledge, London, p. 300-324.
28
Marmor, A. [1996], « On Convention », Synthese, vol. 107, p. 349-371.
Maynard Smith, J. et Price, G.R. [1973], « The Logic of Animal Conflict », Nature, n°246, p. 1518.
McAdams, R. [2001], « Conventions and Norms (Philosophical Aspects) », International
Encyclopedia of the Social and Behavioral Sciences, N. Smelser et P Bates (éd.).
Oechssler, J. [1997], « Decentralization and the Coordination Problem », Journal of Economic
Behavior & Organization, vol. 32, n° 1, January, p. 119-135.
Orléan, A. [1996], « De la stabilité évolutionniste à la stabilité stochastique. Réflexions sur les jeux
évolutionnistes stochastiques », Revue économique, vol. 47, n° 3, mai, p. 589-600.
Orléan, A. [1997], « Jeux évolutionnistes et normes sociales », Économie Appliquée, vol 50, n°3,
p. 177-198.
Orléan, A. [2004], « L’économie des conventions : définitions et résultats », préface à l’édition
Quadrige de Analyse économique des conventions, Orléan (éd.), Presses Universitaires de France,
Paris, p. 9-48.
Postel N. [2003], Les règles dans la pensée économique contemporaine, CNRS Editions, Paris.
Rabin, M. [1994], « Incorporating Behavioral Assumptions into Game Theory » in Problems of
Coordination in Economic Activity, Friedman (éd.), Kluwer Academic Publishers, Boston.
Robson, A.J. et Vega-Redondo, F. [1996], « Efficient Equilibrium Selection in Evolutionary Games
with Random Matching », Journal of Economic Theory, vol 70, n° 1, July, p. 65-92.
Rousseau, J-J. [1754], Discours sur l’origine de l’inégalité parmi les hommes, édition de 1985,
Bordas, Paris.
Schelling, T. [1960], The Strategic of Conflict, Harvard University Press.
Schotter, A. [1981], The Economic Theory of Social Institutions, Cambridge University Press.
Sugden, R. [1986], The Economics of Rights, Co-operation and Welfare, Basil Blackwell, Oxford.
Sugden, R. [1989], « Spontaneous Order », Journal of Economic perspectives, vol 3, n° 3, p. 85-98.
Sugden R. [1998], « The role of inductive reasoning in the evolution of conventions », Law and
29
Philosophy, vol 17, n°4, July, p. 377-410.
Taylor, P.D. et Jonker, L.B. [1978], «Evolutionarily Stable Strategies and Game Dynamics.»,
Mathematical Biosciences, vol. 40, p. 145-156.
Van der Lecq, F. [1996], « Conventions and Institutions in Coordination Problems », De Economist,
vol. 144, n° 1, April, p. 397-428.
Walliser, B. [1986], « Une typologie des jeux à deux joueurs », Économie et société, vol 20, n°11,
novembre, p. 123-147.
Young, H.P. [1993], « Evolution of conventions », Econometrica, vol. 61, n° 1, January, p. 57-84.
Young, H.P. [1996], « The Economics of Convention », Journal of Economic Perspectives, vol. 10,
n° 2, p. 105-122.
Young, H.P. [1998], Individual Strategy and Social Structure : An Evolutionary Theory of
Institutions, Princeton University Press.
30