From madore@clipper.ens.fr Tue Feb  1 14:25:46 2000
Article: 163 of ens.forum.societe.economie
Path: eleves!not-for-mail
From: madore@clipper.ens.fr (GroTeXdieck)
Newsgroups: ens.forum.societe.economie,ens.forum.societe,ens.forum.societe.ethique,ens.forum.sciences.maths
Subject: =?iso-8859-1?Q?Dilemme_du_prisonnier_=28was=3A_Re=3A_m=E9moire_de_DEA=29?=
Followup-To: ens.forum.societe.economie
Date: 1 Feb 2000 13:25:46 GMT
Lines: 150
Sender: madore@clipper.ens.fr
Message-ID: <876msq$qlh$1@clipper.ens.fr>
References: <slrn88v9e2.1g3.chantrel@brick.ens.fr> <8749mh$ahf$1@clipper.ens.fr> <874eda$206$1@clipper.ens.fr> <876eha$31k$3@clipper.ens.fr> <876fsp$98r$2@clipper.ens.fr> <876g51$b4g$1@clipper.ens.fr>
NNTP-Posting-Host: clipper.ens.fr
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: 8bit
X-Trace: clipper.ens.fr 949411546 27313 129.199.129.1 (1 Feb 2000 13:25:46 GMT)
X-Complaints-To: forum@clipper.ens.fr
NNTP-Posting-Date: 1 Feb 2000 13:25:46 GMT
X-Newsreader: Flrn (0.4.0 - 07/99)
X-Slashdot-Headline: Phoenix BIOS Software Available for Crusoe 
X-Mark: BOG
Xref: eleves ens.forum.societe.economie:163 ens.forum.societe:1419 ens.forum.societe.ethique:13 ens.forum.sciences.maths:1749

Bon ben je vais pondre un nouvea BOG.  J'espère que les maths ne
poseront pas de difficulté.

Dans un jeu à deux joueurs de type « dilemme du prisonnier », où
chaque joueur peut soit coopérer (C) soit faire défaut (D), si tu
supposes que le jeu est symétrique (i.e. ne privilégie pas un joueur
par rapport à un autre), la matrice des gains a cette forme :

	  C		  D

C	(r,r)		(s,t)

D	(t,s)		(p,p)

Ici, r, p, t et s sont des quantités numériques (éventuellement
négatives pour simuler une perte).  Cela signifie que si le premier
joueur coopère et que le 2e fait défaut, alors le premier gagne s et
le second gagne t ; si tous deux coopèrent, ils gagnent tous deux r ;
et ainsi de suite.

r, c'est le « reward », la récompense pour avoir coopéré
mutuellement ; p, c'est le « punishment », la punition pour avoir fait
défaut tous les deux ; t, c'est la « temptation », la tentation qui
t'incite à faire défaut ; et s, c'est le « sucker », ce que tu gagnes
quand tu es un pigeon.

Donc, le dilemme dépend de quatre quantités, r, p, t et s.
Clairement, je ne change rien au problème si je rajoute ou soustrais
un même nombre à ces quatre quantités.  On peut donc supposer que s=0,
ce qui ne fait que définir l'origine.  Par ailleurs, si on fait un
changement d'échelle, i.e. si on multiplie par un même réel
strictement positif toutes les quatre quantités, on ne change rien non
plus.  Donc on peut supposer que t=1 (ou t=-1, mais là, ça n'a aucun
intérêt, ça veut juste dire qu'on s'est trompé en définissant « C » et
« D »).

Au final, on a une matrice de gains de la forme :

	  C		  D

C	(r,r)		(0,1)

D	(1,0)		(p,p)

et il n'y a plus que deux quantités à faire varier, r et p, soit la
carotte et le bâton.

Je fais donc un graphe plan des différentes valeurs de (r,p), qui
chacun correspond à un type de dilemme.  Le dilemme du prisonnier
« classique » correspond au point (0.6,0.2) par exemple.

Maintenant, sur ce diagramme plan, je délimite cinq droites
importantes :

* La droite r=0, ou, plus précisément, r=s (c'est l'axe des ordonnées
  sur ma figure).  À gauche de cette droite, la récompense est plus
  mauvaise que la valeur-pigeon.  Autrement dit, quand je coopère, je
  préfère que mon adversaire fasse défaut.  À droite de cette droite,
  on a le comportement normal : si je coopère, j'espère que mon
  adversaire en fera autant.

* La droite p=0, ou, plus précisément, p=s (c'est l'axe des abscisses
  sur ma figure).  En bas de cette droite, la punition est plus
  mauvaise que la valeur-pigeon.  Autrement dit, en bas de cette
  valeur, si je sais que mon adversaire fait défaut, je préfère quand
  même coopérer.  En haut, on a le comportement normal : si je sais
  que mon adversaire fait défaut, alors je fais défaut aussi.

On a donc déjà quatre quadrants dans la figure.  Le quadrant nord-est
est le quadrant « normal » où je préfère que mon adversaire coopère
quand moi je coopère, et où je préfaire faire défaut quand mon
adversaire fait défaut.

* La droite p=r qui divise encore le quadrant en deux suivant une
  diagonale.  En haut de cette diagonale, je préfère que mon
  adversaire fasse défaut quand je fais défaut.  À droite, les
  comportements normaux, où je préfère dans tous les cas que mon
  adversaire coopère.

Bref, la région qui nous intéresse est le 8e de plan en haut de la
droite p=s et à droite de la droite p=r, i.e. là où on a les
inégalités r>p>s.  La droite p=s correspond au comportement extrême où
je ne crains pas d'être pigeon parce que dès lors que mon adversaire
fait défaut, je suis à p=s=0, donc évidemment je coopère (je n'ai rien
à y perdre et tout à y gagner) et mon adversaire aussi.  La droite p=r
correspond au comportement extrême où je n'ai pas plus d'avantage à
une coopération mutuelle qu'à un défaut mutuel, donc je fais défaut,
et mon adversaire aussi.

On se limite donc à ce secteur angulaire.

* La droite r=1/2, ou, plus précisément r=(s+t)/2, parallèle à l'axe
  des ordonnées.  C'est la limite de stabilité entre coopération
  mutuelle (cohabitation) et coopération alternée (alternance).  À
  gauche, dans le petit bout de triangle, le comportement entre
  « homines bonæ voluntatis » est non pas de coopérer tout le temps
  ensemble, mais de faire un coup de coopération et un coup défaut,
  pour partager les bénéfices obtenus ; bref, le jeu doit être revu
  autrement.  À droite, on a les dilemmes classiques.

* Enfin, la droite r=1, ou, plus précisément, r=t, parallèle à l'axe
  des ordonnées (et à droite de la précédente).  C'est la limite entre
  le « dilemme du prisonnier » et le « dilemme de Wolf ».  Le dilemme
  du prisonnier se trouve dans le petit quadrilatère (trapèze)
  délimité par cette droite et les trois précédentes, tandis que le
  dilemme de Wolf est de l'autre côté.

Bref, un exemple typique de matrice de gains pour le dilemme de Wolf
est le suivant :

	    C		  D

C	(1.5,1.5)	(0,1)

D	  (1,0)		(1,1)

Dans un dilemme du prisonnier, tu as intérêt à coopérer, mais tu es
tenté par le gain promis si tu fais défaut, et c'est ça qui peut
t'inciter à faire défaut, l'idée de « vivre sur le dos de l'autre ».

Le dilemme de Wolf (surtout lorsque p>=t comme ici) est beaucoup plus
insidieux : tu penses « oui, j'ai intérêt à coopérer, et mon
adversaire aussi ».  Et puis, tu te dis « mais s'il lui prenait l'idée
folle de faire défaut ? » ; c'est peu probable, mais si tu fais
défaut, tu t'assures un certain gain MIN(p,t), qui n'est certes pas
très important, mais qui est garanti : tu tires ton épingle du jeu,
quitte à risquer le jeu pour les autres.

La bourse, par exemple, relève du dilemme de Wolf et pas du dilemme du
prisonnier.  Spéculer, c'est coopérer, c'est assurer pour toi et pour
les autres un bon gain (r).  Mais c'est aussi risquer de tout perdre
(s) si des gens commencent à s'effrayer et à vouloir tirer leur
épingle du jeu pour s'assurer un gain moins important mais garanti
(p,t).  C'est le principe de la peur : tout marche bien jusqu'à ce que
les gens prennent peur (sans raison), et, là, tout s'écroule.  (Alors
que dans le dilemme du prisonnier, au moins, tu as une raison de faire
défaut : tu as à y gagner.)

Le nom vient d'un ami de Hofstadter, qui, à l'énervement de
Hofstadter, prétendait que non seulement il faut inconditionnellement
faire défaut dans le dilemme du prisonnier, mais que même lorsque r>t
il faut suivre cette stratégie.

Bon, il faudrait approfondir cette analyse, et regarder en détail
chaque région du diagramme pour savoir à quoi elle correspond.
Sont-elles toutes soit triviales soit ramenables au dilemme du
prisonnier ou de Wolf, ou bien y a-t-il des phénomènes essentiellement
différents ?

Mais là, je fatigue un peu.