科学家模拟上万次囚徒困境 囚徒困境博弈

我们都知道1914年爆发了第一次世界大战,但是这场大战,越是临近圣诞节,就越发诡异 。原本杀红眼的交战双方:英国和德国 。不但停了火,还开始唠嗑,甚至还踢了一场球赛 。战场上的这种默契是比比皆是,并不少见 。
在韩国电影《高地战》当中,南朝鲜和北朝鲜的军队争夺高地,进攻方总是象征性地攻打高地,然后防守方也象征性地防守,之后高地就易主了, 。这时候攻取高地的一方常常可以挖到防守方留给他们的礼物和拜托他们寄送的书信 。

科学家模拟上万次囚徒困境 囚徒困境博弈


这样的“合作”十分默契,在战火纷飞的那些岁月里,已经成为了一种双方士兵的共同认知 。
科学家模拟上万次囚徒困境 囚徒困境博弈


《高地战》剧照,使用汉字其实是历史原因,那时候确实就是汉字
在《自私的基因里》,理查德道金斯成就指出,进化论对于一些现象无力解释,比如说:全世界一共有8000~9000种鸟类,其中有300多种能够帮助其他动物喂食,筑巢,清理身体 。要知道它们在帮助其他动物时,也会存在危险,可它们为什么会选择这样做呢?
再然后,我们平时旅游时,在景点常常会被宰,景点的东西贵到爆炸,但是同样的东西在你家小区的杂货铺就十分便宜,这究竟又是什么呢?
其实,上述的四个例子,其实都可以用一种数学模型来解释 。今天,我们就来聊一聊:如何做出合理的决策 。
囚徒困境在聊这个问题前,我们先来讲一个博弈论的经典案例 。
假说警方抓住了两名罪犯,姑且就分成甲嫌疑犯和乙嫌疑犯 。但是警方并没有证据可以指控这两个嫌疑犯 。于是,他们就把他们两个人你分别关在两个房间,然后分别对他们进行盘问 。
科学家模拟上万次囚徒困境 囚徒困境博弈


接下来,就有三种情况会发生,对应三种结果:
如果,两个人都保持沉默(也就是合作),那两个人会背叛半年的监禁 。
如果,一个人检举对方(也就是背叛),另一个人保持沉默(合作),那检举的人立即释放,被检举的人则要被判10年监禁 。
如果,两个人都互相检举(互相“背叛”),那么这两个人都会被判刑5年 。
科学家模拟上万次囚徒困境 囚徒困境博弈


那这个时候,甲和乙是该合作还是该被判呢?
其实,单次的囚徒困境,选择被判是最利于自己的选择 。
重复囚徒困境但是,我们要知道的是,在日常生活中,其实都不是单次的囚徒困境,而是多次的 。还是说到上面的例子,一战时的英德士兵,其实理论上应该把对方消灭 。但是是个人都想活下来,如果你把对方杀了,对方的战友也不会坐视不管,他们也会对你下狠手 。所以,这一来一往,循环往复,也就成了多次的囚徒困境 。
那如果是多次的囚徒困境,到底是什么样的决策才最有利于个体的发展呢?
美国科学院院士阿克塞尔·罗德教授,曾做过相关的研究和实验,模拟真实情况下的决策以及结果 。
科学家模拟上万次囚徒困境 囚徒困境博弈


具体来说,是这样的,第一轮,他让他的学生和一些心理学家,科学家设计了14种策略,然后做成计算机程序,让每个策略对应的程序都相互对战200回合,然后取平均成绩 。最后选出了最优的策略 。
这个策略大概的描述是这样的:
第一局选择与对方合作,然后之后的每一回合都选择对手上一会和的策略 。
这种策略被阿克塞尔·罗德称为一报还一报 。

推荐阅读