大家好,欢迎收看每天都进步,这里是天地海课室,陪你每天进步1%。
今天我们继续来聊博弈论。这两天我们说到了博弈论中最出名的例子,囚徒困境,也说了这囚徒困境之中的一个现象,名字叫做纳什均衡。或许,在博弈论里面,纳什均衡才是真正用来探讨每一场博弈之间,整个情形会怎么变换的一个模型。有趣的是,纳什均衡虽然说是一个均衡,可是却还是会因为人为的影响而被破坏,只不过这时候的认为影响是直接改变博弈规则,而不是参与者之间的策略选择。
那么说到这个囚徒困境和纳什均衡的话,我们今天就来说说两个方面的课题,第一个层面的课题是一个小课题,那就是囚徒困境的结论其实很好的解释了为什么在大多数的国家之中,认罪减刑是不可行的方案,也是被禁止的方案。原因正是因为囚徒困境所带来的结论,坦白者可以获得减刑,那么犯罪者就会尝试坦白。那么要是万一,抓到的两个嫌疑犯之间,有一个是真的无辜的呢?如果他真的是无辜的,那么他就应该被释放,而不是参与囚徒困境这样的选择。尤其还要是,一个无辜者不会认罪,又或者说,他也无法坦白认罪啊。
毕竟我们无法想象到,一个无辜者会为了减刑而认罪。到时候警察问说:“你认不认罪?”无辜者说:“我认,释放我吧。”警察这时候说:“认罪吗,好吧,告诉我你是怎么杀他的?”无辜者说:“哦,我开枪射死他的。”警察这时候满脸问号说:“可是对方明明是被刀刺死的。”
你看,一个无辜者可是连认罪都没办法认罪的。所以,如果这个坦白减刑,抗拒从严的规则真的实行的话,那么其实并不是在期许用纳什均衡来惩罚坏人,而是会因为无辜者的牵连而导致他们需要被严厉惩罚啊。到时候,真正的坏人反而可以获得减刑逍遥法外,真正的好人却要无辜入狱,这就违反了司法公正的初衷了。
这个为什么现实中不可以用囚徒困境的原因也就说到了这里,至于第二个层次呢,则是选择用另一个角度来切入。那就是博弈,其实不会只发生一次,而是会发生很多次的。应该说,哪怕这一次参与博弈的两个嫌疑犯A和B,在坦白还是沉默之后,生活还是需要继续下去,未来还是会相遇。因此,在你选择背叛,或者说坦白认罪的那一刹那,得知结果之后,你也会清楚的知道对方的选择。也因此选择背叛并且获利不见得是你最优的选择,因为你在日后就失去了这一个人的信任。
Robert Marshall Axelrod 的肖像 图片来源:https://alchetron.com/Robert-Axelrod |
那么什么才是最好的选择呢?一个政治学家为了回答这一个问题,也是为了进一步探讨关于囚徒困境的状况,他设计了一个比赛。这个政治学家的名字叫做Robert
Marshall Axelrod,他所设计的游戏如下,在一个游戏之中,参与者双方必须要选择,合作还是背叛。如果双方选择合作,那么获得的利益是最大的,每个人得到3分,总计6分。但是,假如一方选择合作,一方选择背叛,那么选择背叛的那个人得到5分,选择合作的那个人0分。至于如果两个都选择背叛的话,那么就都得到1分,总计2分。这个囚徒困境的设计,和我们昨天所说的那个囚徒困境是差不多一样的,按照纳什均衡的理论来说也是如此,纳什均衡会出现在双方都背叛的那个最糟糕的情形。但是呢,Axelrod做了一个小小的改变,他让这个囚徒困境重复两百个回合,然后,在200个回合之后,谁最后的分数高,就谁获胜。这个游戏,他命名为重复囚徒困境。更好玩的是,当时候的时代背景是1970年代左右,正是电脑刚刚盛行崛起的时候。所以,Axelrod就办了一个比赛,这个比赛不是靠两个选手真的在那边玩两百场囚徒困境,而是用电脑写出一段程序出来,由这个程序来参与比赛。
简单来说,Axelrod并不是要找出谁是博弈高手,而是要找出可以在这种重复囚徒困境的环境中,得到最多分数的一种策略。也就是说,他要找的是一个算法,是一个程序,是一种策略,而不是一个人。当时候,Axelrod找来了14名专家,分别来自心理学、经济学、政治学、数学、社会学这五个领域。然后呢,Axelrod再贡献一个完全随机的策略,一共15个策略。这15个策略就会和包括自己在内总共16个策略展开这个200回合的重复囚徒困境比赛。看看哪一个策略可以得到最高分。
那么,这个比赛的结果会是如何的呢?今天得篇幅用完了,明天才来和大家揭晓。
最后要问大家的问题就是,如果你受邀请参加这个重复囚徒困境比赛的话,你会设计出一个怎样的策略或者说程序呢?欢迎在下方的留言区留言,和我分享讨论吧。
今天就讲到这里,如果你喜欢这一集的内容,就请你按赞并且分享给你的朋友。如果你认为我所制作的内容对你有所帮助的话,就请你不要吝啬于订阅我的频道,同时别忘了开启小铃铛,那么你就不会错过接下来的资讯了。天地海课室,陪你每天进步1%。我们明天见。
天地海 著
没有评论:
发表评论