最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 《海贼王》中的囚徒困境:人是理性的

    博弈论关于人的基本假设是:人是理性的(理性的,或自私的),理性的人意味着他选择具体策略的目的是为了最大化自己的利益。博弈论研究 理性的人如何做出战略选择。

    约翰·纳什编撰的经典博弈论故事《囚徒困境》说明了非合作博弈的建立及其均衡解,故称为“纳什均衡”。

    所有的游戏问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(玩家),也称为参与者;双方的策略(策略)是承认谋杀的事实,最终双方都赢得(回报)中间判决。如果两名囚犯中的一个人承认谋杀,而另一个人否认并且不承认谋杀,那么忏悔者将获得减刑,而否认者将获得最严厉的死刑。在纳什的故事中,他们俩都承认了罪行。事实上,所以这两个囚犯得到了一个中间结果。

    类似:我们也可以在“自私基因”等理论中看到“纳什均衡”的表现。

    互联网原始丛林中:最优策略是如何产生的?

    博弈中最优策略的生成

    在开始研究合作之前,Robert Axelrod 设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全根据自己的利益最大化来做出决定。在此前提下,合作研究的问题是:第一、个人为什么合作?第 二、 个人什么时候合作,什么时候不合作;三、 如何让其他人与您合作。

    社会实践中的合作问题很多。比如国家间的关税报复,对他国产品加征关税有利于保护本国经济,但当各国相互加征关税时,产品价格就会上涨,失去竞争力,破坏国际贸易的互补优势。在对策中,双方都追求自身利益的最大化,导致了集团利益的损害。博弈论用著名的囚徒困境来描述这个问题。

    A 和 B 各自代表一个人,他们的选择完全无法区分。合作选择C,不合作选择D。如果AB双方选择C合作,则各得3分;如果一个选择C,另一个选择D,选择C的玩家获得0分,选择D的玩家获得5分;如果AB都选D,双方各得1分。.

    显然,小组最好的结果是双方选C,各得3分,一共6分。如果一方选C,另一方选D,总分5分。如果都选D,总分2分。

    对策用这个矩阵来描述个体理性与群体理性之间的冲突:当每个个体都追求个体利益的最大化时,群体的利益就会受到损害,这就是囚徒困境。在矩阵中,对于A来说,当对手选择C时,他选择D得5分,选择C只得3分;当对手选择D时,他选择D得1分,选择C得0分。因此,无论对手选择C还是D,对于A来说,选择D的得分最高。这是A的单边优越策略。当两个优势策略相遇时,即A和B都选择D时,结果各得1分。这个结果在矩阵中不是最优的。困境在于,当每个人都采用自己的优势策略时,得到的解是稳定的,但不是帕累托最优的。这一结果反映了个体理性与群体理性之间的矛盾。在数学上,这个一次性决策矩阵没有最优解。

    如果游戏玩了多次,只要玩家知道游戏的次数,他们肯定会采取最后一次背叛对方的策略。在这种情况下,没有必要在前面的每一个中都进行合作。因此,在已知次数的多人游戏中,玩家不会合作一次。

    如果游戏是多人玩,次数不详,玩家会意识到,持续配合默契,玩家可以继续每人得分3分,但如果持续不合作,大家会输 总是得 1 分。这样,合作的动力就出现了。在很多游戏中,未来收入应该比当前收入多一个折现率 W,W 越大,未来收入越重要。当多人策略继续且W较大时,即未来足够重要时,最优策略与其他人所采用的策略有关。假设某人的策略是第一次合作,而对方以后只要不合作一次,他就永远不会合作。对于这样的对策,合作当然是最好的政策。如果某人总是合作而不管对手的策略,那么不合作的策略总是得分最高。对于那些总是不合作的人来说,只有不合作的策略。

    阿克塞尔罗德做了一个实验,邀请多人参与游戏,计分规则与之前的矩阵相同,游戏结束时间未知。他让每位参赛者为追求得分最高的策略编写一个计算机程序,然后使用单循环的方法将参赛程序两两播放,找出哪个策略得分最高。

    第一轮游戏涉及14个程序,加上Axelrod自己的一个随机程序(即以50%的概率选择合作或不合作),运行300次。成绩最高的节目是加拿大学者罗贝的“以牙还牙”(tit for tat)。该程序的特点是,在第一局中,采用合作的策略,之后的每一步都遵循对手上一步的策略。上次你合作,我这次合作。如果上次你不合作,我这次就不合作了。. 阿克塞尔罗德还发现,得分最高的节目具有三个特点:第一n人非合作博弈nash均衡解,他们从不先背叛,即“善良”;“这可能很烦人”;第三,你不能背叛一次,你将有无尽的报复。

    为了进一步验证上述结论,艾未未决定邀请更多人再次玩游戏,并第一时间公布结果。第二次他收集了62个程序,加上他自己的随机程序,又跑了一场比赛。结果,第一名仍然是“以牙还牙”。艾对这场博弈的结论是:首先,“一滴一滴”仍然是最优策略。其次,上面提到的三个特征仍然有效,因为63个中的前15个,只有第8个哈灵顿程序是“不友善的”,而在后15个中,只有1个总是合作是“友善的”。还表现出易怒和耐受性。另外,一个好的策略必须具备的特征之一就是“清晰”,在三、中可以被对手识别。五步游戏。过于复杂的策略不一定是好的。“以牙还牙”的清晰度好,让对方很快发现规律,不得不采取合作的态度。

    合作流程及规则

    以牙还牙的策略在静态人群中得分很高,那么这样的合作者能否在动态变化的人群中出现、发展和生存?群体会走向合作,还是会走向不合作?如果大家一开始都不合作,合作能在进化过程中发展吗?为了回答这些问题,埃利希使用生态学原理来分析合作的演变。

    假设对策所形成的战略群代代相传,其演进规则包括: 1. 试错。当人们与周围的环境打交道时,他们一开始不知道该做什么,所以他们尝试这个,尝试那个,然后做任何最有效的事情。第二,遗传。如果一个人是合作的,他的后代就会有更多的合作基因。第三,学习。游戏的过程是玩家互相学习的过程,“以牙还牙”的策略好,有人愿意学习。依此思路,埃利希设计了一个实验,假设在 63 名反制者中,第一轮得分高的人在第二轮的小组中所占的比例就高,这就是他的得分。积极的作用。这样,

    实验结果很有趣。“以牙还牙”原本占人口的1/63,经过1000代进化n人非合作博弈nash均衡解,结构稳定后,占24%。此外,还有一些程序在进化过程中消失了。其中,有一个程序值得研究,那就是前15名中唯一一个“不友善”的哈灵顿程序。它的对策方案是先合作,当它发现对方一直在合作时,就会突然不合作了。,如果对方立即对其进行报复,则恢复合作,如果对方仍然合作,则继续背叛。节目一开始发展很快,但当针锋相对以外的其他节目开始消失时,它开始衰落。所以,

    进化实验揭示了一种哲学:一种策略的成功应该建立在另一种策略的成功之上。“以牙还牙”在两人的策略中,分数不能超过对方,最多打平,但总分最高。它赖以生存的基础很牢固,因为它得到了对方的高分。哈灵顿程序不是这样,它得到高分,对手必须得到低分。它的成功是建立在别人的失败之上的,失败者总是被淘汰的。当失败者被淘汰时,利用他人的胜利者也将被淘汰。

    那么,针锋相对的在一群极度自私的不合作者中能否生存?Ehrlich 发现,给定得分矩阵和未来折扣系数,可以计算出,只要小组中 5% 或更多的成员以牙还牙,这些合作者就会存活下来,并且只要他们的分数超过小组整体平均分,合作小组会越来越大,最终波及整个小组。反之,无论非合作者在合作者占多数的群体中所占的比例如何,非合作者都不可能自下而上。这表明社会向合作进化的棘轮是不可逆转的,群体变得越来越合作。有了这样一个鼓舞人心的结论,阿克塞尔罗德突破了“囚徒”的研究困境

    在研究中发现合作的必要条件是:第一、关系应该是连续的,并且在一次性或限时游戏中,玩家没有合作动机;作为回报,一个总是合作的合作者不会与他合作。

    那么,如何提高合作?首先,要建立持久的关系,即使是爱情,也需要婚姻契约来维持双方的合作。(火车站的小贩为什么要撒谎?工作中为什么要组队制?换防的时候,总要一方进攻一点点,中越前线就是这样)第一个< @二、需要加强对对方行动的识别能力,如果不清楚对方是配合还是不配合,就没有办法报答他。不行。三、为了维护自己的名声,想要报复就必须这么做,人家知道你不好欺负,也不敢不配合。四、 可以分步完成的游戏不应该一次完成,才能维持长久的关系。例如,贸易和谈判应分步进行,鼓励对方采取合作态度。不。五、不要嫉妒别人的成功,《以牙还牙》就是这样的典范。不。六、一开始就不要背叛,免得承受成为罪魁祸首的道德压力。七、不仅要为背叛付出代价,还要为合作付出代价。不。八、不要耍花招和占别人便宜。

    阿克塞尔罗德在他的著作《合作的演变》中总结了几个结论。不。一、友谊不是合作的必要条件。只要满足继续保持关系和互惠的条件,即使是敌人也可以合作。例如,第一次世界大战期间,德英军队在堑壕战中遭遇了长达三个月的雨季。在这三个月里,双方达成了默契,不攻击对方的粮食和卡车补给,直到反攻为止。你战斗到死。这个例子表明,友谊不是合作的先决条件。没有。二、远见不是合作的前提,埃利希举了生物界低等动植物合作的例子来说明这一点。但是,当具有预测能力的人类了解合作规律时,合作的进化过程就会加速。这个时候,远见是有用的,学习也是有用的。

    当考虑到博弈中的随机干扰,即对策因误解而开始互相背叛的情况时,吴建中博士通过研究发现,修改后的“以牙还牙”,即有一定概率不会对对手的背叛进行报复,“一刀切”,即以一定的概率主动制止背叛。群里所有成员处理随机情况的能力越好,“以牙还牙”的忏悔效果越好,“以牙还牙”的效果越差。

    Aixrod 的贡献和限制

    通过数学和计算机化的方法,阿克塞尔罗德研究了如何突破囚徒困境并达成合作,将这项研究提升到了一个全新的水平。他的数学证明无疑是非常有说服力和说服力的,而且,他在计算机模拟中得出的一些结论是相当惊人的,比如总分最高的人并没有在每场比赛中都得到最高分。(刘邦与项羽之战)

    埃利希发现的“以牙还牙”的策略,从社会学的角度来看,可以看作是一种“互惠利他主义”。这种行为是出于个人私利,但其结果是双方都受益。通过互惠利他,可以覆盖最广泛的社会生活。人们通过送礼和回礼形成社会生活秩序。即使在被隔离多年且不会说语言的人中,这个命令也是最容易理解的。. 例如,当哥伦布登陆美洲大陆时,与印第安人的第一次互动就从交换礼物开始。一些看似纯粹的利他行为,比如无偿馈赠,也会通过一些间接的方式得到回报,比如获得社会声誉。

    当囚徒困境延伸到多人游戏时,它体现了一个更广泛的问题——“社会悖论”,或“资源悖论”。人类共享的资源是有限的。当每个人都试图从有限的资源中多拿一点时,就会出现局部利益和整体利益的冲突。人口问题、资源危机、交通拥堵,都可以用社会悖论来解释,其中关键是研究游戏规则来控制每个人的行为。

    阿克塞尔罗德的一些结论很容易在中国古典文化的道德传统中找到。“报恩”、“我不犯罪,我不犯罪”都体现了“以牙还牙”的思想。但这些都不是最优的,因为“以牙还牙”在充满随机性的现实社会生活中存在缺陷。对此,孔子在几千年前就说过“以德报德,以直报怨”的妙方。所谓“正直”,就是正义,以正义报答对方的背叛,是一种矫正。“以牙还牙”的“以牙还牙”更正了复仇的程度,本来要花你5点,但现在只需要3点,

    然而,埃利希关于游戏玩家的一些假设和结论使他们的研究不可避免地与现实脱节。首先,合作的演变意味着一个重要的假设,即个体之间的博弈是完全无差别的。在真正的游戏中,玩家之间的绝对平等是不可能实现的。一方面,应对措施的实际力度存在差异。双方背叛时,可能不会各得1分,但强者得5分,弱者得0分。这样一来,弱者的报复就毫无意义了。另一方面,即使双方确实势均力敌,但一方可能有赌徒心态,认为自己更强,可以利用背叛的策略。埃利希 s计分矩阵忽略了这种情况,而正是这种赌徒的心态,导致了社会上大量的零和博弈。因此,程序可以在此基础上进一步完善。

    其次,埃利希认为,合作不需要期待和信任。这是他受到很多质疑的地方。对策根据对手先前的战术制定自己的战术,而合作则要求个人能够识别他们遇到的人并记住他们的互动历史以便做出反应,所有这些都暗示着“预期”的行为。在应对复杂的对抗环境时,信任可能是博弈双方合作不可或缺的环节。但是,期望和信任如何反映在计算机程序中仍然需要研究。

    最后,重复博弈在现实中很难完全实现。大量一次性博弈的存在导致了很多不合作的行为,而反制方在被对方出卖后往往没有机会或没有力量进行报复。例如,资本积累阶段的违约,国家之间的核威慑。在这种情况下,为了促成交易,防止不合作行为,社会必须用法律手段,以法律惩罚代替个人之间的“针锋相对”,规范社会行为。这是阿克塞尔罗德研究的机构学派的重要启示。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 《海贼王》中的囚徒困境:人是理性的

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论