[转帖]双赢思维的理论基础（博弈论的讨论）

会飞的猫 · 发表于 2006-12-12 12:08:49

　　　　　　　　　　　　　　双赢思维的理论基础（博弈论的讨论）

　　　　　　　　　　　　　　　　　　　合作的进化

　　北京天则经济研究所第139次双周学术讨论会由吴坚忠博士作主题发言，研讨了美国学者艾克斯罗德提出的《合作的进化》问题，艾克斯罗德通过对多人多次重复博弈的对策研究，指出在博弈中产生合作的必要条件和获胜策略的主要特征。当策略群体是按各种策略的得分进行淘汰和进化时，艾克斯罗德发现，群体以一种不可逆转的方式向合作的方向进化，也就是说，群体的合作性随进化过程越来越大。与会学者在主题发言之后展开了热烈的讨论。以下是这次学术讨论会的综合观点。

　
　　一、博弈中最优策略的产生

　　艾克斯罗德在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。

　　社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。

　　A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。

　　显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得5分。如果两人都选D，总体得2分。

　　对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。这个结果在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。

　　如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。

　　如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。

　　艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。

　　第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即"可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。

　　为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了62个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是：第一，"一报还一报"仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名里，只有第8名的哈灵顿程序是"不善良的"，后15名中，只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是"清晰性"，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。"一报还一报"就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。

　
　　二、合作的进行过程及规律

　　“一报还一报”的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群体中，这种合作者能否产生、发展、生存下去呢？群体是会向合作的方向进化，还是向不合作的方向进化？如果大家开始都不合作，能否在进化过程中产生合作？为了回答这些疑问，艾氏用生态学的原理来分析合作的进化过程。

　　假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，学习。比赛过程就是对策者相互学习的过程，"一报还一报"的策略好，有的人就愿意学。按这样的思路，艾氏设计了一个实验，假设63个对策者中，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高，而且是他的得分的正函数。这样，群体的结构就会在进化过程中改变，由此可以看出群体是向什么方向进化的。

　　实验结果很有趣。"一报还一报"原来在群体中占1/63，经过1000代的进化，结构稳定下来时，它占了24%。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，即原来前15名中唯一的那个"不善良的"哈灵顿程序，它的对策方案是，首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛。这个程序一开始发展很快，但等到除了"一报还一报"之外的其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。

　　进化实验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础是很牢固的，因为它让对方得到了高分。哈灵顿程序就不是这样，它得到高分时，对方必然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。

　　那么，在一个极端自私者所组成的不合作者的群体中，"一报还一报"能否生存呢？艾氏发现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的5%或更多成员是"一报还一报"的，这些合作者就能生存，而且，只要他们的得分超过群体的总平均分，这个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化的棘轮是不可逆转的，群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论，突破了"囚犯困境"的研究困境。

　　在研究中发现，合作的必要条件是：第一、关系要持续，一次性的或有限次的博弈中，对策者是没有合作动机的；第二、对对方的行为要做出回报，一个永远合作的对策者是不会有人跟他合作的。

　　那么，如何提高合作性呢？首先，要建立持久的关系，即使是爱情也需要建立婚姻契约以维持双方的合作。第二、要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，就没法回报他了。第三、要维持声誉，说要报复就一定要做到，人家才知道你是不好欺负的，才不敢不与你合作。第四、能够分步完成的对局不要一次完成，以维持长久关系，比如，贸易、谈判都要分步进行，以促使对方采取合作态度。第五、不要嫉妒人家的成功，"一报还一报"正是这样的典范。第六、不要首先背叛，以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报，对合作也要作出回报。第八、不要耍小聪明，占人家便宜。

　　艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件，即使是敌人，只要满足了关系持续，互相回报的条件，也有可能合作。比如，第一次世界大战期间，德英两军在战壕战中遇上了三个月的雨季，双方在这三个月中达成了默契，互相不攻击对方的粮车给养，到大反攻时再你死我活地打。这个例子说明，友谊不是合作的前提。第二、预见性也不是合作的前提，艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是，当有预见性的人类了解了合作的规律之后，合作进化的过程就会加快。这时，预见性是有用的，学习也是有用的。

　　当游戏中考虑到随机干扰，即对策者由于误会而开始互相背叛的情形时，吴坚忠博士经研究发现，以修正的"一报还一报"，即以一定的概率不报复对方的背叛，和"悔过的一报还一报"，即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强，"悔过的一报还一报"效果越好，"宽大的一报还一报"效果越差。

　
　　三、艾克斯罗德的贡献与局限性

　　艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境，达成合作，将这项研究带到了一个全新境界，他在数学上的证明无疑是十分雄辩和令人信服的，而且，他在计算机模拟中得出的一些结论是非常惊人的发现，比如，总分最高的人在每次博弈中都没有拿到最高分。

　　艾氏所发现的"一报还一报"策略，从社会学的角度可以看作是一种"互惠式利他"，这种行为的动机是个人私利，但它的结果是双方获利，并通过互惠式利他有可能覆盖了范围最广的社会生活，人们通过送礼及回报，形成了一种社会生活的秩序，这种秩序即使在多年隔绝，语言不通的人群之间也是最易理解的东西。比如，哥伦布登上美洲大陆时，与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为，比如无偿损赠，也通过某些间接方式，比如社会声誉的获得，得到了回报。研究这种行为，将对我们理解社会生活有很重要的意义。

　　囚徒困境扩展为多人博弈时，就体现了一个更广泛的问题──"社会悖论"，或"资源悖论"。人类共有的资源是有限的，当每个人都试图从有限的资源中多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞，都可以在社会悖论中得以解释，在这些问题中，关键是通过研究，制定游戏规则来控制每个人的行为。

　　艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应，"投桃报李"、"人不犯我，我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的，因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此，孔子在几千年前就说出了"以德报德，以直报怨"这样精彩的修正策略，所谓"直"，就是公正，以公正来回报对方的背叛，是一种修正了的"一报还一报"，修正的是报复的程度，本来会让你损失5分，现在只让你损失3分，从而以一种公正审判来结束代代相续的报复，形成文明。

　　但是，艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先，《合作的进化》一书暗含着一个重要的假定，即，个体之间的博弈是完全无差异的。现实的博弈中，对策者之间绝对的平等是不可能达到的。一方面，对策者在实际的实力上有差异，双方互相背叛时，可能不是各得1分，而是强者得5分，弱者得0分，这样，弱者的报复就毫无意义。另一方面，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形，而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此，程序还可以在此基础上进一步改进。

　　其次，艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术，合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史，以便作出反应，这些都暗含着"预期"行为。在应付复杂的对策环境时，信任可能是对局双方达成合作的必不可少的环节。但是，预期与信任如何在计算机的程序中体现出来，仍是需要研究的。

　　最后，重复博弈在现实中是很难完全实现的。一次性博弈的大量存在，引发了很多不合作的行为，而且，对策的一方在遭到对方背叛之后，往往没有机会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间的核威慑。在这些情况下，社会要使交易能够进行，并且防止不合作行为，必须通过法制手段，以法律的惩罚代替个人之间的"一报还一报"，规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。

会飞的猫 · 发表于 2006-12-12 12:09:02

美丽的心灵

　　学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例——囚徒困境，非常耐人回味。

　　----“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙（即与警察合作，从而背叛他的同伙），或者保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

　　----那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

　　----当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。

　　----但是，无论在自然界还是在人类社会，“合作”都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？

　　----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一场计算机竞赛。这个竞赛的思路非常简单：任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后他们的程序会被成双成对地融入不同的组合。分好组以后，参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择。

　　----但这里与“囚徒困境”案例中有个不同之处：他们不只玩一遍这个游戏，而是一遍一遍地玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”，它更逼真地反映了具有经常而长期性的人际关系。而且，这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次，则双方就建立了各自的历史档案，用以记录与对手的交往情况。同时，它们各自也通过多次的交手树立了或好或差的声誉。虽然如此，对方的程序下一步将会如何举动却仍然极难确定。实际上，这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗？或者，它能总是采取背叛行动吗？它是否应该对对手的举动回之以更为复杂的举措？如果是，那会是怎么样的举措呢？

　　----事实上，竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报（TIT FOR TAT）。这是多伦多大学心理学家阿纳托·拉帕波特提交上来的策略。一报还一报的策略是这样的：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略。也就是说，一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方，从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是“强硬的”。而且，它的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是“简单明了的”。

　　----当然，因为只有为数不多程序参与了竞赛，一报还一报策略的胜利也许只是一种侥幸。但是，在上交的14个程序中，有8个是“善意的”，它们永远不会首先背叛。而且这些善意的程序都轻易就赢了6个非善意的程序。为了决出一个结果来，爱克斯罗德又举行了第二轮竞赛，特别邀请了更多的人，看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛，结果是一报还一报又一次夺魁。竞赛的结论是无可争议的。好人，或更确切地说，具备以下特点的人，将总会是赢家。

　　---- 1．善意的； 2．宽容的； 3．强硬的； 4．简单明了的。

　　----一报还一报策略的胜利对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作进化》一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的“自己活，也让他人活”的原则。当时前线战壕里的军队约束自己不开枪杀伤人，只要对方也这么做。使这个原则能够实行的原因是，双方军队都已陷入困境数月，这给了他们相互适应的机会。

　　----一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多：真菌从地下的石头中汲取养分，为海藻提供了食物，而海藻反过来又为真菌提供了光合作用；金蚁合欢树为一种蚂蚁提供了食物，而这种蚂蚁反过来又保护了该树；无花果树的花是黄蜂的食物，而黄蜂反过来又为无花果树传授花粉，将树种撒向四处。

　　----更广泛地说，共同演化会使一报还一报的合作风格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。那么，只要这些个体能互相遇见，足够在今后的相逢中形成利害关系，他们就会开始形成小型的合作关系。一旦发生了这种情况，他们就能远胜于他们周围的那些背后藏刀的类型。这样，参与合作的人数就会增多。很快，一报还一报式的合作就会最终占上风。而一旦建立了这种机制，相互合作的个体就能生存下去。如果不太合作的类型想侵犯和利用他们的善意，一报还一报政策强硬的一面就会狠狠地惩罚他们，让他们无法扩散影响。

　　----现在，对博弈论的研究是如此地广泛，以致于有些人说最新的经济学和管理科学都已经利用博弈论的理论和工具重写过了。博弈论中有很多有趣而富于哲理的案例，一报还一报就是其中的一个。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式都有很大的指导意义。

　　博弈论是对策论的一个应用或延伸，最早来源于数学，比较著名的人物是获得诺贝尔经济学奖的数学家——纳什，《美丽心灵》就是根据他的生平改编的，一生曲折而又坎坷！下面简要讲述一下这位传奇人物的生平：

　　他的教授在他的推荐信中写道：“此人是天才”，这是教授所写的最短的推荐信！

　　爱因斯坦说只有自己在头脑非常清晰的时候才能理解纳什的内容，甚至希望他去学一些物理。

　　他甚至完成了证明论文“上帝是存在的”。

　　他患上了妄想性的精神分裂症，倍受摧残式的医疗，包括化疗、电疗、各种药物、囚禁式的看管等等

　　他一生孤独，没有朋友、亲人，他与人类几乎格格不入。

　　他的唯一儿子也是天才，也是数学家，也，同样是精神分裂者，现在仍然在折磨之中。

　　94年为了表彰他的《对策论》对经济学几十年深刻影响，诺贝尔评委会没受任何其他影响，毅然授予他诺贝尔经济学奖！

　　纳什佝偻着身躯，白发苍苍走进咖啡厅，所有的教授默默的走来，将他们的钢笔放在纳什面前的桌子上，这是学者对学者最尊敬的礼节，纳什说：“我那时真的头一次感觉到不被人当怪物来看待的感觉，被当作一个人，真好”，是的，他成了一个被大家接受的人，一个受人尊敬的人。

　　但是他的心灵是天真而又善良的，即使是受尽心灵的折磨

　　令人心碎的影片——《美丽的心灵》也获得美国74届奥斯卡8项提名和4项大奖，同年他74岁。

会飞的猫 · 发表于 2006-12-12 12:09:15

囚徒困境中的人类理性与道德

“囚徒困境” ，也许是博弈论中最著名的案例吧。

　　据说，到1975年为止已有2000多篇论文对其进行了深入的研究。两名当事人从各自的理性出发，结果却导致了非最大化的“纳什均衡”。这一事实对经济学的意义在于：它使现代经济理论的逻辑起点“理性人”和“最大化”假设面临空前的挑战，因为在“纳什均衡”中它们是绝对不相容的。

　　美国计算机专家爱克塞罗德（Robdr Axelrod）组织了一次针对“囚徒困境”的计算机程序设计比赛，比赛规则是根据“囚徒困境”中的前提设定的：互相合作，各得3分；互相背叛，各罚1分；欺骗（对方合作，自己背叛），得5分；被骗（对方背叛，自己合作），罚10分；经过一定回合的博弈后，以得分高低作为程序优劣的评判标准。爱克塞罗德先后收到14份参赛程序，为了便于评出等级，他又自己设计了一份“随机策略”程序。所谓“随机策略”即没有策略的“策略”，也就是随意地表示“合作”或“背叛”。他的意图是用此程序作为底线——如果有哪个得分低于它，那么肯定是非常蹩脚的。爱克塞罗德把15种竞赛程序输入一台大型电脑并让它们一一对垒，总共有225（15×15）场不同的比赛，每场比赛玩过200个回合后对结果进行统计，公布胜利者。比赛结果十分出人意料，那些以“纳什均衡”为设计主线的程序，用爱克塞罗德的话说，即以欺骗和背叛为主要得分手段的“恶”的程序并没有取得预想中的高分，得分较高的反而是那些采取合作行为的“善良”程序。而得分最高的是所有策略中最简单的，一个被爱克塞罗德称作“针锋相对”的程序，它是由加拿大多伦多大学著名心理学家拉波波特设计的。这个程序的特点是：对任一对手初次交锋均采取合作的态度，以后无论对手怎么走，均采取对手前一步的做法，即对方合作，则合作；如果对方欺骗了自己，一定要报复一次；而一旦报复过一次之后，则重新采取合作行为而不“怀恨在心”。赛后，爱克塞罗德总结出两个必赢的要素是“善良”和“宽恕”。这是一个听起来近乎乌托邦的结论，但它却是真实的。因为同时参赛的程序中有一个与“针锋相对”非常接近，所不同的只是一旦它被对手欺骗过一次后就决不宽恕，如再次与同一个对手相遇，将永远以“背叛”待之。结果这个程序的得分远远低于能够宽恕的“针锋相对”。为了进一步证实自己的判断，爱克塞罗德甚至根据“针锋相对”设计了一个名为“两怨还一报”的程序，即只有在遭受两次欺骗后才给对手一次警示性的报复，然后仍然恢复与对手的合作。加入新程序后的比赛结果显示，“两怨还一报”赢得了最终胜利。

　　后来，爱克塞罗德又组织第二届比赛。每一位报名参赛的选手都收到了第一届比赛的成绩，并附有爱克赛罗德亲自撰写的分析，说明为什么“善良”及“宽恕”的策略会表现得如此优秀。确实有许多人根据推论送来了“善良”和“宽恕’的程序，有人甚至送来了“两怨还一报”的超级宽恕程序。但更多的人则采取了“狡猾”和“凶恶”的策略，他们的推论是，大部分人在读了爱克赛罗德的资料后会表现出“善良”与“宽恕”，而他们正好有机可趁。这次，爱克赛罗德总共收到62件参赛作品，他也同样地加上随机策略，把63个程序输入电脑。与上届比赛不同的是，这次比赛加入了一个新的规则，用于模拟生态环境中生物演化的过程。爱克赛罗德把某个程序在比赛中的得分看作“适应性”的度量，并以此决定该程序下一次比赛出场的次数。这样，随着一代代竞赛的推进，赛手们参赛的“生存环境”也在不断改变。比赛结果，由拉波波特设计的“针锋相对”再次显示了它异乎寻常的适应能力，它所占的比例不但遥遥领先，增长率也是最快的。而且，“善良”的策略表现出整体的优越性，前15名中只有一个是不“善良”的，而后15名中只有一个是不“狡猾”的。不过，“两怨还一报”策略这次却没有赢得胜利。爱克塞罗德事后分析说，它的失败是因为这次入围的程序中有更多细腻而诡诈的策略，能够无情地捕杀那些极度“善良”（并且几乎到了蠢笨程度）的人。从整个比赛过程看，有些程序一开始就消失了，其余大部分都是在200代之内消失的。在“诡诈”型的程序中，有一两个在开始时有所增加，但是它们的繁盛是很短命的。有一个命名为“赫灵顿”（Harrington）的，是唯一繁衍超过200代的“诡诈”型程序。它的“后代”在150代时增长得非常迅速，但随后就逐步走向衰退，在1000代时趋于消亡。爱克赛罗德的分析表明，“赫灵顿”暂时成功的原因，在于它专门捕杀那些在它周围的，有如“两怨还一报”（性格太宽恕）这样的“傻瓜”。但当这些“傻瓜”绝迹之后，由于再也没有它容易捕食的对象，“赫灵顿”自己也跟着消亡了。这些空出来的地盘就让位给那些虽然“善良”、但却毫不“怯弱”的，象“针锋相对”那样的竞赛策略了。爱克塞罗德对此总结说：“要是你打算过得好些，那么最好是让别人过得和你一样或者更强些。……对方的成功实际上是你自己过得更好的前提。”不过，我想爱克赛罗德肯定忘了加上一句：“对待恶人，决不姑息养奸。”（关于这次实验的详细材料，有兴趣的朋友可以参阅吉林人民出版社最近出版的英国著名生物学家里查德·道金斯的名著《自私的基因》一书。）

　　爱克赛罗德的经典实验带给我们的启迪是深刻和丰富的。所有已经知晓或刚刚知晓这场实验的人，都会对爱克赛罗德抱有深深的谢意，因为他所拯救的不仅仅是经济学，还有人类的道德信仰。

tiramisu83 · 发表于 2006-12-12 15:18:28

今天是我这一个月以来最开心的一天

每天进步一点点，每天愉悦一点点。
每天３０分钟，快乐的为思想加油。

爱上会飞的猫

会飞的猫 · 发表于 2006-12-12 15:44:10

兄台不会这么夸张吧。

难到世之传奇《老鼠爱上猫》今天在栖息谷历史重演了吗？^O^

[此贴子已经被作者于2006-12-12 15:44:35编辑过]

会飞的猫 · 发表于 2006-12-12 15:52:43

相关文章的链接：http://www.21manager.com/dispbbs.asp?n=147,98016,0,0,0,0,0,0

9m · 发表于 2006-12-13 09:52:07

呵呵，一报还一报，公平公正的思维方式，我赞成。

可惜在工作当中，打工者仍然是弱势的，不能因为薪资不公平而懈怠工作，那样的后果是丢掉工作

[em13]

[转帖]双赢思维的理论基础（博弈论的讨论）

使用高级回帖 (可批量传图、插入视频等)快速回复