博弈的最佳策略是「一報還一報」

06-10

——《互聯網時代的世界觀·關係宇宙》導讀之七十九

由陸天然、葉舟、胡均亮合著、國務院研究室中國言實出版社出版發行的《互聯網時代方法論叢書》第一卷《互聯網時代的世界觀·關係宇宙》一書科學地論證了博弈的最佳策略是「一報還一報」。

生活中的「一報還一報」合作策略

什麼是「一報還一報」策略？

即「人不犯我，我不犯人，人若犯我，我必犯人」。為了進一步理解「一報還一報」策略，在此不妨首先看看三個小故事：

故事一：

一次，張作霖逛街正自得其樂，突然聽到一聲吆喝，嚇得他打了個哆嗦，回頭一看，原來是個賣豆腐腦的，挑著擔子正從小巷裡走出來。張大帥大怒：「給我抓起來！」賣豆腐腦的莫名其妙地被一直拉進大帥府。「我要槍斃他！」張作霖說著，把小販一直拖到操場上。只聽「砰」的一聲槍響，小販即癱軟在地。不一會兒，只見小販蠕動著身子，爬了起來。奇怪，身體絲毫無傷。這時，張作霖得意地說：「剛才你嚇我一跳，現在我嚇你一死。」

故事二：

上世紀初，張作霖所屬的東北軍有兩名士兵無故被日本查道兵打死了，事後日方賠給士兵家屬每戶120元。張作霖對此十分憤怒，下令東北軍：「碰到日本查道兵就打，我也有錢。」東北軍得令後，很快打死了12個日兵，惹得日本駐瀋陽領事跑去找張作霖，提出抗議，要求：一、懲凶；二、道歉；三、賠償；四、保證不再有類似事件發生。結果，張作霖這樣回復：一、「鬍子」殺了人跑了，既捉不到，自難嚴懲；二、不是東北軍乾的事，為什麼要我道歉；三、東北「鬍子」很多，無法保證以後不再發生，四、賠償可辦到，依日本兵打死東北軍一人賠120元賠償。日本領事聞言無可奈何，此事只好不了了之。

故事三：

一個麵包師每天從他一位農民鄰居那兒購買黃油。有一天，他覺得本應該是3磅重一包的黃油似乎太輕了點。

於是他開始定期地稱一稱黃油，發現每回都是分量不足，這等於他每次都多付了錢。

他特別生氣，便開始提起訴訟。這一來事情就鬧到了法官面前。

「您沒有天平嗎？」法官問農民。

「有哇，法官先生，我有一架天平。」農民回答道。

「有很準的砝碼嗎？」

「沒有，法官先生，我不需要砝碼。」

「沒有砝碼，那你怎麼稱黃油呢？」

「這好辦，」農民回答說，「你瞧，就在麵包師從我這兒買黃油的那段時間，我也一直買他的麵包。我總是要同樣重的麵包。每次這些麵包就作為稱黃油的砝碼。如果砝碼不準，那就不是我的過錯，而是他的過錯了。

於是，法官判定農民無罪，而麵包師不得不承擔訴訟的費用。

很顯然，誰都不是傻瓜。我們怎樣對待世界，世界就會同樣對待我們；我們怎樣對待周圍的人，周圍的人也會同樣對待我們。把自己最好的東西給別人，就會從別人那裡獲得最好的東西。幫助別人越多，得到也會越多；愈吝嗇就愈會一無所有。

再接著講上文圖書訂貨商的故事分析：

劉收到了訂貨商的錢而未發貨，是劉首先選擇了背叛，那麼，別人很快便不敢再交錢給劉了，不敢再跟劉往下合作下去了。劉因為第一輪先採取背叛，很快被首先淘汰出局了。

這就是最典型的——一報還一報合作策略。

劉如果選擇合作——對方也會選擇繼續合作。

劉如果選擇背叛——對方也會選擇直接背叛。

其實，「一報還一報策略」在社會生活中最為常見：

我讚美你，你立即報以笑臉；我過年送了一筐蘋果給你，你「五一」送一箱「王老吉」給我；我給你撓背，你也給我洗頭，等等，諸如此類的事都是最常見的一報還一報。

那麼，「一報還一報」合作策略究竟是聰明的策略還是愚蠢的策略？究竟會給自己帶來什麼呢？

「一報還一報」為什麼會勝利？

合作是人類最有利的生存方式，多數人都相信這一結論。但多數人是否選擇合作，卻不一定，因為人們對他人是否合作心存疑慮。

有一個著名的假設：囚徒困境。

「囚徒困境」是1950年美國蘭德公司提出的博弈論模型。兩個共謀犯罪的人被關入監獄，不能互相溝通情況。如果兩個人都不揭發對方，則由於證據不確定，每個人都坐牢一年；若一人揭發，而另一人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄5年；若互相揭發，則因證據確實，二者都判刑3年。由於囚徒無法信任對方，因此傾向於互相揭發，而不是同守沉默。

囚徒困境講述的就是在信息不對稱的前提下，人與人合作與背叛選擇中利益最大化的思維模擬。

C（合作）D（背叛）

C（合作）甲=3，乙=3甲=0，乙=5

D（背叛）甲=5，乙=0甲=1，乙=1

從上圖可知，甲乙雙方都選擇合作，收益為6，任何一方背叛，總收益為5，雙方都選擇背叛，總收益為2。

以此來看，合作會比背叛有利多了。問題在於，兩個囚徒真的會作出對雙方有利的選擇而不是只顧自己嗎？現實中的囚徒，常常彼此揭發，願意選擇合作、共守秘密的反倒是極少數。

因此，有人認為，雖然合作與信任是人類社會得以存在和發展的基礎，但它們總會被自私所侵蝕。霍布斯甚至得出一個極悲觀的結論：無論人與人還是國與國的關係，隨著資源稀缺的加劇，都會變得更接近狼與狼的關係。

但我們看到，現代社會雖說資源危機深重，終究沒有淪為原始叢林，有合作善意的人群還沒有滅絕，人與人之間的溫情和信任也沒有消失——自私和剋制自私，似乎同樣屬於人類本能。人類之所以不會墮落為狼群，可能是因為，人類掌握了一個簡單的「法寶」：一報還一報。

為了驗證這一推測，同時也是為了探索合作中不同策略的規律，美國密歇根大學政治學家羅伯特·阿克塞爾羅德想出了一個聰明的辦法。他向當時博弈論專家們發出了廣告邀請，讓有興趣參賽的博弈論專家和一些社會學家，各自設計一種自認為最好的博弈策略，來參加他的「博弈策略」比賽。

第一次實驗中，他收到14個「策略參賽者」比賽。加上自己的第15個策略程度「隨機策略」，也就是沒有策略的策略，隨機地出「合作」或「背叛」牌。如果前面14個策略在比賽中比隨機策略得分還低，那就證明那個策略設計十分可悲和難堪。

15個策略，共進行了225輪相互「比賽」，每場「比賽」都玩到了200個回合。由於參賽者都是當世博弈論專家，故有些參賽程序看起來設計得非常聰明，但比賽結果卻令人出乎預料。

冠軍策略居然是——一報還一報。

此策略是加拿大多倫多大學著名博弈論心理學家拉波波特教授提供。一報還一報策略非常簡單：第一回合採取合作，然後再一回合都重複對手上一回合的策略。

令人跌破眼鏡的是，在15個參賽策略中，最失敗的居然是那個設計最複雜的策略。

「一報還一報」為什麼會贏？

因為當遇到合作者時，他永遠採取合作，故針對合作者來說，其得分也最高。當遇到狡詐者背叛者時，你怎麼來，我也怎麼對付你，因此，也差不到哪裡去。由此「一此還一報」得出：

一是——一開始採取合作姿態——善良；

二是——不首先背叛——講原則；

三是——對背叛者予以背叛懲罰——正義；

四是——當背叛者改正後我也不再背叛——寬恕；

五是——對合作者的高分不嫉妒——平衡。

由「一報還一報」的勝利，同樣也可推導出是人性的光輝的勝利，如善良、光明正大、講原則、講誠信，能理解別人的成功，能分享別人的成功，能包容寬恕別人等，這都是人性中最美好的部分。

阿克塞爾多德組織了第一屆博弈策略競賽之後不久，又召開了第二屆比賽。

這次，阿克塞爾羅德共收到62套策略程度，加上他「沒有策略的策略」即「隨機策略」，共63套策略參賽。

而且，主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設計的所有人。比賽結果很快又出來了，依然還是拉波波特的「一報還一報」策略再度獲勝。而且，善良策略普遍表現得比狡詐的策略好。在前15名中，只有一個不是善良策略，在後15名中只有一個不是「狡詐」策略。

不過，著名生物學家演化博弈論的奠基人之一史密斯設計「兩怨還一報」的「超級寬恕——好好先生」策略居然被狡詐的策略「群狼」所「擊敗」。

正因為如此，阿克塞爾羅德又進行了一輪比賽。他沒有徵集新的策略，而是在改變電腦程序後，讓第二屆所有參賽策略再進行比寒。他想找出史密斯的「演化穩定策略」。

第三屆比賽結果表明：幾乎所有」詭詐型「策略都在200代左右完全消失了。「一報還一報」仍表現得很出色。其他五種「善良而勇敢」、「善良而精明」、「善良聰明堅定」等策略也獲得了同樣的成功。

對於這一演化博弈結果，生物學家道金斯（名著《自私基因》的作者）不無感慨地歸納道：即使有自私的基因掌權控制，好人仍能得到好報！

三次比賽總結出「一報還一報」勝利原因如下：

勝利原因之一——本性善良（第一步合作）；

勝利原因之二——正義（對醜惡立即反擊）；

勝利原因之三——寬恕（你改正後我仍合作）；

勝利原因之四——誠信（我自己不首先背叛）；

勝利原因之五——平衡（不嫉妒強者）；

勝利總原因是——大愛是唯一的指引。

從以上三次比賽中，我們還可以得出：

關係穩定進化，是每個人都希望追求的結果。因為每個人的財富名譽地位，都得建立在穩定的關係進化上；因為每個人的快樂幸福自由，都得依靠穩定的關係進化。

人與人之間有了許多相處策略，唯有採取合作，採取大愛才是最佳的選擇，才會使彼此共生共享共贏。否則，就會存在潛在的風險，相互在背叛中折磨。

「一報還一報」的六種優良特徵

如何運用「一報還一報」策略？其特徵是什麼？

下文引用一位專家的文章：

「一報還一報」策略，在國內大部分人都理解為「以其人之道，還治其人之身」、「以牙還牙」等，但這些詞語都是貶義詞，就有誤解「一報還一報」策略的意義。因此，有必要說明「一報還一報」策略的真正含義。「一報還一報」的策略很簡單，就是首先第一步選擇合作，其後的每一步都選擇跟對方上一步相同的策略。但是「一報還一報」策略卻具有一般策略所不具有的優點。

阿克塞爾羅德給出了「一報還一報」策略6種優良特徵：

一是具有善良性，它不首先背叛。在計算機競賽中，凡是善良的規則之間相處得很好，也就是能得到較高收益。只要對方不背叛，每個善良的規則一定是持續合作直到最後一步。

二是具有寬容性。就是別人只背叛一次，「一報還一報」只報復別人的一次。而那些不太寬容的規則有可能會在報復別人的同時，也是在自我報復，故而在計算機競賽中這些不太寬容的規則收益也較低。因為，「一旦一方的背叛誘發一長串的報復和反報復，雙方都要吃虧。」這是人們考慮「反射效應」不深入的緣故。一般的人都會想第一層次，「即選擇的直接效果，那就是背叛比合作來得收益高。第二層次是選擇的間接效果，即考慮對方是否會出發自己的背叛。但是第三層次就很少有人考慮了，即為了反應對方的背叛行為，有人就會重複甚至擴大自己以前的挑釁性選擇。一個孤立的背叛變成了一連串無休止的報復。」

三是具有韌性。就是「一報還一報」策略不僅能夠跟那些不太善良的策略相處而得到較高的收益，而且也能夠跟那些善良的策略相處而得到較高的收益，這就表明它在很大的環境中表現極佳。

四是策略具有明晰性，在使用「一報還一報」策略時，別人能夠很快識別出你的策略。

五是不佔他人便宜。從兩次競賽的結果，「一報還一報」策略並不比其他的策略的收益高多少。因為，試圖佔便宜可以引起如下的風險：一種是如果一個策略用背叛試探是否可以佔便宜，它就得冒被那些可激怒的規則報復的風險；另一種是雙方反擊一旦開始，就難以擺脫僵局；第三種是放棄了其他的一些合作機會。

六是報復性，而且是即刻報復。在某些情況下，即刻報複比等一段時間才報復是有好處的，因為即刻報復，可以讓對方知道背叛是會受到立即懲罰的。

那麼既然「一報還一報」策略自身有如此多的優點，但也還有一個缺點，那就是報復性可以形成惡性循環。比如對方由於一次疏忽而選擇了背叛，那麼「一報還一報」策略也就是背叛，這樣對方可能又會選擇背叛，於是就有可能形成了惡性循環。

雖然有形成惡性循環的可能性，但是「一報還一報」策略還是一個善良的策略。（作者/《互聯網時代方法論叢書》主編、中國互聯網方法論課題研究中心主任）