社會如此險惡，正直誠實的人是不是會吃虧？看看大量數據模擬揭示的真相

02-04

本文是90天能力提升專欄的第10篇原創文章，人格魅力的第一模塊。

BTW：我寫的順序是並不是一項一項能力展開，而是按照最早的思維導圖中各模塊的時間順序——紅色部分在最前邊。

好吧，我知道你們其實戳進來就是想直接看答案的，在以下3句話的背景介紹後就揭曉答案：

1. 谷歌的座右銘「不作惡」大家都知道，以前在寶潔工作時，公司文化也非常強調「正直誠實」。其實我自己一直也有些許困惑，正直誠實的「好人」在規範的大企業能夠成功，但如果是在一個不太成熟的環境、存在不少比較「陰險」的人的時候又會怎麼樣？

2. 阿克塞爾羅德（Rboert Axelord，以下簡稱德哥）是密歇根大學政治學與公共政策教授，美國科學院院士，著名的行為分析及博弈論專家。他設計了一個博弈論實驗，邀請眾多博弈論專家設計不同的策略，然後用計算機模擬各種策略相互交鋒並計算總分，找到了所有策略中成績最好的。

3. 模擬總共進行了三輪，第一輪的結果讓組織者大跌眼鏡，於是把結果通知所有參賽者，給他們機會完善自己的策略。第二輪結果依舊。第三輪為了排除固定的策略組成本身的主觀偏差，又利用了進化演算法，模擬哪種策略更能在相互博弈中繁榮昌盛，就像多年以來生物的演化一樣。

最後塵埃落定，三輪模擬的結果都揭示了一個不爭的事實，最成功策略其實人人都會，也並不複雜，就是三個詞：「善良、寬容、不嫉妒」。有人可能要說，開始聞到雞湯的味道了。我寬容的表示不在乎。看看以上的實驗過程吧，即使這是雞湯，也是讓最優秀的雞全面PK之後擇優燉出的最有營養的雞湯了。

長假剛過，現在我們一起來燒燒腦。下邊對實驗模擬的介紹引自《自私的基因》（中信出版社，第二版第十二章）。雖然翻譯很生硬，但不妨礙這是一本非常好的書，強烈建議我的讀者都去看一看。

首先，介紹一下這個博弈論的遊戲的原型

遊戲雙方各有兩張牌，分別是「合作」和「背叛」。主持人（一個銀行家）制定了這樣的規則：兩名玩家同時選定自己要出什麼牌，扣在桌子上——雙方都不知道對方要打什麼牌。銀行家檢查雙方的出牌：

1. 如果兩人都選擇「合作」這張牌，銀行家會獎勵雙方各300元——這就是俗說的「雙贏」

2. 如果兩人都選擇「背叛」這張牌，銀行家會罰雙方各10元——雙輸

3. 如果一人打出「合作」，一人選擇「背叛」，選擇「合作」的人會被罰100元（好人被欺騙會損失慘重），而打出「背叛」的人可以得到500元——要不要利用他人的「善良」從而讓自己賺取更多？

從參與遊戲的雙方的角度看，都能得到以下矩陣：

對「我」來說，如果對手選擇「合作」，我選「背叛」比「合作」的收益多200元；如果對手選擇「背叛」，我選擇「背叛」比「合作」可以少損失90元。What，怎麼看來看去都是背叛更划算？人間還有真情在吧，對家如果想「合作」呢，我們一起合作掙錢不是更好？但是等一下，對方此刻一定也看著同一個矩陣，他是不是在想「不論對方出什麼，似乎我都應該選』背叛』」。一個黑暗森林就這麼形成了，除非我們能確認對方是「好人」，否則只能假定對方會「背叛」，因此我們都應該選擇「背叛」這張牌減少損失。這也是在一個沒有信用體系的社會裡交易成本極高的原因。

企業內訓在做這個遊戲時會更複雜

首先一般每一方都是一個團隊，而不是一個人。另外遊戲會做多輪，而非僅僅一輪。在遊戲進行中，雙方還可以派出代表相互溝通。這些措施都更加揭示出人性的多疑和多變：

- 團隊內部往往為了該不該在第一輪就打出「合作」爭執不下；

- 在「合作」幾輪後，要不要來一個「背叛」也常常是熱點話題；

- 在雙方經歷連續的「背叛」之後，大家都在溝通中呼籲下一輪一起「合作」吧，但真到了出牌時，要不要相信對手就成了一個大問題；

- 即使前邊X輪雙方都合作無間，但到了最後一輪的時候，要不要「背叛」一下以便贏得自己的對手？

……

以上企業培訓的參與者，還經常是同一家公司的同事，人和人之間基本的信任呢？

以上是原型介紹。為了探索是否存在一種「最佳」方案，德哥設計了一個實驗。他向很多著名的博弈論專家發出邀請，請他們設計一個自認為「最佳」的策略。策略是一套既定的出牌規則，這樣就可以用計算機模擬不同策略相互PK的結果（用計算機速度更快，而且在策略確定的情況下，結果和用人做沒有區別）。

第一輪

德哥一共收到14個策略，他自己再加上一個「隨機」策略作為基準線——這個策略只是隨機打出「合作」或者「背叛」，如果哪個策略比「隨機」還差，那可就真是太差了。

每個策略輪流與所有15個策略（包括自己）一一PK，總共的排列組合是15×15=225種。

每次PK包括200個回合，每個回合中，策略都會回顧雙方出牌記錄，然後按照自己的既定規則出牌。

每次PK的分數設置如下。

理論上一種策略能得到的最高分是5分×200回合×15個對手，共15000分，最低分是0分。當然這兩種極端的情況都沒有出現。

如果有兩個策略在200回合中都保持「合作」，他們將分別得到600分。實際上這也是非常難得的，於是德哥把一個回合600分設為基準，其他的結果表示為基準的一個百分比。事實上沒有任何一個策略真的達到600分——「背叛」總是存在的。

最終得分最高的策略來自一位加拿大的著名的心理學家和博弈論學家阿那托爾（Anatol Papoport）教授。這是所有策略里看起來最「不聰明」的一個，名字叫「針鋒相對」。這個策略在第一回合採取「合作」態度，之後每一回嚴格地合複製對手上一輪的出牌。就是這麼簡單，簡單到不用解釋。

如果「針鋒相對」和自己PK，很顯然雙方會打出基準分600分，皆大歡喜。

假設「針鋒相對」這個策略稍微變「壞」一點點，每10個回合中隨機的打一次「背叛」，試圖獲取一次5分，結果會怎麼樣？這個新的策略叫做「老實人探測器」，像不像生活中一些沒膽子做壞人，但一有機會時就想佔個便宜的人？

當「老實人探測器」PK「針鋒相對」時，雙方會打出一段時間的友好合作。忽然，「老實人探測器」打出一個背叛，這一回合得5份，「針鋒相對」得0分。那麼在下一個回合，「針鋒相對」開始報復，出一個「背叛」，「老實人探測器」會複製上一輪對方的出牌，也就是「合作」，「針鋒相對」得5分，「老實人探測器」0分。這一對決繼續下去，就是雙方分別得0分-5分-0分-5分的交替進行，平均每個回合2.5分。

所以只要「變壞」一點，成績也就「變壞」了。如果兩個「老實人探測器」左右互搏，只會讓這種「冤冤相報」開始的更早，從而雙方得到的總分更低。

德哥在第一輪實驗後給15個策略歸類，除去1個隨機外，有8個策略是不會主動「背叛」的，這些被歸為「好人」策略，「針鋒相對」就是其中的一個；剩下6個會主動「背叛」，屬於「壞人」策略。令人吃驚的是，實驗中總分排名前8位的，就是這8個「好人」的策略。

更令人吃驚的是，「針鋒相對」平均每回合得分504.5，是基準的84%。其它「好人」策略得分在83.4%-78.6%不等，相互比較接近。而「壞人」策略中的最高分只有66.8%，比「好人」策略中的最低分還低了將近12個百分點。所以德哥總結出，這一場廣泛而持久的博弈中，「善良」是勝出的首要因素。

德哥總結的另一個關鍵詞是「寬容」。寬容意味著對壞事情只有短期的記憶，雖然也會報復，但不會一直報復下去，會適時Let it go。比如「針鋒相對」就是一個寬容的策略。

相反的，有一個策略叫「斤斤計較」，由一位叫弗利德曼的選手提供，屬於一個「好人」但不「寬容」的策略，一旦開始報復（打出「背叛」）就會一直報復到底。這個策略的得分只在所有8個「好人」策略里排倒數第二。

我們可以虛擬一個更「寬容」的策略「兩報還一報」，在對手連續背叛兩次後才開始報復。這個策略不在最初的15個策略之內，但德哥做了模擬，結果顯示如果他參與PK，最後得分甚至會高於「針鋒相對」獲得冠軍——因為他可以避免持續的相互報復。

所以最終獲勝的關鍵是「善良」加「寬容」。但這一結論太令人難以置信了，太烏托邦了。很多專家其實都是嘗試不擇手段的，他們在「壞人」策略里耍花招，試圖得更高的分數的，而且良心不會痛。即使是那些提交了「好人」策略的專家們，也沒有人敢像「針鋒相對」那麼寬容。大家都對這一結論十分驚訝。

第二輪

於是德哥開展了第二輪實驗。他把第一次實驗的結果通知了所有參賽者，讓他們有機會完善自己的策略。而且比賽不再固定為200輪，而是有一個隨機的長度，更加難以預測。

這一次他收到了62個策略，加上隨機一共是63個。

德哥還告知了參賽者他對「針鋒相對」之所以獲勝的分析，參賽者的思路明顯分成兩派：

一派認為已經有足夠的證據證明「好人」及「寬容」是關鍵，於是提交了類似的策略，有一位參賽者甚至提交了一個「三報還一報」策略。

另一派則認為，既然對手很多都有可能提交「好人」策略，好人這麼多，我應該針對性的設計「壞人」策略，可以占更多便宜。

好吧。事實再一次打臉了後者。這一次「好人」依然獲勝，「針鋒相對」繼續保持第一，前15名的策略中只有1個是「壞人」策略。而墊底的15名中只有一個是「好人」策略。

值得一提的是，「兩報還一報」在這一次成績不佳，因為有更多地「壞人」策略更善於偽裝自己。這個故事告訴我們要做「好人」，但決不能做「濫好人」。

第三輪

德哥開始借鑒生物學的「進化策略」改善競賽。因為前兩輪都是「循環賽」形式，獲勝的策略是比其他所有都「強」的一個，但「其他人」的組合是不變的，是人創造出來的，來的有些主觀。比如第一輪中，如果「好人」策略不是有8個，而是只有「針鋒相對」1個，很可能「針鋒相對」也無法成功，因為「壞人」太多了，「環境」太差了。「兩報換一報」在第一輪甚至能戰勝「針鋒相對」，但第二輪成績就很慘淡，因為「壞人」變強了。

那麼如何減少初始策略的主觀性干擾呢？答案是「進化論」。德哥直接用了第二輪的63種策略作為初始，每個獲勝的策略不再獲得分數，而是可以獲得一個「後代」加入總的策略池。於是策略池就像是一個小的社會，其中各種策略的組合和數量不再是一成不變的，因此每個策略在每一輪面臨的對手的組合都是變化的。

新世界開始運轉，最終在經歷了1000代之後，這個「社會」的中的組成不再變化，進化的穩定狀態已經形成了。

這一過程中，一些策略在一開始就「滅絕」了。為數不多的一兩個「壞人」策略在一開始蓬勃發展，但絕大多數「壞人」都在200代之內消失了。唯一一個活過200代的「壞人」策略叫哈靈頓（Harrington），它的數量在前150代直線上升，然後逐漸減少，在1000代之後絕跡。前期它能成功就在於「社會」中還有不少過於寬容的「老實人」，它可以靠欺騙和欺負老實人生存。但當「老實人「逐漸減少後，他也就沒有生存的基礎了。

第三輪做了6次模擬，「針鋒相對」有5次奪得第一。另外5個「好人」但容易報復的策略成績幾乎與「針鋒相對」一樣好。當所有「壞人」都滅絕之後，他們之間的每次PK已經分不出你我，因為沒有人會主動「背叛」了，種群穩定下來了。

最後，除了「善良」與「寬容」，德哥對「針鋒相對」策略還有一個耐人回味的定義：「不嫉妒」。這裡的嫉妒是指「希望獲得比對手更多的金錢」，而不嫉妒是指當對手和你一樣從「銀行家」那裡獲得同樣數目的金錢時，你也是滿意的。「針鋒相對」只有報復而沒有背叛，意味著他從來沒有機會比PK對手賺的更多的錢——他能做的最好就是和對手掙的一樣多。他的成功在於在每一場對弈中，都儘可能獲得更高的「共享」的分數，應和了我們能力框架的「解難里」下的雙贏思維。

回顧之前講到的公司內部培訓的例子，你是不是發現，大家之所以相互猜忌，之所以殫精竭慮，之所以步步驚心，其實都是想戰勝「對手」，而不是獲得共贏。這是大家潛意識裡的競爭意識，在一場競爭中，眼前的人更容易被當做對手，卻忘記了背後的銀行家，把原本是「非零和」的博弈當成了「零和」的在玩。

當然，根據不同的得分設定，這個遊戲的結果會有不同。例如，假如「背叛」的收益很大，同時做壞事卻沒有足夠的成本，可能就會更有利於「壞人」策略，所以我們需要法律，信用體系，其提高「壞人」的成本。

另外，如果類比第三次模擬，我們的社會現在肯定是沒到1000代的，200代應該也還沒有，但是我對未來抱有希望。

最後澄清一下，我其實不是很粉博弈論的，因為現實中人們做決策時思考的維度是豐富的，有的還在潛意識層面。比如前邊說到的遊戲里，大家如果考慮的不僅僅是賺更多的錢，而是在夥伴之間展示自己善於「合作」、言出必行的形象，那就不會僅僅根據賺錢多少來做選擇，結果也就不一樣了。這也是簡化後的博弈論模型和現實世界經常存在差別的原因。

但這一點「不足」更突出了德哥這個實驗的可貴之處：他的模型只考慮「收益」，可以說是「唯利是圖」；同時策略設計也是毫無限制，沒有道德或者警察去懲罰「不擇手段」的策略，一切靠每一次PK的輸贏。但即便如此，「好人」策略最終還是取得了壓到性的勝利。如果再考慮到道德、信譽、法律的外在影響，好人的成功只會更加順理成章。

我曾經聽很多人講過「先做人，後做事」這句話。區別是，說話的人不同，他們口中的「做人」其實含義也有不同。看了本文，希望讀者都有自己的評判。

（本圖片來自網路，如有版權敬請告知，謝謝）