做人留一線，日後好相見

01-30

@Manolo 大神前幾天在他的專欄里寫了一篇《囚徒困境中的合作》，介紹了利他動機使人們在囚徒困境中達成合作的另一種均衡，即康德均衡。由此，我想到了我們系主任 Julian Wright 於2013年發表在 GEB 的大作——Punishment strategies in repeated game: Evidence from experimental markets。這篇文章恰好佐證了@Manolo 提到的「即使是實驗室里做，也總有一些人選擇合作」的論斷。

經典微觀理論認為，在無限重複博弈中，可能實現的均衡有很多。而在參與者有限的情況下，合作解是有可能達成的。其中一種實現方法是，一旦一方出現背叛行為，另一方立即實施disproportional punishment strategies。這種策略要求行動快、准、狠，且不論對方背叛行為的嚴重程度，只要發現背叛，立刻給予強烈的報復。所以，又叫做冷酷策略。

為了研究這種冷酷策略在真實情景中是否會被廣泛應用，2007年8月，Prof. Julian 在 NUS 找來200名學生參加他的實驗。他們被隨機配對成100組，並以組為單位在電腦上模擬 Bertrand 雙寡頭壟斷博弈。這項實驗考慮了很多細節以儘可能減少瑕疵，所以一共持續了1年之久。在 Bertrand 模型中，我們知道，博弈雙方打的是價格牌。在這個實驗里，可以選擇的價格範圍從1刀到25刀實驗幣（實驗結束後可以按一定比例兌換真實貨幣）。博弈存在唯一納什均衡：市場價2刀。但如果雙方都定價23刀，則他們可以實現總利潤最大化，這是合作解。

實驗結果出人意料，只有5％左右的被試採取了冷酷戰略。而大約20%的人遇到背叛後，甚至沒有採取任何行動！大部分的人傾向使用以牙還牙（tit-for-tat）這一相對溫和的報復措施。從收益來看，以牙還牙也確實能夠帶來最高的平均收益。而帶來最低長期收益的恰恰是冷酷戰略。

這一結果完全符合崇尚集體、強調寬恕的亞洲價值觀（實驗是在新加坡國立大學做的，參與人以亞籍居多，受教育程度也相對較高）。中國有一句俗話叫「做人留一線，日後好相見」，可以很好地概括這個實驗帶來的啟示。不過，對於其他文化環境，或讓被試的背景變得更加複雜，結論是否仍然成立？另外，實驗本身是否會對被試產生影響？在真實的決策中，面臨的不確定性增加、payoff 放大，是否又會改變結果呢？

儘管把實驗結果推廣到普遍層面，我們仍然存在一些疑慮。但可以確信的是，誠如經濟學家所認識到的，在解釋現實生活上，納什均衡這一概念確實不夠完美。