囚徒困境中的合作

01-27

這是在問題Prisoners dilemma: 為什麼理性的抉擇不一定是利益最大化？ - 經濟學下的回答。

這是個很重要也很有趣的問題，也許可以用來澄清博弈論中一些概念。下面這段文字可能比較雜亂，期待能夠探討三個問題。一是納什均衡意味著什麼，二是現實中的囚徒困境和教科書上的有何不同，三是「理性」可能導致合作的一些情形。我會著重介紹康德均衡這個概念。這個答案另外一個用處可能是用具體例子區別「理性」和「自私」，這個混淆實在太常見了。中間有很多分岔，可以跳過，對答主問題的直接回答，尤其是「理性」「最大化」「合作」的關係，放在結尾兩段。

首先，看上面這張圖，我們第一反應可能就是求納什均衡，但在此之前也許可以多想一步。納什均衡本身不是定見，它也是一個模型。除了它，我們還可以定義許許多多不同的解的概念，或者說「均衡」。只要對於某些博弈，新辦法可以給出一個解，那這就是屬於我們自己（更多情況下是某個前輩）的均衡。像Von Neumann和Morgenstern，他們給的定義就是最大最小。

定義可以有很多，但不是每個都能流傳下來。納什的留下來了，前幾天去世的Selten，他的子博弈納什均衡留下來了，還有Cho和Kreps的序貫均衡暫時也留下來了，剩下有很多解可能都逐漸被遺忘了。像Von Damme寫過一本均衡精鍊，每一種精鍊其實都是一種新的解定義。什麼正則、嚴格、神性、絕對神性均衡之類，如果不是專門做理論，恐怕都不會去花太多時間吧。

為什麼如此？如果我們自己定義了一個解概念，判定這個概念好不好，一般有三個準繩：一是它適用範圍廣不廣，二是它給的解數目是不是足夠少，最好只有一個，三是它和實際吻合程度怎麼樣。最好是對每個博弈，這個概念都只給出一個解，這個解還和人們實際行動一致。如果這個工具真有，估計大部分做理論的都要退休了。可惜暫時還沒有，說不定永遠也不會有。

納什均衡之所以存留下來，一大原因就是它把上面三點兼顧得比較好。進入中級課程以後可能都會接觸納什均衡存在性定理證明，很簡單但很美，有限人有限策略里納什均衡都存在。很多著名博弈納什均衡都不止一個，但考慮前一點，似乎也沒有什麼概念能夠做得更好了。第三點也不錯，雖然完全吻合例子少，但大體上人們玩的還是和納什均衡比較接近。最後，納什均衡可以做很多很多精鍊，比如序貫均衡，就常常可以在複雜博弈里篩出一個性質特好的解。

不過，納什均衡不完美。比如這篇仗義輩誰？負心人誰？——來自納粹德國庭審記錄的證據 - 輟耕錄 - 知乎專欄，即使面對納粹的集中營，還是有六分之一義士選擇不招，他們也遭受了更長的刑期。即使是實驗室里做，也總有一些人選擇合作。不要說囚徒困境，即使是實驗室里的公共品博弈、最後通牒博弈或者獨裁者博弈，也總有十幾二十個百分點，甚至更多參與者選擇貢獻，或者把錢分給別人，哪怕是雙方加上實驗者都完全匿名的獨裁者博弈，善人也有接近百分之十。

問題在哪？說納什均衡大體上解決了問題當然可以，但解釋能精緻一些也是好的。改善方法無非以下三種：一是推倒納什均衡，再搞一個概念。二是說我們沒把理論用好。三實際上是二的一種，引入重複博弈。我們不在這裡討論三，只考慮什麼因素會驅使個體在單次博弈中採取合作行為。如果希望了解三，請參考Mailath和Samuelson。知乎上有一個不錯的概括有限次博弈是否存在合作？ - 博弈論。重複的思路沒法解釋一次的、匿名的實驗里為啥還會有合作。

一的話同樣有不少解決方法，2010年由John Roemer提出的康德均衡是其中不錯的一種解決辦法。Roemer是馬克思主義者，很有思想，他關於剝削的研究非常有名氣。二主要側重點在這裡：上面這個表裡的payoff，已經把參與者效用概括乾淨了，再用納什均衡當然可以得到滿意結果。生活中我們沒法看到這個表的。我們可以說給參與者錢，很多錢，但他/她心裡會有公益心，會在乎自我形象，會有良心，甚至可能討厭錢。也許有這些看不到的東西在作祟。

先談一。納什均衡強調每個人理性，而且每個人知道對方理性，有時甚至需要知道知道知道理性，無窮嵌套。康德均衡強調換位思考，換位不是指站在別人的利益上思考，而是要假想如果別人都和自己一樣行動，別無二致，自己該怎麼做。來點討厭數學。假設有 $n$ 個參與者，策略都在集合 $L$ 里選，如果分別採取 $L_{i}$ ，則拿到效用是 $V^{i}(L_{1}, ..., L_{i},...L_{n})$ 。上式就定義了博弈里的康德均衡：假如我動，別人一定馬上跟著動。考慮這個前提下最優就是康德均衡。

把這張圖第三次請出來。這不是囚徒困境，但如果我們假設 $a>1$ 且 $d<0$ ，那它就變成了囚徒困境。把合作概率（一定在 $[0,1]$ 範圍內）記成兩個人策略空間，對稱，可以用康德均衡求解。Roemer證明了如果 $a+dleq 2$ ，兩人總是合作；如果不是，兩人合作概率都是 $frac{a+d}{2(a+d-1)}$ ，明顯大於 $frac{1}{2}$ 。為什麼有時大家會維護公共品，不過度使用？為什麼明明多自己一票少自己一票，候選人該當選都會當選，自己還會去投票？康德均衡可以給一個解釋。

需要注意一點：這裡沒有說康德均衡是更優的概念，只是說存在另一種解的概念，定義良好，對特定情形有解釋力，可以在單次博弈中導出合作結果。Roemer在2014年的另一篇論文作了更深入探討，發現滿足特定條件，帕累托最優在康德均衡能實施的集合里，很有意思。檢驗有兩種，一是實驗室里做，二是建演化模型，看看用這種辦法決策的個體能不能生存下來。關於這個新概念這兩類研究都很少。大家比較喜歡的辦法主要是前面講的第二種處理辦法：利他。

利他在經濟學上主要含義是效用函數里有別人，但具體怎麼把別人往效用里加，方法很多。大問題有兩個：一是怎麼加，二是要解釋為什麼可以加，尤其是在意別人的個體是怎麼在進化里存活下來的。Becker是這方面先驅之一，他用的效用函數是 $U(f^{i}, f^{h})$ ，兩項分別是自己和別人的適存度。Andreoni有個很好批評：如果大家真的純粹利他，對公共品貢獻不會有我們觀察到那麼多的，均衡下不會有人向紅會、兒童救助、動物保護組織大筆捐款，因為一點點就夠了。

Andreoni自己提出了一個理論，叫warm-glow，意思是我們不僅在意別人利益，也在乎自己行善這件事情。很多人捐錢圖個心安，做了好事心裡會亮堂許多，這就叫warm-glow，寫成效用函數就是 $U^{i}(x_{i},G,g_{i})$ ，其中第一項是自己消費，第二項是公共品或者總的善業，第三項是自己的善業。這個理論可以解釋很多現象，但有一點解釋不了：Gneezy和Rustichini發現給上貨幣激勵，給募捐者發錢，對總的募捐不一定有正面效果。所以，還得往裡塞東西。

我在物質獎勵對孩子到底是好是壞？會不會打消學習的積極性或者最原始的目的性，算是教育的失敗嗎？ - Manolo 的回答里提到自我圖景的概念，意思是人會在乎形象，希望有好名聲，不被人戳脊梁骨。Brekke，Kverndokk和Nyborg文章就是這個思路，效用函數變成 $U^{i} (x_{i},l_{i},G,I_{i})$ ，四項分別是消費、閑暇、公共品和道德形象，這個道德形象由對公共品貢獻和社會定的道德標杆偏離程度決定。標杆就是那個能最大化個體權重相同的功利主義函數的貢獻水平。Benabou和Tirole的文章也考慮形象，但個體可能迷失，忘記自己本性，模型要複雜很多。

這裡的 $I$ 還可以做一種解釋，就是身份。March和Olsen在1995年提到治理有兩種思路。一是曉之以利弊。告訴你這樣做有什麼好處，有什麼壞處，然後告訴他們自己可以帶給他們好處。二是讓他們明白自己的身份，比如說，應該為祖國而獻身。前面講了很多利他的設定，如果合適，都可以在單次囚徒困境里做出合作的結果。這裡，如果一個人在乎自己形象，或者有自我願景，或者很在意自己的身份，那也有可能理性地合作，比如雙百人物里，這裡的例子就不少吧。

這些假說並不虛妄，有很多實證，像Levine就用很一般的形式 $v_{i}= u_{i}+sum_{jne i}{u_{j}}$ 對公共品博弈、蜈蚣博弈等做過估計，Camerer書里有不少相關結果。另外還有一些方法，恰當設定，也可導出囚徒困境中的理性合作，比如Fehr的互惠懲罰、Heifeit，Shannon和Spiegel的「有意犯錯誤」，等等。Alger和Weibull說明，如果定義兩種人，楊朱（完全自私）和墨子（兼愛，愛人如愛己）。只要相遇分開符合一定條件，不完全自利，介於兩者之間的道德人可以在演化中倖存下來。他們把這個叫做康德倫理，但概念和前面提到的康德均衡完全不同。

寫了這麼多，似乎什麼都沒有說，確實如此，但問題總是要回答的。何謂「理性」，什麼是「最大化」，嚴格追究下都不清晰。我們可以把兩點統一起來，稱作解的概念。解有很多，不止納什均衡一種，有其它解概念可以導出合作結果。實際中，環境不如教材純凈，個人可能利他，可能在意羽毛，可能迷糊，這些都有可能在單次囚徒困境（生活中的）里導出合作。紛紛擾擾，我們也不知道哪個最好，追求既有演化基礎（為啥能一直傳到今天），又有生理基礎（腦袋那裡亮起來了），還符合實際（從實驗室到田野所向披靡）的解釋，說是經濟學的聖杯也不過分吧。

另一方面講，暫時沒有定解，或者說有其它解概念，或者還有其它解釋，這也給了我們靈活發揮空間。拿到實際情況，或者實際做實驗，想辦法揣摩心理，在這麼多解釋里排除到只剩一種，都很考驗人。另一問題是理性是否等於自私，如果真的從頭到尾讀下來，恐怕不應該再有這種想法了吧。經濟學裡有homo economicus，也有homo moralis，還有homo economicus evolves。也許上面說這些還會隨著社會前進而變化，都是非常有趣而吸引人的問題。

參考文獻:

Alger I, Weibull J W. Homo moralis—preference evolution under incomplete information and assortative matching[J]. Econometrica, 2013, 81(6): 2269-2302.

Alger I, Weibull J W. Evolution and Kantian morality[J]. Games and Economic Behavior, forthcoming.

Andreoni J. Impure altruism and donations to public goods: A theory of warm-glow giving[J]. The Economic Journal, 1990, 100(401): 464-477.

Becker G S. Altruism, egoism, and genetic fitness: Economics and sociobiology[J]. Journal of Economic Literature, 1976, 14(3): 817-826.

Bénabou R, Tirole J. Incentives and prosocial behavior[J]. The American Economic Review, 2006, 96(5): 1652-1678.

Brekke K A, Kverndokk S, Nyborg K. An economic model of moral motivation[J]. Journal of Public Economics, 2003, 87(9): 1967-1983.

Camerer C. Behavioral game theory: Experiments in strategic interaction[M]. Princeton University Press, 2003.

Fehr E, G?chter S. Cooperation and Punishment in Public Goods Experiments[J]. The American Economic Review, 2000, 90(4): 980-994.

Fehr E, G?chter S. Altruistic punishment in humans[J]. Nature, 2002, 415(6868): 137-140.

Gneezy U, Rustichini A. Pay enough or dont pay at all[J]. Quarterly Journal of Economics, 2000: 791-810.

Heifetz A, Shannon C, Spiegel Y. What to maximize if you must[J]. Journal of Economic Theory, 2007, 133(1): 31-57.

Levine D K. Modeling altruism and spitefulness in experiments[J]. Review of Economic Dynamics, 1998, 1(3): 593-622.

Levitt S D, List J A. Homo economicus evolves[J]. Science, 2008, 319(5865): 909-910.

Mailath G J, Samuelson L. Repeated games and reputations: long-run relationships[M]. Oxford University Press, 2006.

March J G, Olsen J P. Democratic governance[M]. Free Press, 1995.

Roemer J E. Kantian equilibrium[J]. The Scandinavian Journal of Economics, 2010, 112(1): 1-24.

Roemer J E. Kantian optimization: A microfoundation for cooperation[J]. Journal of Public Economics, 2015, 127: 45-57.

Van Damme E. Stability and perfection of Nash equilibria[M]. Berlin: Springer-Verlag, 1991.
推薦閱讀：

※宗教對經濟發展有影響嗎？
※一個回歸猴子的常用軟體與設置
※殺毒軟體和 Wi-Fi 都有免費的，鹽和水有沒有？
※黑城堡225.《冰與火之歌》中的經濟學（上）

TAG:经济学 | 博弈论 | 微观经济学 |