Prisoner"s dilemma: 為什麼理性的抉擇不一定是利益最大化？

01-01

補充：我前幾天看了哈佛公開課的Justice專題，Michael J. Sandel有提及總效用。我的思維有些混亂。。
囚徒困境」是1950年美國蘭德公司提出的博弈論模型。兩個共謀犯罪的人被關入監獄，不能互相溝通情況。如果兩個人都不揭發對方，則由於證據不確定，每個人都坐牢一年；若一人揭發，而另一人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄十年；若互相揭發，則因證據確實，二者都判刑八年。由於囚徒無法信任對方，因此傾向於互相揭發，而不是同守沉默。
那麼我能不能這樣理解，如果都沉默，平均是1年，而其他的方案則平均值都要大，那麼總效用就減小了。

既然都是理性地揣摩了對方的抉擇而做出了最優的選擇，那為什麼不能彼此都做出最好的合作的選擇？為什麼這種抉擇就不可預測？

這是個很重要也很有趣的問題，也許可以用來澄清博弈論中一些概念。下面這段文字可能比較雜亂，期待能夠探討三個問題。一是納什均衡意味著什麼，二是現實中的囚徒困境和教科書上的有何不同，三是「理性」可能導致合作的一些情形。我會著重介紹康德均衡這個概念。這個答案另外一個用處可能是用具體例子區別「理性」和「自私」，這個混淆實在太常見了。中間有很多分岔，可以跳過，對答主問題的直接回答，尤其是「理性」「最大化」「合作」的關係，放在結尾兩段。

首先，見到上面這樣的博弈，我們第一反應可能就是求納什均衡，但在此之前也許可以多想一步。納什均衡本身不是定見，它也是一個模型。除了它，我們還可以定義許許多多不同的解的概念，或者說「均衡」。只要對於某些博弈，新辦法可以給出一個解，那這就是屬於我們自己（更多情況下是某個前輩）的均衡。像Von Neumann和Morgenstern，他們給的定義就是最大最小。

定義可以有很多，但不是每個都能流傳下來。納什的留下來了，前幾天去世的Selten，他的子博弈納什均衡留下來了，還有Cho和Kreps的序貫均衡暫時也留下來了，剩下有很多解可能都逐漸被遺忘了。像Von Damme寫過一本均衡精鍊，每一種精鍊其實都是一種新的解定義。什麼正則、嚴格、神性、絕對神性均衡之類，如果不是專門做理論，恐怕都不會去花太多時間吧。

為什麼如此？如果我們自己定義了一個解概念，判定這個概念好不好，一般有三個準繩：一是它適用範圍廣不廣，二是它給的解數目是不是足夠少，最好只有一個，三是它和實際吻合程度怎麼樣。最好是對每個博弈，這個概念都只給出一個解，這個解還和人們實際行動一致。如果這個工具真有，估計大部分做理論的都要退休了。可惜暫時還沒有，說不定永遠也不會有。

納什均衡之所以存留下來，一大原因就是它把上面三點兼顧得比較好。進入中級課程以後可能都會接觸納什均衡存在性定理證明，很簡單但很美，有限人有限策略里納什均衡都存在。很多著名博弈納什均衡都不止一個，但考慮前一點，似乎也沒有什麼概念能夠做得更好了。第三點也不錯，雖然完全吻合例子少，但大體上人們玩的還是和納什均衡比較接近。最後，納什均衡可以做很多很多精鍊，比如序貫均衡，就常常可以在複雜博弈里篩出一個性質特好的解。

不過，納什均衡不完美。比如這篇仗義輩誰？負心人誰？——來自納粹德國庭審記錄的證據 - 輟耕錄 - 知乎專欄，即使面對納粹的集中營，還是有六分之一義士選擇不招，他們也遭受了更長的刑期。即使是實驗室里做，也總有一些人選擇合作。不要說囚徒困境，即使是實驗室里的公共品博弈、最後通牒博弈或者獨裁者博弈，也總有十幾二十個百分點，甚至更多參與者選擇貢獻，或者把錢分給別人，哪怕是雙方加上實驗者都完全匿名的獨裁者博弈，善人也有接近百分之十。

問題在哪？說納什均衡大體上解決了問題當然可以，但解釋能精緻一些也是好的。改善方法無非以下三種：一是推倒納什均衡，再搞一個概念。二是說我們沒把理論用好。三實際上是二的一種，引入重複博弈。我們不在這裡討論三，只考慮什麼因素會驅使個體在單次博弈中採取合作行為。如果希望了解三，請參考Mailath和Samuelson。知乎上有一個不錯的概括有限次博弈是否存在合作？ - 博弈論。重複的思路沒法解釋一次的、匿名的實驗里為啥還會有合作。

一的話同樣有不少解決方法，2010年由John Roemer提出的康德均衡是其中不錯的一種解決辦法。Roemer是馬克思主義者，很有思想，他關於剝削的研究非常有名氣。二主要側重點在這裡：上面這個表裡的payoff，已經把參與者效用概括乾淨了，再用納什均衡當然可以得到滿意結果。生活中我們沒法看到這個表的。我們可以說給參與者錢，很多錢，但他/她心裡會有公益心，會在乎自我形象，會有良心，甚至可能討厭錢。也許有這些看不到的東西在作祟。

先談一。納什均衡強調每個人理性，而且每個人知道對方理性，有時甚至需要知道知道知道理性，無窮嵌套。康德均衡強調換位思考，換位不是指站在別人的利益上思考，而是要假想如果別人都和自己一樣行動，別無二致，自己該怎麼做。來點討厭數學。假設有 $n$ 個參與者，策略都在集合 $L$ 里選，如果分別採取 $L_{i}$ ，則拿到效用是 $V^{i}(L_{1}, ..., L_{i},...L_{n})$ 。上式就定義了博弈里的康德均衡：假如我動，別人一定馬上跟著動。考慮這個前提下最優就是康德均衡。

把這張圖第三次請出來。這不是囚徒困境，但如果我們假設 $a>1$ 且 $d<0$ ，那它就變成了囚徒困境。把合作概率（一定在 $[0,1]$ 範圍內）記成兩個人策略空間，對稱，可以用康德均衡求解。Roemer證明了如果 $a+dleq 2$ ，兩人總是合作；如果不是，兩人合作概率都是 $frac{a+d}{2(a+d-1)}$ ，明顯大於 $frac{1}{2}$ 。為什麼有時大家會維護公共品，不過度使用？為什麼明明多自己一票少自己一票，候選人該當選都會當選，自己還會去投票？康德均衡可以給一個解釋。

需要注意一點：這裡沒有說康德均衡是更優的概念，只是說存在另一種解的概念，定義良好，對特定情形有解釋力，可以在單次博弈中導出合作結果。Roemer在2014年的另一篇論文作了更深入探討，發現滿足特定條件，帕累托最優在康德均衡能實施的集合里，很有意思。檢驗有兩種，一是實驗室里做，二是建演化模型，看看用這種辦法決策的個體能不能生存下來。關於這個新概念這兩類研究都很少。大家比較喜歡的辦法主要是前面講的第二種處理辦法：利他。

利他在經濟學上主要含義是效用函數里有別人，但具體怎麼把別人往效用里加，方法很多。大問題有兩個：一是怎麼加，二是要解釋為什麼可以加，尤其是在意別人的個體是怎麼在進化里存活下來的。Becker是這方面先驅之一，他用的效用函數是 $U(f^{i}, f^{h})$ ，兩項分別是自己和別人的適存度。Andreoni有個很好批評：如果大家真的純粹利他，對公共品貢獻不會有我們觀察到那麼多的，均衡下不會有人向紅會、兒童救助、動物保護組織大筆捐款，因為一點點就夠了。

Andreoni自己提出了一個理論，叫warm-glow，意思是我們不僅在意別人利益，也在乎自己行善這件事情。很多人捐錢圖個心安，做了好事心裡會亮堂許多，這就叫warm-glow，寫成效用函數就是 $U^{i}(x_{i},G,g_{i})$ ，其中第一項是自己消費，第二項是公共品或者總的善業，第三項是自己的善業。這個理論可以解釋很多現象，但有一點解釋不了：Gneezy和Rustichini發現給上貨幣激勵，給募捐者發錢，對總的募捐不一定有正面效果。所以，還得往裡塞東西。

我在物質獎勵對孩子到底是好是壞？會不會打消學習的積極性或者最原始的目的性，算是教育的失敗嗎？ - Manolo 的回答里提到自我圖景的概念，意思是人會在乎形象，希望有好名聲，不被人戳脊梁骨。Brekke，Kverndokk和Nyborg文章就是這個思路，效用函數變成 $U^{i} (x_{i},l_{i},G,I_{i})$ ，四項分別是消費、閑暇、公共品和道德形象，這個道德形象由對公共品貢獻和社會定的道德標杆偏離程度決定。標杆就是那個能最大化個體權重相同的功利主義函數的貢獻水平。Benabou和Tirole的文章也考慮形象，但個體可能迷失，忘記自己本性，模型要複雜很多。

這裡的 $I$ 還可以做一種解釋，就是身份。March和Olsen在1995年提到治理有兩種思路。一是曉之以利弊。告訴你這樣做有什麼好處，有什麼壞處，然後告訴他們自己可以帶給他們好處。二是讓他們明白自己的身份，比如說，應該為祖國而獻身。前面講了很多利他的設定，如果合適，都可以在單次囚徒困境里做出合作的結果。這裡，如果一個人在乎自己形象，或者有自我願景，或者很在意自己的身份，那也有可能理性地合作，比如雙百人物里，這裡的例子就不少吧。

這些假說並不虛妄，有很多實證，像Levine就用很一般的形式 $v_{i}= u_{i}+sum_{j e i}{u_{j}}$ 對公共品博弈、蜈蚣博弈等做過估計，Camerer書里有不少相關結果。另外還有一些方法，恰當設定，也可導出囚徒困境中的理性合作，比如Fehr的互惠懲罰、Heifeit，Shannon和Spiegel的「有意犯錯誤」，等等。Alger和Weibull說明，如果定義兩種人，楊朱（完全自私）和墨子（兼愛，愛人如愛己）。只要相遇分開符合一定條件，不完全自利，介於兩者之間的道德人可以在演化中倖存下來。他們把這個叫做康德倫理，但概念和前面提到的康德均衡完全不同。

寫了這麼多，似乎什麼都沒有說，確實如此，但問題總是要回答的。何謂「理性」，什麼是「最大化」，嚴格追究下都不清晰。我們可以把兩點統一起來，稱作解的概念。解有很多，不止納什均衡一種，有其它解概念可以導出合作結果。實際中，環境不如教材純凈，個人可能利他，可能在意羽毛，可能迷糊，這些都有可能在單次囚徒困境（生活中的）里導出合作。紛紛擾擾，我們也不知道哪個最好，追求既有演化基礎（為啥能一直傳到今天），又有生理基礎（腦袋那裡亮起來了），還符合實際（從實驗室到田野所向披靡）的解釋，說是經濟學的聖杯也不過分吧。

另一方面講，暫時沒有定解，或者說有其它解概念，或者還有其它解釋，這也給了我們靈活發揮空間。拿到實際情況，或者實際做實驗，想辦法揣摩心理，在這麼多解釋里排除到只剩一種，都很考驗人。另一問題是理性是否等於自私，如果真的從頭到尾讀下來，恐怕不應該再有這種想法了吧。經濟學裡有homo economicus，也有homo moralis，還有homo economicus evolves。也許上面說這些還會隨著社會前進而變化，都是非常有趣而吸引人的問題。

參考文獻:

Alger I, Weibull J W. Homo moralis—preference evolution under incomplete information and assortative matching[J]. Econometrica, 2013, 81(6): 2269-2302.

Alger I, Weibull J W. Evolution and Kantian morality[J]. Games and Economic Behavior, forthcoming.

Andreoni J. Impure altruism and donations to public goods: A theory of warm-glow giving[J]. The Economic Journal, 1990, 100(401): 464-477.

Becker G S. Altruism, egoism, and genetic fitness: Economics and sociobiology[J]. Journal of Economic Literature, 1976, 14(3): 817-826.

Bénabou R, Tirole J. Incentives and prosocial behavior[J]. The American Economic Review, 2006, 96(5): 1652-1678.

Brekke K A, Kverndokk S, Nyborg K. An economic model of moral motivation[J]. Journal of Public Economics, 2003, 87(9): 1967-1983.

Camerer C. Behavioral game theory: Experiments in strategic interaction[M]. Princeton University Press, 2003.

Fehr E, G?chter S. Cooperation and Punishment in Public Goods Experiments[J]. The American Economic Review, 2000, 90(4): 980-994.

Fehr E, G?chter S. Altruistic punishment in humans[J]. Nature, 2002, 415(6868): 137-140.

Gneezy U, Rustichini A. Pay enough or don"t pay at all[J]. Quarterly Journal of Economics, 2000: 791-810.

Heifetz A, Shannon C, Spiegel Y. What to maximize if you must[J]. Journal of Economic Theory, 2007, 133(1): 31-57.

Levine D K. Modeling altruism and spitefulness in experiments[J]. Review of Economic Dynamics, 1998, 1(3): 593-622.

Levitt S D, List J A. Homo economicus evolves[J]. Science, 2008, 319(5865): 909-910.

Mailath G J, Samuelson L. Repeated games and reputations: long-run relationships[M]. Oxford University Press, 2006.

March J G, Olsen J P. Democratic governance[M]. Free Press, 1995.

Roemer J E. Kantian equilibrium[J]. The Scandinavian Journal of Economics, 2010, 112(1): 1-24.

Roemer J E. Kantian optimization: A microfoundation for cooperation[J]. Journal of Public Economics, 2015, 127: 45-57.

Van Damme E. Stability and perfection of Nash equilibria[M]. Berlin: Springer-Verlag, 1991.

因為有外部性啊。比如有污染這種負外部性時，污染水平會高於社會最優水平，因為污染者不考慮污染對其他人的影響。囚徒困境中，改變選擇會直接改變他人的效用，所以也有外部性的問題。

我們應該明確一下「理性」 (rational) 的定義。理性是指個人在自己已有信息的基礎上，做出的最大化個人利益的決策。理性從來不等於social welfare maximizing. 事實上在博弈論里類似的例子很多，囚徒困境只是個例。

從題主的提問來看，可能把「理性」當作解決所有問題的萬金油了。認為只要是理性的，一切問題都能得到圓滿解決。這是對「理性」的誤解。其實我們不妨做這樣一個比喻。一群聰明人聚在一起，各有各的小算盤，聰明的結果就是互相鬥爭，直到兩敗具傷。參考各種精彩的宮斗戲和千年來都存在的政治鬥爭。

首先clarify一下題主的問題，這個問題中的player都選擇了dominant strategy（任何情況下都為最優）這種策略使得player實現了收益最大化。題主你想問的是為什麼個人收益的最大化為什麼沒有得到社會福利的最大化(social welfare也就是兩個囚徒的收益之和）。

要理解囚徒困境，假設很重要

首先這是一種非合作遊戲，即使你單方面善意滴選擇不揭發，對手如果足夠聰明仍然會選擇揭發你。並無法保證能夠達到社會福利的最優點。所以揭發對於兩個人都是最優的。

再者，這個遊戲只玩一次，本次遊戲中的決策對未來沒有任何影響，那麼囚徒才會選擇毫無心理負擔地選擇揭發。

如果我們改變以上假設，比如遊戲進行多次，比如囚徒間可簽署某種可實行的契約，比如囚徒在意自己的名聲，那麼囚徒困境還是可以解決的。

添一句，博弈論包括很多其他經濟學理論，並不是告訴我們事實，而是提供給我們一個最精簡的基準，是我們能夠更有效地理解這個複雜的世界。

我將從直覺的角度，佐以一定的經濟學假設進行分析。如有不服，盡請撕逼。

（純拼學術的話，鄙人學識短淺，只上過微觀經濟學+老外的博弈論及其應用課，所以不準備按常理出牌。）

先上結論：理性的決策考慮到了風險，所以兼顧了風險和收益的最優結果就是：退而求其次，保本。

以下以經典的囚徒困境模型作為例子。

當我們面臨「合作」與「背叛」的選擇時，最終收益其實是由博弈對手決定的，當我們已知對方的決策時，就只會選擇對自己最有利的決策。

為什麼囚徒困境里穩定的均衡是「背叛，背叛」呢？因為有風險，來自於兩種可能：

一：對手的決策不能確定。

這種情況下，一旦對手選擇背叛，自己選擇合作，虧損是巨大的。但若自己選擇背叛，則虧損得到了控制，不會得到最糟糕的結果，符合風險厭惡者的選擇。

二：對手聲稱自己要「合作」。

此時，自己選擇「背叛」的誘惑來自兩方面，一是防止對方臨場變卦，讓自己大為虧損；二是「背叛，合作」會給自己帶來超額收益。因此，自己也會選擇背叛。

對手如果一上來就聲稱「背叛」，那更不用解釋了。

因此，我們理性地選擇了不會帶來最佳收益的組合，是因為我們對博弈對手的選擇具有不確定性，換句話說就是有風險。我們選擇「背叛」，是為了保本。

最暴力的解釋：我說後天某股漲停，你會不會明天去買？即使後天真的漲停了，相信事後來看，也沒有人會因為我這一句話明天滿倉殺入。這就是理性地選擇了低收益的決策，因為諸君不能確定我是說著玩兒的還是知道什麼內幕消息，決定保本為上。

你說的是一階段的囚徒困境，在多階段的囚徒困境里是有可能解決這個問題的，這也是我們現實中會出現的結果。因為做出一次有利自己，不利別人的策略後，可能以後就再沒有合作的機會了，這對自己也是不划算的。

至於一階段的囚徒困境為什麼會出現，就在於沒有後期成本，單階段中，無論對方合作還是不合作，自己選擇不合作都是好策略，這才是它會出現的原因。用數據來說，如下圖

對於甲來說，當乙背叛時，他選擇背叛，自己服刑8年，少於沉默的10年；當乙沉默時，他選擇背叛，獲得釋放，少於沉默的1年……

很簡單，因為在這個博弈中，揭發是嚴格優勢策略。

所謂嚴格優勢策略，指的是無論對方選擇哪種策略，我採取這個策略總是比其他策略得到的收益要高。那所謂嚴格劣勢策略，就正好與嚴格優勢策略相反。

以題主所問的囚徒困境為例

在對方選擇揭發的情況下：

我揭發，我坐牢8年

我沉默，我坐牢10年

在對方選擇沉默的情況下：

我揭發，我坐牢0年

我沉默，我坐牢1年

在兩種情況下，都是我選擇揭發的收益高於我選擇沉默的收益，因此我選擇揭發是理所應當的。

題主提出，如果我沉默，對方也沉默，此時的總效用最高。是的，我同意這個觀點，但是這樣的情況在雙方都足夠理性的情況下不可能存在，因為沒有收益能確保這樣的合作順利進行。

假設兩個囚徒能夠交流，那麼容我腦補一下這樣的場景：

「虎哥，你不想蹲號子，我肥仔也不想蹲號子啊！互相揭發肯定不是個辦法，這樣我們都要坐牢八年，我看不如都沉默，這樣我們只要都坐牢一年就能出去了。」

「各自減少七年牢獄時間嗎？嗯，好像是這麼個道理。」

雙方回到了各自的審訊室。

虎哥遵守諾言，一言不發。

肥仔卻大聲疾呼：「警察蜀黍，我要坦白！我想做個好人！」

…

虎哥仍在牢里，

肥仔在陽光下露出了一抹冷笑：

「我為什麼要跟你合作，逗比，只要揭發你，老子今天就能無罪釋放！」

當然，不是所有採用嚴格優勢策略的人都如肥仔這麼幸運，但採用嚴格劣勢策略的人卻往往落得虎哥這麼個凄慘的結局。

當然，這跟博弈論的人設有關，理性玩家都是極端自利的，如果考慮到現實世界中的人情也算收益的一種，那麼結局可能會不同，比如

虎哥和肥仔都選擇了沉默，出獄後，過上了沒羞沒臊的幸福生活。

一次博弈，均衡解不是兩個囚徒的最優解。多次博弈，加上事件發生概率，可以使得集體最優和個體最優一致。

這個問題我想過很久，後來發現很簡單，硬被西方學者說得嚇死人。囚徒困境很有價值，但博弈論的表述一點都不友好。

針對你的提問，實際上就是，局部的最理性行為，和全局的理性行為，未畢是一致的。

博弈論中的理性人不是完全理性人，是局部理性人，當然博弈論的教材是不會告訴你的。

題主其實真正想問的是估計是為什麼個人的理性無法導致團隊的理性結局吧

其實題主自己就已經回答了這個問題因為那是個人的理性個人的理性無法（或者說不必然）轉化為團隊的理性因為個人和團隊的利益並不必然是一致的為什麼個人和團隊的利益取向會不一致呢，這個就是機制的設置和條件限制的問題了

其實岔開去下機制設置的好或者不好，是可以破解囚徒困境的，例如在例子中取消坦白的獎勵，或者說提升雙方坦白的所造成的成本；

另一個就和條件約束有關了，因為囚徒困境的本質原因在於個人利益與團隊利益不一致，但這種情況僅會是局部和短期的，因為如果長期和全局上存在個人利益與團隊利益無法一致時，則這個團隊是不可能存在的，具體到這個例子中，如果兩犯人只打這麼一次交道么，那顯然警察會笑死，但如果這兩人是一個團隊，也就是說這次下次下下次總之就是經常會去警局的，那他們的理性選擇就會改變了。

在一次博弈中，犯人甲面對的選擇是：如果犯人乙坦白，那麼他在坦白（8年牢）和不坦白（10年牢）中選，如果犯人乙不坦白，那麼他在坦白（不坐牢）和不坦白（3年牢）中選。也就是甲選坦白都是最理性的，但這裡其實暗藏了很重要的一個現象，那就是犯人彼此的選擇實質上不能影響到對方選擇。

但是在重複博弈（就是兩兄弟要經常進警局）時，這種情況就變化了，因為這次的選擇是會影響到下次的選擇的。還是這個例子，默認甲乙都是正常人，也就是說要是被坑了，下次絕對會選擇坑回來的那種，（傳說中的以牙還牙以血還血）。還是之前的思路，對甲來說：如果乙坦白（一開始就坑），那麼他會在坦白（坐8+8+8+....年牢)和不坦白（坐10+8+8+8...)年牢中選；如果乙沒坦白（好兄弟講義氣），那麼他會在坦白（做0+8+8+8....年牢)和不坦白（坐1+1+1+1...年牢)中選。在這種情況下，甲就要不會那麼乾脆的直接選坦白了，而且一般來說，除非對乙特別不信任，總是會選擇不坦白的。再差開去一句，港台黑幫片中，很多時候都沒有出現囚徒困境這種局面，除了義氣，其實利益上也保障了不容易出現囚徒困境，因為現實中往往是重複博弈

所以，理性的選擇，可能在偶爾不能出現團隊利益的最大化，但在長期來說，理性的選擇還是會保障團隊利益的最大化的，但是，我要說的是但是，很多時候，人不是理性的，也是看不到長期的，倒也有負負得正的味道

我覺得這個問題本質上就是需要複合一個效用函數的問題。假如你是理性人，同時你的效用函數是最大化自己利益，那自然存在囚徒困境的問題。如果雙方的效用函數都是最大化全局利益，那最後當然是打死都不說咯。這在現實中不是不存在的，比如一對關係很好的親兄弟一起被抓，還是可能都不出賣對方的。

當然還有些什麼無限次重複博弈什麼的理論我就不提了。

首先，我們需要明確的一點是player選擇的導向都是對自己有利的一方的。所以在單次的囚徒困境的博弈之中，在Player1與Player2無法溝通的情況下，無論是P1還是P2都會選擇對自己最有利的一個strategy

接著我們看一下payoff矩陣

II1 II2

I1 （-9，-9）（0，10）

I2 （-10，0）（-1，-1）

（-9，-9）是equilibrium pair strategy，也就是解。這就是雙方各自為了自己的利益而做出的「理性選擇」。所謂理性選擇就是為了自己的利益考量而做出的最好的選擇（囚徒不知道對方會做何選擇的情況下，會選擇揭發對方）這也可以自己設身處地地去思考一下，沒有達成共識的情況下絕對會選擇揭發的。

而我們看到，（-1，-1）這個是從payoff角度來說的情況下是dominated的。這就是題主所說的合作。可是這個不能在一階段囚徒困境中達到，因為單次的囚徒困境無法達成合作的默契。並且單次的囚徒困境不用考慮選擇的後果。

智慧在於調控，能夠進行持續性優良運轉，而不是一次性榨乾利潤。

因為在這個模型里囚犯只考慮自己的效用，不考慮總效用。

因為收益和風險是共存的，你追求利益還需要避免風險。

囚徒困境，有個前提——非合作博弈，雙方無法協商，雖然他們都知道一起沉默，總體得益最大（但不是個人得益最大，各博弈方毫不關心總體得益，只關心自己的得益），但是由於他們沒有協商、沒有契約，每個人都擔心如果自己沉默，而另一方背叛的話（顯然，另一方有背叛的動機，別人沉默，自己背叛能使自己得益最大）自己就會很慘。顯然，對於雙方而言，他們這種互相的不信任感是理性的，所以每個人囚徒都選擇了背叛的作為保守策略，這樣，如果對方沉默，那自己得益最大，反之自己的得益也不會最差。雙方都這麼想，最後的結果就是納什均衡。

從這個例子可以看出納什均衡的重要性，他是對非合作博弈中這種理性博弈過程的高度抽象，納什均衡保證了一致預測性，也就是說假定博弈雙方都按照納什均衡的方向進行博弈，那麼博弈的結果就是可預測的，納什均衡預測的結果也將是博弈後的事實。囚徒困境中，實際上的所謂理性決策是有「方向」的，即當其他博弈方不改變策略的條件下，己方所選策略是最優策略（也就是達到納什均衡），這個所謂「理性」決策的標準，一般與實際中的理性博弈過程也是很相符的。