博弈論中的「囚徒困境」

06-01

在博弈論中，有一個流傳頗為廣泛的故事，叫做「囚徒困境」(Pris-oner，s Dilemma)。　案例是有一天，一位富翁在家中被殺，財物被盜。警方在此案的偵破過程中，抓到兩個犯罪嫌疑人A和B，並從他們的住處搜出被害人家中丟失的財物。但是，他們都矢口否認曾殺過人，辯稱是先發現富翁被殺，然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離審訊。　這個時候，聰明的警官找他們談話，分別告訴他們說：「你們的偷盜罪確鑿，所以可以判你們2年刑期。但是，我可以和你做個交易。如果你招了，他不招，那麼你會作為證人無罪釋放，他將被判10年徒刑；如果你招了，他也招了，你們都將被判5年有期徒刑；如果他招了，你不招，他無罪釋放，你被判無期徒刑，終身囚禁；如果你們都不招，各判2年。」如果兩個囚犯都不招供，兩人都只被判2年，那麼，兩個囚犯都選擇不招供就是這個博弈的最終結果。然而，人算不如天算，「囚徒困境」之所以稱為「困境」正是因為這個博弈的最終結局恰恰是最壞的結果，即兩個囚犯統統招供，結果都被判有期徒刑5年。　反過來說，這也是警官的聰明之處。警官採取的遊戲規則必然會讓兩名囚犯坦白罪行，認罪伏法。對一個博弈來說，遊戲規則非常地重要，適宜的規則才能夠達到目的。在我們的日常生活中莫不如此，規則制訂者往往利用條件制定出有利於自身的規章制度。關鍵是為什麼兩個人都選擇了「招」，傻到接受這種最壞的結果呢？　在解釋這個問題之前，首先需要說明一下，囚徒困境和其它的博弈一樣，都需要有2個前提假設：囚徒A和B兩人都是自利理性的個人，即只要給出兩種可選的策略，每一方將總是選擇其中對他更有利的那種策略；兩人無法溝通，要在不知道對方所選結果的情況下，獨自進行策略選擇。　　囚犯「思想搏鬥過程」大致如下，囚犯A的內心活動是這樣：假如他招了，我不招，我就要將牢底坐穿，招了最壞坐10年，還是招了合算；假如他不招，我也不招，只坐2年的牢（因無法串供，風險太大）；如果我招，他不招，馬上被釋放，也是招了合算。因此，無論囚犯B是坦白還是沉默，囚犯A採取坦白的策略對自己更為有利。同樣，以上推理也適用於囚犯B。結果兩個囚徒都坦白了，都被判刑5年。囚徒困境之所為被稱為「困境」，正是在於：如果A、B二人都保持沉默，則都只被判刑2年，顯然比兩人都坦白的結果要好。結果是兩名囚犯都作出招供的選擇，這對他們個人來說都是最佳的，即最符合他們個體理性的選擇。照博弈論的說法，這是惟一的納什均衡點。　除了這個均衡點，A與B的任何一人單方面改變選擇，他只會得到更加不經濟的結果。而在其它的結果中，比如兩人都不坦白的情況下，都有一人可以通過單方面改變選擇，來減少自己的刑期。可是兩人經過一番理性計算後，卻選擇了一個使自己陷入不利的結局。　其實「囚徒困境」不允許囚犯A和B進行溝通的假設，與實際生活中大部分情況的現實是有差異的。比如，在愛情博弈中，很多戀人會經常花前月下、徹夜廝守；在企業的價格戰中，企業之間也會多有溝通，甚至結成價格聯盟；即使是20世紀下半世紀的美蘇軍備競賽中，兩個超級大國也會經常進行外交交談，及時交換信息。　因此不妨將條件放寬，允許囚犯A和B在審訊室里在一起呆上10分鐘，給予他們充分的串供的機會。很明顯，雙方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能訂立一個口頭協議，要求雙方都不去坦白。然後，雙方再單獨被提審。　我們不妨設想囚犯A的心理活動。他一定會認為，如果囚犯B遵守約定的話，則自己坦白就可獲得自由；如果囚犯B告密的話，若自己不坦白就會被終生囚禁。事實上，囚犯A的策略並沒有因為簡單的溝通或協議而擺脫兩難境地。對於囚犯B也是一樣。　　雖然「坦白從寬，抗拒從嚴」的道理人人都懂，而從博弈論的角度來看，實際上就是一個囚徒困境的應用。「囚徒困境」被看成是博弈論的代表性案例，不僅因為其簡單易懂，還在於它的現象在日常生活中廣泛存在。　比如，戀人們在戀愛中的海誓山盟，最終還是分手；企業之間相互溝通合作結成戰略關係時是信誓旦旦，但價格戰仍然會爆發；美蘇兩國經常會晤，甚至簽訂核不擴散條約，但軍費一年高過一年。　囚徒困境的遊戲規則，能夠讓狡猾的罪犯招供，得到應有的懲罰，固然不是壞事。然而，我們不妨假設囚徒A和B完全都是清白的具有理性的大大的良民，這個博弈的納什均衡並不會因為他們的清白而改變。如果在現實生活中，審案存在對身體的殘害，完全可能造成屈打成招的冤假錯案。在中國歷史上，這種冤案並不是什麼稀少的事情。　從更深刻的意義上講，囚徒困境模型動搖了傳統社會學、經濟學理論的基礎，這是經濟學的重大革命。傳統經濟學的鼻祖亞當·斯密在其傳世經典《國民財富的性質和原因的研究》中這樣描述市場機制：「當個人在追求他自己的私利時，市場的看不見的手會導致最佳經濟後果。」這就是說，每個人的自利行為在「看不見的手」的指引下，追求自身利益最大化的同時也促進了社會公共利益的增長。即自利會帶來互利。　傳統經濟學秉承了亞當·斯密的思想。傳統經濟學認為：因此經濟學不必擔心人們參與競爭的動力，只需關注如何讓每個求利者能夠自由參與儘可能展開公平競爭的市場機制。只要市場機制公正，自然會增進社會福利。但是囚徒困境的結果，恰恰表明個人理性不能通過市場導致社會福利的最優。每一個參與者可以相信市場所提供的一切條件，但無法確信其他參與者是否能與自己一樣遵守市場規則。簡單地說就是，在一個集體里，有可能每個人的選擇都是理性的，但對於整個集體來說其結果卻不是理性的。比如大家所熟悉的股市。股市的參與人數雖然十分龐大，但實際上是只有多與空、機構與機構、散戶與散戶之間的雙方「博弈」，有人將此稱之為「零和遊戲」。　股市「博弈」雙方的多數也處在一種「囚徒困境」中。對於股市中博弈雙方來說，當股市漲到最高點時，無論對散戶，還是對機構來說，任何一方的最大利益在於「我賣，而你沒賣，我獲得最大盈利」，而對於雙方來說最理想的狀態是「大家都不賣，把股市推向一個更高點位，大家都有更多利潤空間」。但實際結果卻大相徑庭，市場「無形之手」沒起作用，卻是「囚徒困境」起到了決定性的作用。　佛家講因果報應，儒家講究「財自道生，利緣義取」。從「囚徒困境」看來，如果一味地想算計別人，算來算去，最後卻算計到自己頭上來了。如果我們將「囚徒困境」故事中的無期徒刑改為死刑，那麼「機關算盡太聰明，反誤了卿卿性命」用在這裡是再恰當不過了。　那麼怎麼樣才能擺脫「囚徒困境」呢？博弈雙方都付出代價，失去自己不願失去的東西，但只有這樣才能共存並且擺脫囚徒困境，這有如壯士斷臂，不得不為，也樂得為之。如果說「兄弟鬩於牆，共御外侮」是理想化的擺脫囚徒困境的策略，那麼出賣「兄弟」以還得自己的平安，則是處於囚徒困境下本能的選擇。趨利避害是人的本能，在經濟行為和社會行為中這一本能都鮮明地體現著。
推薦閱讀：

※怎麼對付嘲笑自己的人？
※LH VIEWS：互聯網醫院的四大困境
※自由執業的困境：缺乏體現醫生價值的市場
※具體有哪些既讓我們心疼卻又自私地期待他們繼續困頓下去的人？譬如求真的學者，潦倒的詩人，以及悲情的歌者。

TAG:博弈論 | 囚徒困境 | 困境 |