「囚徒困境」引發的思考

06-20

「囚徒困境」博弈是圖克（Tucker）1950年提出的一個著名的博弈模型，是完全信息靜態博弈的典型例子。一、基本模型囚徒困境博弈的基本情況如下：警察抓住了兩個合夥犯罪的罪犯，但卻缺乏足夠的證據指證他們所犯的罪行。如果其中至少有一人供認犯罪，就能確認罪名成立。為了得到所需的口供，警察將這兩名罪犯分別關押以防止他們串供或結成攻守同盟，並給他們同樣的選擇機會；如果他們兩人都拒不認罪，則他們會被以較輕的妨礙公務罪各判1年徒刑；如果兩人中有一人坦白認罪，則坦白者從輕認罪，立即釋放，而另一人則將重判8年徒刑；如果兩人同時坦白認罪，則他們將被各判5年監禁。論文聯盟www.LWLM.com編輯。如果分別用－1、－5和－8表示罪犯被判刑1年、5年和8年的得益，用0表示罪犯被立即釋放的得益，則兩囚徒的得益矩陣如下：囚徒2 坦白不坦白囚徒1坦白－5，－50，－8 不坦白－8，0－1，－1 在上圖中，「囚徒1」、「囚徒2」分別代表本博弈中的兩個博弈方，也就是兩個罪犯；他們各自都有「不坦白」和「坦白」兩種可選擇的策略；因為這兩個囚徒被隔離開，其中任何一人在選擇策略時都不可能知道另一人的選擇是什麼，因此不管他們決策的時間是否真正相同，我們都可以把他們的決策看作是同時做出的。其中矩陣中第一個數字代表決策結果後囚徒1的得益，第二個數字代表決策結果後囚徒2的得益。博弈的結果是：由於這兩個囚徒之間不能串通，並且各人都追求自己的最大利益而不會顧及同夥的利益，雙方又都不敢相信或者說指望對方有合作精神，因此只能實現對他們都不理想的結果（各判5年），並且這個結果具有必然性，很難擺脫，因此這個博弈被稱為「囚徒困境」。［1］二、關於完全理性的思考囚徒困境博弈的一個假設是博弈方都是完全理性。完全理性來源於經濟學中的理性人假設，即博弈方都以個體利益最大化為目標，且有準確的判斷選擇能力，也不會「犯錯誤」。以個體利益最大為目標被稱為「個體理性」，有完美的分析判斷能力和不會犯選擇行為的錯誤稱為「完全理性」。完全理性包括追求最大利益的理性意識、分析推理能力、識別判斷能力、記憶能力和準確行為能力等多方面的完美性要求，其中任何一方面不完美就不屬於完全理性。［1］我們可以看出，這是一個要求非常嚴格的假設。即便如此，完全理性仍在一個方面沒有做出規定（至少是沒有意識到或明確地規定出來），就是思維方式，也即是博弈方是以將問題分解的方式來思考問題呢，還是以系統的整體的方式來思考問題的。我引用《第五項修鍊》上的一段話來表達這兩種思維方式的不同。自幼我們就被教導把問題加以分解，把世界拆成片片段段來理解。這顯然能夠使複雜的問題容易處理，但是無形中，我們卻付出了巨大的代價——全然失掉對「整體」的連屬感，也不了解自身行動所帶來的一連串後果。於是，當我們想一窺全貌時，便努力重整心中的片段，試圖拼湊所有的碎片。但是就如物理學家鮑姆（DavidBohm）所說的，這只是白費力氣；就像試著重新組合一面破鏡子的碎片，想要看清鏡中的真像。經過一陣子努力，我們甚至乾脆放棄一窺全貌的意圖。現在我們以系統的整體的思維方式來重新分析囚徒困境博弈。警察的目的是獲得證據，以使囚徒獲得應有的懲罰，囚徒的目的是「獲取」最少的懲罰。雙方的這種矛盾使得囚徒有串通的傾向，為了離間兩個囚徒，警察確立了模型中的規則（且不論這些規則和設置合不合理）。對每個囚徒來說，要想達到自身的目的，而不考慮整個模型設置的目的，很顯然是不行的。囚徒該如何選擇呢？答案是不坦白。如果囚徒看出了該模型的目的，若選擇坦白，以自推人，對方也會選擇坦白，必然落入警察的圈套，此所謂鷸蚌相爭，漁翁得利。當兩博弈方都用系統思維來考慮這個問題時，相互配合1是其最好的選擇，因為在完全理性假設前提下，自己選擇坦白而另一方選擇不坦白，這種機會是沒有的，這種饒幸心理也是取不得的，剩餘的只有要不都坦白，要不都不坦白，所以相互配合是其最好的選擇，結果一定是不坦白。此所謂兄弟鬩於牆，外御其侮，這也是空城記能夠唱成的原因。如果任何博弈方不是採用系統的思維方式來思慮這個問題的，因為一方用分解的思維方式來思考囚徒困境，他會選擇坦白，那麼另一方不管用什麼思維方式來思考這個問題，選擇坦白都是最好的，因此其結果必然是都坦白。三、關於概率的思考從概率上來說，都坦白的概率上是非常大的，可能很接近1或者等於1。但概率沒有表示出事件到底是怎麼樣發生的，它只表示了發生的可能。概率等於1代表的是事件發生的可能性是100%，而不是事件發生了；同樣，概率為0代表的是事件發生的可能性為0，但這不能就此說事件不會發生了。例如，我們擲飛鏢，從理論上講，對於圓盤上每一點來說概率都為0，但只要我們把飛鏢擲到了圓盤上，對於圓盤上的被擲到的那一點來說，被擲到的概率為0，但它還是被擲到了，事件還是發生了。這有點像紅軍的爬雪山過草地，在蔣介石看來，並且從當時的歷史和實際來看，紅軍的爬過雪山走過草地的可能性為0，但正是這個0的概率，使中國的歷史走到了今天。反過來，我們也可以說概率等於1的事件不一定就發生。在概率論中，隨機變數分為離散型隨機變數和連續型隨機變數兩種。對於離散型隨機變數，由於其對概率為0的可能值不會包括在內，這使我們習慣性地把概率為0的可能值視為不會發生。也正是由於此，我們無法找到概率為0的離散型隨機變數，也就無法證明它會發生。對於任意的連續型隨機變數，對於任何常數和（），。對於隨機變數的取值範圍內的任何一點來說，其概率為，顯然為0；對於某一事件來說，其發生的值假定為，那麼，我們得出在概率為0的點事件發生了。在大家都認為都坦白的概率等於1時，其實其前提是大家都是以分解的思維方式來考慮問題的。現在我們假定在社會中用系統思維方式考慮問題的人占所有社會人的（），用分解思維方式考慮問題的為。假定用系統思維方式考慮問題的人相遇時，囚徒困境的結果是都不坦白。假定一方坦白，另一方不坦白的概率為0。假定兩種不同的思維方式相遇或都用分解思維方式時，結果都是坦白。那麼警察能夠達到目的的概率為。在雙方都知道對方是什麼樣的思維方式的前提下，一方坦白另一方不坦白的博弈結果，因為其概率為0，所以不會對我們的概率（統計）結果有什麼明顯的影響。然而就某一次博弈來說，我們無法確定最後的結果是什麼，只能說一切皆有可能發生。四、關於完全信息的思考關於完全信息，我的問題是完全信息是等於共同知識還是等於一致信念？共同知識指的是「所有參與人知道，所有參與人知道所有參與人知道，所有參與人知道所有參與人知道所有參與人知道……」的知識。一致信念是指這種情況，即使所有參與人「共同」享有某種知識，每個參與人也許並不知道其他參與人知道這些知識，或者並不知道其他人知道自己擁有這些知識。［2］張維迎在《博弈論與信息經濟學》中關於完全信息的表述為：完全信息是指自然不首先行動或自然的初始行動被所有參與人準確觀察到的情況，即沒有事前的不確定性。信息是參與人有關博弈的知識，特別是有關「自然」的選擇、其他參與人的特徵和行動的知識。謝識予在《經濟博弈論》在的表述為：各博弈方都完全了解其他博弈方各種情況下得益的博弈稱為「完全信息（CompleteInformation）博弈」。我們可以看出，張維迎認為完全信息即沒有事前的不確定性，也就是說完全信息等於共同知識。謝識予認為只要各博弈方都完全了解其他博弈方各種情況下得益就是完全信息，可以說他認為完全信息等於一致信念。當完全信息等於共同知識時，就如上面的分析。但當完全信息只等於一致信念時，情況就會變得比較複雜。在完全信息等於一致信念的情況下，我們假定囚徒困境中的博弈方只知道各博弈方在各種情況下得益，任何一方都不知道另一方知道不知道自己知道這些得益以及以後的情況2。如果我們假定雙方都以對方不知道自己知道這些得益為前提來思考這個博弈，那麼情況會怎麼樣呢？因為囚徒困境中的均衡是一個上策納什均衡，在分解思維方式下，不管自己還是對方知道不知道這些信息，自己的上策都是坦白，所以在信息方面不用考慮那麼多。但在系統思維方式下，如果完全信息僅僅是一致信念，以後的信息就可以說是具有不確定性。在面臨不確定性時，我們的完全理性假設就不成立，因為不確定性是指決策者根本不知道某一變數有幾個可能的取值，更不知道第一可能值發生的概率；Knight（1921）指出有限理性的根基是所謂的「根本的不確定性」。可以和完全理性並存的是不完全信息或稱風險，即決策者知道某一變數所有可能的取值，以及每一值發生的概率。［3］因此，完全信息應該等於共同知識，否則我們無法分析囚徒困境。通過以上的分析，本文認為，即便我們對囚徒困境的前提假設再增加上以分解思維方式思考和完全信息等於共同知識，在面臨概率的問題時我們仍然不能確保囚徒困境一定發生，要不現實中對犯罪的審問也就非常簡單了。參考文獻：［1］謝識予．經濟博弈論［M］．上海：復旦大學出版社，2002．［2］張維迎．博弈論與信息經濟學［M］．上海：上海三聯書店上海人民出版，2002．［3］楊小凱．不完全信息與有限理性的差別［N］．經濟學信息報．2001－11－23． 1.此處的相互配合不是指串通或合作，是指各博弈方在得益驅動下各自自覺、獨立採取的合作態度和行為。 2.以後的情況是指任何一方都不知道任何一方都不知道另一方知道不知道自己知道這些得益，任何一方都不知道任何一方都不知道任何一方都不知道另一方知道不知道自己知道這些得益……轉貼於論文聯盟 http://www.lwlm.com
推薦閱讀：

※這種情況還算囚徒困境嗎？
※在「囚徒困境」里做到雙贏有多難？
※實力至上主義教室第9話：這一話太燒腦
※3人聚餐後，想玩一個遊戲來決定誰買單，這個遊戲公平嗎？
※囚徒們的信仰是什麼？

TAG:思考 | 囚徒困境 | 困境 |