博弈論與納什平衡

06-01

博弈論與納什平衡

　　博弈論（game theory）對人的基本假定是：人是理性的（rational，或者說自私的）,理性的人是指他在具體策略選擇時的目的是使自己的利益最大化，博弈論研究的是理性的人之間如何進行策略選擇的。　　納什（John Nash）編製的博弈論經典故事"囚徒的困境"，說明了非合作博弈及其均衡解的成立，故稱"納什平衡"。　　所有的博弈問題都會遇到三個要素。在囚徒的故事中，兩個囚徒是當事人(players)又稱參與者；當事人所做的選擇策略 (strategies)是承認了殺人事實，最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人，另外一個抵賴，不承認殺人，那麼承認者將會得到減刑處理，而抵賴者將會得到最嚴厲的死刑判決，在納什故事中兩個人都承認了犯罪事實，所以兩個囚徒得到的是中間的結果。　　類似的：我們也能從「自私的基因」等理論中看到「納什平衡」的體現。　　在互聯網這個原始叢林中：最優策略是如何產生的呢？ [編輯]博弈中最優策略的產生

　　艾克斯羅德（Robert Axelrod）在開始研究合作之前，設定了兩個前提：一、每個人都是自私的；二、沒有權威干預個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什麼要合作；第二、人什麼時候是合作的，什麼時候又是不合作的；第三、如何使別人與你合作。　　社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。　　A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。　　顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。　　對策學界用這個矩陣來描述個體理性與群體理性的衝突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對於A來說，當對方選 C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的優超策略時，得出的解是穩定的，但不是帕累托最優的，這個結果體現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最優解。　　如果博弈進行多次，只要對策者知道博弈次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次博弈中，對策者沒有一次會合作。　　如果博弈在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各得3分，但如果持續地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什麼策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。　　艾克斯羅德做了一個實驗，邀請多人來參加遊戲，得分規則與前面的矩陣相同，什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然後用單循環賽的方式將參賽程序兩兩博弈，以找出什麼樣的策略得分最高。　　第一輪遊戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發現，得分排在前面的程序有三個特點：第一，從不首先背叛，即"善良的"；第二，對於對方的背叛行為一定要報復，不能總是合作，即" 可激怒的"；第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即"寬容性"。　　為了進一步驗證上述結論，艾氏決定邀請更多的人再做一次遊戲，並把第一次的結果公開發表。第二次徵集到了62個程序，加上他自己的隨機程序，又進行了一次競賽。結果，第一名的仍是"一報還一報"。艾氏總結這次遊戲的結論是：第一，"一報還一報"仍是最優策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是"不善良的"，後15名中，只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外，好的策略還必須具有的一個特點是"清晰性"，能讓對方在三、五步對局內辨識出來，太複雜的對策不見得好。"一報還一報"就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。

rn本文來自: 博弈論中國(http://www.boyilun.net) 詳細出處參考：http://boyilun.net/gametheory/basic/2008-12-06/243.html
推薦閱讀：

※三種情況擾亂女性內分泌 5辦法平衡內分泌
※食物在人體內的消化吸收全過程
※八字格局平衡
※愛情關係中的扭曲和平衡

TAG:博弈論 | 平衡 |