博弈論

06-03

全球最大中文百科由全球1,001,340位網民共同編寫而成。共計3,005,127詞條，32.4億文字。

首頁

百科

圖片

任務

小組

論壇

百科建站

幫助

快速了解|

註冊|

登錄|

博弈論

相關圖片編輯詞條專家發言消歧義參與討論

所屬分類：博弈論應用系統社會經濟經濟專業術語經濟學經濟理論計算機術語

博弈論（Game Theory）

? 博弈論概念

? 博弈論的發展

? 分類

? 意義

? 合作的進行過程及規律

? 博弈論概念

? 博弈論的發展

? 分類

? 意義

? 合作的進行過程及規律

? 艾克斯羅德的貢獻與局限性

? 考考文獻

[顯示全部]

博弈論-博弈論概念

博弈論又被稱為對策論（Game Theory)，它是現代數學的一個新分支，也是運籌學的一個重要組成內容。在《博弈聖經》中寫到：博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略，達到取勝的意義。

博弈論(Game Theory)，有時也稱為對策論，或者賽局理論，應用數學的一個分支, 目前在生物學，經濟學，國際關係，計算機科學, 政治學，軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構（遊戲或者博弈（Game)）間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。

博弈論考慮遊戲中的個體的預測行為和實際行為，並研究它們的優化策略。表面上不同的相互作用可能表現出相似的激勵結構(incentive structure)，所以他們是同一個遊戲的特例。其中一個有名有趣的應用例子是囚徒困境悖論(Prisoner"s dilemma)。

具有競爭或對抗性質的行為成為博弈行為。在這類行為中，參加鬥爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益，各方必須考慮對手的各種可能的行動方案，并力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋，打牌等。博弈論就是研究博弈行為中鬥爭各方是否存在著最合理的行為方案，以及如何找到這個合理的行為方案的數學理論和方法。

生物學家使用博弈理論來理解和預測進化論的某些結果。例如，John Maynard Smith 和George R. Price在1973年發表於Nature上的論文中提出的「evolutionarily stablestrategy」的這個概念就是使用了博弈理論。還可以參見進化博弈理論（evolutionary gametheory）和行為生態學（behavioral ecology）。

博弈論也應用於數學的其他分支，如概率，統計和線性規劃等。

博弈論-博弈論的發展

對於博弈論的研究，開始於策墨洛(Zermelo,1913)，波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928)，後來

《博弈聖經》

由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern，1944，1947)首次對其系統化和形式化（參照Myerson, 1991）。隨後約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點定理證明了均衡點的存在，為博弈論的一般化奠定了堅實的基礎。直至《博弈聖經》的出現，《博弈聖經》與原有博弈論書籍最大的不同就在於，獨創了國正論、國正雙贏理論和粒子行為論，書中博弈取勝的文化理論統一了人類的博弈佔優行為。更重要的是，它讓博弈理論終於可以在現實生活中具體操作，讓普通大眾通過研習，成為真正的博弈高手。因此，

《博弈聖經》中的博弈理論在政治、經濟、文化、生活、娛樂等社會的各個領域具有可應用性，並且對於個人的工作、生活也有具體的指導意義。此外，塞爾頓、哈桑尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成一門較完善的的學科。博弈論-分類

博弈的分類根據不同的基準也有不同的分類。一般認為，博弈主要可以分為合作博弈和非合作博弈。它們的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議，如果有，就是合作博弈，如果沒有，就是非合作博弈。

從行為的時間序列性，博弈論進一步分為兩類：靜態博弈是指在博弈中，參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動；動態博弈是指在博弈中，參與人的行動有先後順序，且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解："囚徒困境"就是同時決策的，屬於靜態博弈；而棋牌類遊戲等決策或行動有先後次序的，屬於動態博弈

按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中，每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息，在這種情況下進行的博弈就是不完全信息博弈。

目前經濟學家們現在所談的博弈論一般是指非合作博弈，由於合作博弈論比非合作博弈論複雜，在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為：完全信息靜態博弈，完全信息動態博弈，不完全信息靜態博弈，不完全信息動態博弈。與上述四種博弈相對應的均衡概念為：納什均衡(Nash equilibrium)，子博弈精鍊納什均衡（subgame perfect Nash equilibrium），貝葉斯納什均衡(Bayesian Nash equilibrium)，精鍊貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。

博弈論還又很多分類，比如：以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈；以表現形式也可以分為一般型（戰略型）或者展開型，等等。

博弈論-意義

博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣，都是從複雜的現象中抽象出基本的元素，對這些元素構成的數學模型進行分析，而後逐步引入對其形勢產影響的其他因素，從而分析其結果。

基於不同抽象水平，形成三種博弈表述方式，標準型、擴展型和特徵函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講，博弈論是研究理性的行動者相互作用的形式理論，而實際上正深入到經濟學、政治學、社會學等等，被各門社會科學所應用。

博弈論與納什平衡博弈論（game theory）對人的基本假定是：人是理性的（rational，或者說自私的）,理性的人是指他在具體策略選擇時的目的是使自己的利益最大化，博弈論研究的是理性的人之間如何進行策略選擇的。

納什（John Nash）編製的博弈論經典故事"囚徒的困境"，說明了非合作博弈及其均衡解的成立，故稱"納什平衡"。

所有的博弈問題都會遇到三個要素。在囚徒的故事中，兩個囚徒是當事人(players)又稱參與者；當事人所做的選擇策略(strategies)是承認了殺人事實，最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人，另外一個抵賴，不承認殺人，那麼承認者將會得到減刑處理，而抵賴者將會得到最嚴厲的死刑判決，在納什故事中兩個人都承認了犯罪事實，所以兩個囚徒得到的是中間的結果。

類似的：我們也能從「自私的基因」等理論中看到「納什平衡」的體現。

在互聯網這個原始叢林中：最優策略是如何產生的呢？

博弈中最優策略的產生艾克斯羅德（RobertAxelrod）在開始研究合作之前，設定了兩個前提：一、每個人都是自私的；二、沒有權威干預個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什麼要合作；第二、人什麼時候是合作的，什麼時候又是不合作的；第三、如何使別人與你合作。

社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。

A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。

顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。

對策學界用這個矩陣來描述個體理性與群體理性的衝突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對於A來說，當對方選C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的優超策略時，得出的解是穩定的，但不是帕累托最優的，這個結果體現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最優解。

如果博弈進行多次，只要對策者知道博弈次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次博弈中，對策者沒有一次會合作。

如果博弈在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各3分，但如果持續地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什麼策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。

艾克斯羅德做了一個實驗，邀請多人來參加遊戲，得分規則與前面的矩陣相同，什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然後用單循環賽的方式將參賽程序兩兩博弈，以找出什麼樣的策略得分最高。

第一輪遊戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit fortat)。這個程序的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發現，得分排在前面的程序有三個特點：第一，從不首先背叛，即"善良的"；第二，對於對方的背叛行為一定要報復，不能總是合作，即"可激怒的"；第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即"寬容性"。

為了進一步驗證上述結論，艾氏決定邀請更多的人再做一次遊戲，並把第一次的結果公開發表。第二次徵集到了62個程序，加上他自己的隨機程序，又進行了一次競賽。結果，第一名的仍是"一報還一報"。艾氏總結這次遊戲的結論是：第一，"一報還一報"仍是最優策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是"不善良的"，後15名中，只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外，好的策略還必須具有的一個特點是"清晰性"，能讓對方在三、五步對局內辨識出來，太複雜的對策不見得好。"一報還一報"就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。

博弈論-合作的進行過程及規律

"一報還一報"的策略在靜態的群體中得到了很好的分數，那麼，在一個動態的進化的群體中，這種合作者能否產生、發

展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產生合作？為了回答這些疑問，艾氏用生態學的原理來分析合作的進化過程。

假設對策者所組成的策略群體是一代一代進化下去的，進化的規則包括：一，試錯。人們在對待周圍環境時，起初不知道該怎麼做，於是就試試這個，試試那個，哪個結果好就照哪個去做。第二，遺傳。一個人如果合作性好，他的後代的合作基因就多。第三，學習。比賽過程就是對策者相互學習的過程，"一報還一報"的策略好，有的人就願意學。按這樣的思路，艾氏設計了一個實驗，假設63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所佔比例就越高，而且是他的得分的正函數。這樣，群體的結構就會在進化過程中改變，由此可以看出群體是向什麼方向進化的。

實驗結果很有趣。"一報還一報"原來在群體中佔1/63，經過1000代的進化，結構穩定下來時，它佔了24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個"不善良的"哈靈頓程序，它的對策方案是，首先合作，當發現對方一直在合作，它就突然來個不合作，如果對方立刻報復它，它就恢複合作，如果對方仍然合作，它就繼續背叛。這個程序一開始發展很快，但等到除了"一報還一報"之外的其它程序開始消失時，它就開始下降了。因此，以合作係數來測量，群體是越來越合作的。

進化實驗揭示了一個哲理：一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎是很牢固的，因為它讓對方得到了高分。哈靈頓程序就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎上的，而失敗者總是要被淘汰的，當失敗者被淘汰之後，這個好占別人便宜的成功者也要被淘汰。

那麼，在一個極端自私者所組成的不合作者的群體中，"一報還一報"能否生存呢？艾氏發現，在得分矩陣和未來的折現係數一定的情況下，可以算出，只要群體的5%或更多成員是"一報還一報"的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最後蔓延到整個群體。反之，無論不合作者在一個合作者占多數的群體中有多大比例，不合作者都是不可能自下而上的。這就說明，社會向合作進化的棘輪是不可逆轉的，群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論，突破了"囚犯困境"的研究困境。

在研究中發現，合作的必要條件是：第一、關係要持續，一次性的或有限次的博弈中，對策者是沒有合作動機的；第二、對對方的行為要做出回報，一個永遠合作的對策者是不會有人跟他合作的。

那麼，如何提高合作性呢？首先，要建立持久的關係，即使是愛情也需要建立婚姻契約以維持雙方的合作。（火車站的小販為什麼要騙人？為什麼工作中要形成小組制度？換防的時候一方總是要小小地進攻一下的，在中越前線就是這樣）第二、要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就沒法回報他了。第三、要維持聲譽，說要報復就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。第四、能夠分步完成的對局不要一次完成，以維持長久關係，比如，貿易、談判都要分步進行，以促使對方採取合作態度。第五、不要嫉妒人家的成功，"一報還一報"正是這樣的典範。第六、不要首先背叛，以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報，對合作也要作出回報。第八、不要耍小聰明，占人家便宜。

艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關係持續，互相回報的條件，也有可能合作。比如，第一次世界大戰期間，德英兩軍在戰壕戰中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的糧車給養，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。第二、預見性也不是合作的前提，艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是，當有預見性的人類了解了合作的規律之後，合作進化的過程就會加快。這時，預見性是有用的，學習也是有用的。

當遊戲中考慮到隨機干擾，即對策者由於誤會而開始互相背叛的情形時，吳堅忠博士經研究發現，以修正的"一報還一報"，即以一定的概率不報復對方的背叛，和 "悔過的一報還一報"，即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強，"悔過的一報還一報"效果越好，"寬大的一報還一報"效果越差。

博弈論-艾克斯羅德的貢獻與局限性

艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境，達成合作，將這項研究帶到了一個全新境界，他在數學上的證明無疑是十分雄辯和令人信服的，而且，他在計算機模擬中得出的一些結論是非常驚人的發現，比如，總分最高的人在每次博弈中都沒有拿到最高分。（劉邦和項羽的戰爭）

艾氏所發現的"一報還一報"策略，從社會學的角度可以看作是一種"互惠式利他"，這種行為的動機是個人私利，但它的結果是雙方獲利，並通過互惠式利他有可能覆蓋了範圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，哥倫布登上美洲大陸時，與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為，比如無償損贈，也通過某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。

囚徒困境擴展為多人博弈時，就體現了一個更廣泛的問題──"社會悖論"，或"資源悖論"。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點兒時，就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通阻塞，都可以在社會悖論中得以解釋，在這些問題中，關鍵是通過研究，制定遊戲規則來控制每個人的行為。

艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應，"投桃報李"、"人不犯我，我不犯人"都體現了"tit fortat"的思想。但這些東西並不是最優的，因為"一報還一報"在充滿了隨機性的現實社會生活里是有缺陷的。對此，孔子在幾千年前就說出了"以德報德，以直報怨"這樣精彩的修正策略，所謂"直"，就是公正，以公正來回報對方的背叛，是一種修正了的"一報還一報"，修正的是報復的程度，本來會讓你損失5分，現在只讓你損失3分，從而以一種公正審判來結束代代相續的報復，形成文明。

但是，艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先，《合作的進化》一書暗含著一個重要的假定，即，個體之間的博弈是完全無差異的。現實的博弈中，對策者之間絕對的平等是不可能達到的。一方面，對策者在實際的實力上有差異，雙方互相背叛時，可能不是各得1分，而是強者得5分，弱者得0分，這樣，弱者的報復就毫無意義。另一方面，即使對局雙方確實旗鼓相當，但某一方可能懷有賭徒心理，認定自己更強大，採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形，而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此，程序還可以在此基礎上進一步改進。

其次，艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術，合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史，以便作出反應，這些都暗含著"預期"行為。在應付複雜的對策環境時，信任可能是對局雙方達成合作的必不可少的環節。但是，預期與信任如何在計算機的程序中體現出來，仍是需要研究的。

最後，重複博弈在現實中是很難完全實現的。一次性博弈的大量存在，引發了很多不合作的行為，而且，對策的一方在遭到對方背叛之後，往往沒有機會也沒有還手之力去進行報復。比如，資本積累階段的違約行為，國家之間的核威懾。在這些情況下，社會要使交易能夠進行，並且防止不合作行為，必須通過法制手段，以法律的懲罰代替個人之間的"一報還一報"，規範社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。

博弈論-考考文獻

經濟學高級學術著作《博弈聖經》http://www.caoab.com Harold W. K.(editor), 1997, Classics in Game theory, Princeton, NJ:Princeton University Press ISBN 0691011931 Myerson, R., 1991, Game Theory: Analysis of Conflict. Cambridge and London: Harvard University Press. Osborne, M. and A. Rubinstein，1994，A Course in Game Theory, Cambridge and London: The MIT Press. Axelrod, Robert: The Evolution of Cooperation, 1985, ISBN 0465021212 Axelrod, Robert: The Complexity of Cooperation - Agent-Based Models of Competition and Collaboration, 1997, ISBN 0691015678 Dixit, Avinash K./ Skeath, Susan: Games of Strategy, 1999, ISBN 0393974219 Eigen, Manfred / Winkler, Ruthild: Das Spiel, 1976, ISBN 3492021514 Hargreaves Heap, Shaun P. / Varoufakis, Yanis: Game Theory - A Critical Text, 2004, ISBN 0415250951 Kelly, Anthony: Decision Making Using Game Theory - An Introduction for Managers, 2003, ISBN 0521814626 Schlee, Welter: Einführung in die Spieltheorie, 2004, ISBN 3528032146

→ 如果您認為本詞條還有待完善,請編輯詞條收藏詞條至個人空間

本詞條內容有價值1互動百科的詞條資料來自網友貢獻，供您查閱參考，一些和您切身相關的具體問題（特別是健康、經濟、法律相關問題），出於審慎起見，建議諮詢專業人士以獲得更有針對性的答案。

開放分類：我來補充: 博弈論; 應用系統; 社會; 經濟; 經濟專業術語; 經濟學; 經濟理論; 計算機術語

參與編輯者：: 一心兩翼; chengel; 山哥; Thinker; psp2000; 可樂泡沫; 純真年代; 襯衣架

發表留言我要評論（1條）>>

基本信息

共被瀏覽大約 2434 次

共 6 個版本共 8 人協作

: 一心兩翼; 最大貢獻者

: 可樂泡沫; 最新協作者