博弈論的基本概念

06-17

博弈論的基本概念　　博弈要素:　　(1)決策人：在博弈中率先作出決策的一方，這一方往往依據自身的感受、經驗和表面狀態優先採取一種有方向性的行動。　　(2)　對抗者：在博弈二人對局中行動滯後的那個人，與決策人要作出基本反面的決定，並且他的動作是滯後的、默認的、被動的，但最終佔優。他的策略可能依賴於決策人劣勢的策略選擇，佔去空間特性，因此對抗是唯一佔優的方式，實為領導人的階段性終結行為。　　(3)局中人（players）：在一場競賽或博弈中，每一個有決策權的參與者成為一個局中人。只有兩個局中人的博弈現象稱為「兩人博弈」,而多於兩個局中人的博弈稱為「多人博弈」。　　(4)策略(strategies)：一局博弈中，每個局中人都有選擇實際可行的完整的行動方案，即方案不是某階段的行動方案，而是指導整個行動的一個方案，一個局中人的一個可行的自始至終全局籌劃的一個行動方案，稱為這個局中人的一個策略。如果在一個博弈中局中人都總共有有限個策略，則稱為「有限博弈」，否則稱為「無限博弈」。　　(5)得失(payoffs)：一局博弈結局時的結果稱為得失。每個局中人在一局博弈結束時的得失，不僅與該局中人自身所選擇的策略有關，而且與全局中人所取定的一組策略有關。所以，一局博弈結束時每個局中人的「得失」是全體局中人所取定的一組策略的函數，通常稱為支付（payoff）函數。　　(6)次序（orders）：各博弈方的決策有先後之分，且一個博弈方要作不止一次的決策選擇，就出現了次序問題；其他要素相同次序不同，博弈就不同。　　(7)博弈涉及到均衡：均衡是平衡的意思，在經濟學中，均衡意即相關量處於穩定值。在供求關係中，某一商品市場如果在某一價格下，想以此價格買此商品的人均能買到，而想賣的人均能賣出，此時我們就說，該商品的供求達到了均衡。所謂納什均衡，它是一穩定的博弈結果。　　納什均衡(Nash Equilibrium)：在一策略組合中，所有的參與者面臨這樣一種情況，當其他人不改變策略時，他此時的策略是最好的。也就是說，此時如果他改變策略他的支付將會降低。在納什均衡點上，每一個理性的參與者都不會有單獨改變策略的衝動。納什均衡點存在性證明的前提是「博弈均衡偶」概念的提出。所謂「均衡偶」是在二人零和博弈中，當局中人A採取其最優策略a*,局中人B也採取其最優策略b*,如果局中人B仍採取b*,而局中人A卻採取另一種策略a，那麼局中人A的支付不會超過他採取原來的策略a*的支付。這一結果對局中人B亦是如此。　　這樣，「均衡偶」的明確定義為：一對策略a*(屬於策略集A)和策略b*（屬於策略集B）稱之為均衡偶，對任一策略a(屬於策略集A)和策略b（屬於策略集B），總有：偶對（a, b*）≤偶對(a*,b*)≥偶對（a*，b）。　　對於非零和博弈也有如下定義：一對策略a*（屬於策略集A）和策略b*（屬於策略集B）稱為非零和博弈的均衡偶，對任一策略a(屬於策略集A）和策略 b（屬於策略集B），總有：對局中人A的偶對（a, b*） ≤偶對(a*,b*);對局中人B的偶對（a*，b）≤偶對(a*,b*)。　　有了上述定義，就立即得到納什定理：　　任何具有有限純策略的二人博弈至少有一個均衡偶。這一均衡偶就稱為納什均衡點。　　納什定理的嚴格證明要用到不動點理論，不動點理論是經濟均衡研究的主要工具。通俗地說，尋找均衡點的存在性等價於找到博弈的不動點。　　納什均衡點概念提供了一種非常重要的分析手段，使博弈論研究可以在一個博弈結構里尋找比較有意義的結果。　　但納什均衡點定義只局限於任何局中人不想單方面變換策略，而忽視了其他局中人改變策略的可能性，因此，在很多情況下，納什均衡點的結論缺乏說服力，研究者們形象地稱之為「天真可愛的納什均衡點」。　　塞爾頓（R·Selten)在多個均衡中剔除一些按照一定規則不合理的均衡點，從而形成了兩個均衡的精鍊概念：子博弈完全均衡和顫抖的手完美均衡。夏普里值　　考慮這樣一個合作博弈：a、b、c、投票決定如何分配100萬，他們分別擁有50％、40％、10％的權力，規則規定，當超過50%的票認可了某種方案時才能通過。那麼如何分配才是合理的呢?按票力分配，a50萬、b40萬、c10萬c向a提出：a70萬、b0、c30萬b向a提出：a80萬、b20萬、c0……　　權力指數：每個決策者在決策時的權力體現在他在形成的獲勝聯盟中的「關鍵加入者」的個數，這個「關鍵加入者」的個數就被稱為權利指數。　　夏普里值（Shapley value）：在各種可能的聯盟次序下，參與者對聯盟的邊際貢獻之和除以各種可能的聯盟組合。　　次序 abc acb bac bca cab cba　　關鍵加入者 b c a a a a　　由此計算出a,b,c的夏普里值分別為4/6,1/6,1/6　　所以a,b,c應分別獲得100萬的2/3,1/6,1/6智豬博弈　　智豬博弈（Pigs』payoffs）講的是：豬圈裡有兩頭豬，一頭大豬，一頭小豬。豬圈的一邊有個踏板，每踩一下踏板，在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板，另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時，大豬會在小豬跑到食槽之前剛好吃光所有的食物；若是大豬踩動了踏板，則還有機會在小豬吃完落下的食物之前跑到食槽，爭吃到另一半殘羹。　　那麼，兩隻豬各會採取什麼策略？答案是：小豬將選擇「搭便車」策略，也就是舒舒服服地等在食槽邊；而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。　　原因何在？因為，小豬踩踏板將一無所獲，不踩踏板反而能吃上食物。對小豬而言，無論大豬是否踩動踏板，不踩踏板總是好的選擇。反觀大豬，已明知小豬是不會去踩動踏板的，自己親自去踩踏板總比不踩強吧，所以只好親力親為了。　　「小豬躺著大豬跑」的現象是由於故事中的遊戲規則所導致的。規則的核心指標是：每次落下的食物數量和踏板與投食口之間的距離。　　如果改變一下核心指標，豬圈裡還會出現同樣的「小豬躺著大豬跑」的景象嗎？試試看。　　改變方案一：減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩，大豬將會把食物吃完；大豬去踩，小豬將也會把食物吃完。誰去踩踏板，就意味著為對方貢獻食物，所以誰也不會有踩踏板的動力了。　　如果目的是想讓豬們去多踩踏板，這個遊戲規則的設計顯然是失敗的。　　改變方案二：增量方案。投食為原來的一倍分量。結果是小豬、大豬都會去踩踏板。誰想吃，誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當於生活在物質相對豐富的「共產主義」社會，所以競爭意識卻不會很強。　　對於遊戲規則的設計者來說，這個規則的成本相當高（每次提供雙份的食物）；而且因為競爭不強烈，想讓豬們去多踩踏板的效果並不好。　　改變方案三：減量加移位方案。投食僅原來的一半分量，但同時將投食口移到踏板附近。結果呢，小豬和大豬都在拚命地搶著踩踏板。等待者不得食，而多勞者多得。每次的收穫剛好消費完。　　對於遊戲設計者，這是一個最好的方案。成本不高，但收穫最大。　　原版的「智豬博弈」故事給了競爭中的弱者（小豬）以等待為最佳策略的啟發。但是對於社會而言，因為小豬未能參與競爭，小豬搭便車時的社會資源配置的並不是最佳狀態。為使資源最有效配置，規則的設計者是不願看見有人搭便車的，政府如此，公司的老闆也是如此。而能否完全杜絕「搭便車」現象，就要看遊戲規則的核心指標設置是否合適了。　　比如，公司的激勵制度設計，獎勵力度太大，又是持股，又是期權，公司職員個個都成了百萬富翁，成本高不說，員工的積極性並不一定很高。這相當於「智豬博弈」增量方案所描述的情形。但是如果獎勵力度不大，而且見者有份（不勞動的「小豬」也有），一度十分努力的大豬也不會有動力了----就象「智豬博弈」減量方案一所描述的情形。最好的激勵機制設計就象改變方案三----減量加移位的辦法，獎勵並非人人有份，而是直接針對個人（如業務按比例提成），既節約了成本（對公司而言），又消除了「搭便車」現象，能實現有效的激勵。　　許多人並未讀過「智豬博弈」的故事，但是卻在自覺地使用小豬的策略。股市上等待莊家抬轎的散戶；等待產業市場中出現具有贏利能力新產品、繼而大舉仿製牟取暴利的遊資；公司里不創造效益但分享成果的人，等等。因此，對於制訂各種經濟管理的遊戲規則的人，必須深諳「智豬博弈」指標改變的個中道理。編輯本段博弈的類型　　博弈的分類根據不同的基準也有不同的分類。一般認為，博弈主要可以分為合作博弈和非合作博弈。　合作博弈和非合作博弈的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議，如果有，就是合作博弈，如果沒有，就是非合作博弈。　　從行為的時間序列性，博弈論進一步分為靜態博弈、動態博弈兩類：　靜態博弈是指在博弈中，參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動；　　動態博弈是指在博弈中，參與人的行動有先後順序，且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解："囚徒困境"就是同時決策的，屬於靜態博弈；而棋牌類遊戲等決策或行動有先後次序的，屬於動態博弈　　按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。　完全博弈是指在博弈過程中，每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。　　不完全信息博弈是指如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息，在這種情況下進行的博弈就是不完全信息博弈。　　目前經濟學家們現在所談的博弈論一般是指非合作博弈，由於合作博弈論比非合作博弈論複雜，在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為：完全信息靜態博弈，完全信息動態博弈，不完全信息靜態博弈，不完全信息動態博弈。與上述四種博弈相對應的均衡概念為：納什均衡(Nash equilibrium)，子博弈精鍊納什均衡（subgame perfect Nash equilibrium），貝葉斯納什均衡(Bayesian Nash equilibrium)，精鍊貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。　　博弈論還有很多分類，比如：以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈；以表現形式也可以分為一般型（戰略型）或者展開型，等等。編輯本段意義　　博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣，都是從複雜的現象中抽象出基本的元素，對這些元素構成的數學模型進行分析，而後逐步引入對其形勢產影響的其他因素，從而分析其結果。　　基於不同抽象水平，形成三種博弈表述方式，標準型、擴展型和特徵函數型利用這三種表述形式，可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講，博弈論是研究理性的行動者相互作用的形式理論，而實際上正深入到經濟學、政治學、社會學等等，被各門社會科學所應用。　　博弈論是指某個個人或是組織，面對一定的環境條件，在一定的規則約束下，依靠所掌握的信息，從各自選擇的行為或是策略進行選擇並加以實施，並從各自取得相應結果或收益的過程，在經濟學上博弈論是個非常重要的理論概念。　　什麼是博弈論？古語有云，世事如棋。生活中每個人如同棋手，其每一個行為如同在一張看不見的棋盤上布一個子，精明慎重的棋手們相互揣摩、相互牽制，人人爭贏，下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們「出棋」著數中理性化、邏輯化的部分，並將其系統化為一門科學。換句話說，就是研究個體如何在錯綜複雜的相互影響中得出最合理的策略。事實上，博弈論正是衍生於古老的遊戲或曰博弈如象棋、撲克等。數學家們將具體的問題抽象化，通過建立自完備的邏輯框架、體系研究其規律及變化。這可不是件容易的事情，以最簡單的二人對弈為例，稍想一下便知此中大有玄妙：若假設雙方都精確地記得自己和對手的每一步棋且都是最「理性」的棋手，甲出子的時候，為了贏棋，得仔細考慮乙的想法，而乙出子時也得考慮甲的想法，所以甲還得想到乙在想他的想法，乙當然也知道甲想到了他在想甲的想法…　　面對如許重重迷霧，博弈論怎樣著手分析解決問題，怎樣對作為現實歸納的抽象數學問題求出最優解、從而為在理論上指導實踐提供可能性呢？現代博弈理論由匈牙利大數學家馮·諾伊曼於20世紀20年代開始創立，1944年他與經濟學家奧斯卡·摩根斯特恩合作出版的巨著《博弈論與經濟行為》，標誌著現代系統博弈理論的初步形成。對於非合作、純競爭型博弈，諾伊曼所解決的只有二人零和博弈--好比兩個人下棋、或是打乒乓球，一個人贏一著則另一個人必輸一著，凈獲利為零。在這裡抽象化後的博弈問題是，已知參與者集合（兩方），策略集合（所有棋著），和盈利集合（贏子輸子），能否且如何找到一個理論上的「解」或「平衡」，也就是對參與雙方來說都最「合理」、最優的具體策略？怎樣才是「合理」？應用傳統決定論中的「最小最大」準則，即博弈的每一方都假設對方的所有功略的根本目的是使自己最大程度地失利，並據此最優化自己的對策，諾伊曼從數學上證明，通過一定的線性運算，對於每一個二人零和博弈，都能夠找到一個「最小最大解」。通過一定的線性運算，競爭雙方以概率分布的形式隨機使用某套最優策略中的各個步驟，就可以最終達到彼此盈利最大且相當。當然，其隱含的意義在於，這套最優策略並不依賴於對手在博弈中的操作。用通俗的話說，這個著名的最小最大定理所體現的基本「理性」思想是「抱最好的希望，做最壞的打算」。　　博弈論不僅僅存在於數學的運籌學中，也正在經濟學中佔據越來越重要的地位，但如果你認為博弈論的應用領域僅限於此的話，那你就大錯了。實際上，博弈論甚至在我們的工作和生活中無處不在！在工作中，你在和上司博弈，也在和下屬博弈，你也同樣會跟其他相關部門人員博弈；而要開展業務，你更是在和你的客戶以及競爭對手博弈。在生活中，博弈仍然無處不在。博弈論代表著一種全新的分析　　

包羅·薩繆爾遜

方法和全新的思想。　　諾貝爾經濟學獎獲得者包羅·薩繆爾遜如是說：　　要想在現代社會做個有價值的人,你就必須對博弈論有個大致的了解。　　也可以這樣說,要想贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。編輯本段應用舉例納什均衡　　1950年和1951年納什的兩篇關於非合作博弈論的重要論文，徹底改變了人們對競爭和市場的看法。他證明了非合作博弈及其均衡解，並證明了均衡解的存在性，即著名的納什均衡。從而揭示了博弈均衡與經濟均衡的內在聯繫。納什的研究奠定了現代非合作博弈論的基石，後來的博弈論研究基本上都沿著這條主線展開的。　　1944年馮·諾依曼與奧斯卡·摩根斯特恩合著的巨作《博弈論與經濟行為》出版，標誌著現代系統博弈理論的的初步形成。儘管對具有博弈性質的問題的研究可以追溯到19世紀甚至更早。例如，1838年古諾（Cournot）簡單雙寡頭壟斷博弈；1883年伯特蘭和1925年艾奇沃奇思研究了兩個寡頭的產量與價格壟斷；2000多年前中國著名軍事家孫武的後代孫臏利用博弈論方法幫助田忌賽馬取勝等等都屬於早期博弈論的萌芽，其特點是零星的，片斷的研究，帶有很大的偶然性，很不系統。馮·諾依曼和摩根斯特恩的《博弈論與經濟行為》一書中提出的標準型、擴展型和合作型博弈模型解的概念和分析方法，奠定了這門學科的理論基礎。合作型博弈在20世紀50年代達到了巔峰期。然而，諾依曼的博弈論的局限性也日益暴露出來，由於它過於抽象，使應用範圍受到很大限制，在很長時間裡，人們對博弈論的研究知之甚少，只是少數數學家的專利，所以，影響力很有限。正是在這個時候，非合作博弈———「納什均衡」應運而生了，它標誌著博弈論的新時代的開始！納什不是一個按部就班的學生，他經常曠課。據他的同學們回憶，他們根本想不起來曾經什麼時候和納什一起完完整整地上過一門必修課，但納什爭辯說，至少上過斯蒂恩羅德的代數拓撲學。斯蒂恩羅德恰恰是這門學科的創立者，可是，沒上幾次課，納什就認定這門課不符合他的口味。於是，又走人了。然而，納什畢竟是一位英才天縱的非凡人物，他廣泛涉獵數學王國的每一個分支，如拓撲學、代數幾何學、邏輯學、博弈論等等，深深地為之著迷。納什經常顯示出他與眾不同的自信和自負，充滿咄咄逼人的學術野心。1950年整個夏天納什都忙於應付緊張的考試，他的博弈論研究工作被迫中斷，他感到這是莫大的浪費。殊不知這種暫時的「放棄」，使原來模糊、雜亂和無緒的若干念頭，在潛意識的持續思考下，逐步形成一條清晰的脈絡，突然來了靈感！這一年的10月，他驟感才思潮湧，妙筆生花。其中一個最耀眼的亮點就是日後被稱之為「納什均衡」的非合作博弈均衡的概念。納什的主要學術貢獻體現在1950年和1951年的兩篇論文之中(包括一篇博士論文)。1950年他才把自己的研究成果寫成題為「非合作博弈」的長篇博士論文，1950年11月刊登在美國全國科學院每月公報上，立即引起轟動。說起來這全靠師兄戴維·蓋爾之功，就在遭到馮·諾依曼貶低幾天之後，他遇到蓋爾，告訴他自己已經將馮·諾依曼的「最小最大原理」（minimax solution）推到非合作博弈領域，找到了普遍化的方法和均衡點。蓋爾聽得很認真，他終於意識到納什的思路比馮·諾伊曼的合作博弈的理論更能反映現實的情況，而對其嚴密優美的數學證明極為讚歎。蓋爾建議他馬上整理出來發表，以免被別人捷足先登。納什這個初出茅廬的小子，根本不知道競爭的險惡，從未想過要這麼做。結果還是蓋爾充當了他的「經紀人」，代為起草致科學院的簡訊，系主任列夫謝茨則親自將文稿遞交給科學院。納什寫的文章不多，就那麼幾篇，但已經足夠了，因為都是精品中的精品。這一點也是值得我們深思的。國內提一個教授，要求在「核心的刊物」上發表多少篇文章。按照這個標準可能納什還不一定夠資格。　　1996年諾貝爾經濟學獎得主莫爾里斯當牛津大學艾奇沃思經濟學講座教授時也沒有發表過什麼文章，特殊的人才，必須有特殊的選拔辦法。　　納什在上大學時就開始從事純數學的博弈論研究，1948年進入普林斯頓大學後更是如魚得水。20歲出頭已成為聞名世界的數學家。特別是在經濟博弈論領域，他做出了劃時代的貢獻，是繼馮·諾依曼之後最偉大的博弈論大師之一。他提出的著名的納什均衡的概念在非合作博弈理論中起著核心的作用。後續的研究者對博弈論的貢獻，都是建立在這一概念之上的。由於納什均衡的提出和不斷完善為博弈論廣泛應用於經濟學、管理學、社會學、政治學、軍事科學等領域奠定了堅實的理論基礎。囚徒困境　　在博弈論中，含有佔優戰略均衡的一個著名例子是由塔克給出的「囚徒困境」（prisoners』 dilemma）博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊，對每一個犯罪嫌疑人，警方給出的政策是：如果兩個犯罪嫌疑人都坦白了罪行，交出了贓物，於是證據確鑿，兩人都被判有罪，各被判刑8年；如果只有一個犯罪嫌疑人坦白，另一個人沒有坦白而是抵賴，則以妨礙公務罪（因已有證據表明其有罪）再加刑2年，而坦白者有功被減刑8年，立即釋放。如果兩人都抵賴，則警方因證據不足不能判兩人的偷竊罪，但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個博弈的支付矩陣。　　表2.2 囚徒困境博弈 [Prisoner"s dilemma]　　

A╲B	坦白	抵賴
坦白	-8，-8	0，-10
抵賴	-10，0	-1，-1

　我們來看看這個博弈可預測的均衡是什麼。對A來說，儘管他不知道B作何選擇，但他知道無論B選擇什麼，他選擇「坦白」總是最優的。顯然，根據對稱性，B也會選擇「坦白」，結果是兩人都被判刑8年。但是，倘若他們都選擇「抵賴」，每人只被判刑1年。在表2.2中的四種行動選擇組合中，（抵賴、抵賴）是帕累托最優的，因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使一個人的境況變差。不難看出，「坦白」是任一犯罪嫌疑人的佔優戰略，而（坦白，坦白）是一個佔優戰略均衡。　　要了解納什的貢獻，首先要知道什麼是非合作博弈問題。現在幾乎所有的博弈論教科書上都會講「囚犯的兩難處境」的例子，每本書上的例子都大同小異。　　博弈論畢竟是數學，更確切地說是運籌學的一個分支，談經論道自然少不了數學語言，外行人看來只是一大堆數學公式。好在博弈論關心的是日常經濟生活問題，所以不能不食人間煙火。其實這一理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語，聽上去有點玄奧，實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局，常常寓深刻道理於遊戲之中。所以，多從我們的日常生活中的凡人小事入手，以我們身邊的故事做例子，娓娓道來，並不乏味。話說有一天，一位富翁在家中被殺，財物被盜。警方在此案的偵破過程中，抓到兩個犯罪嫌疑人，斯卡爾菲絲和那庫爾斯，並從他們的住處搜出被害人家中丟失的財物。但是，他們矢口否認曾殺過人，辯稱是先發現富翁被殺，然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離，分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說，「由於你們的偷盜罪已有確鑿的證據，所以可以判你們一年刑期。但是，我可以和你做個交易。如果你單獨坦白殺人的罪行，我只判你三個月的監禁，但你的同夥要被判十年刑。如果你拒不坦白，而被同夥檢舉，那麼你就將被判十年刑，他只判三個月的監禁。但是，如果你們兩人都坦白交代，那麼，你們都要被判5年刑。」斯卡爾菲絲和那庫爾斯該怎麼辦呢？他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴，結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供。所以，按照亞當·斯密的理論，每一個人都是從利己的目的出發，他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月，但前提是同夥抵賴，顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此，坦白還有更多的好處。如果對方坦白了而自己抵賴了，那自己就得坐10年牢。太不划算了！因此，在這種情況下還是應該選擇坦白交代，即使兩人同時坦白，至多也只判5年，總比被判10年好吧。所以，兩人合理的選擇是坦白，原本對雙方都有利的策略（抵賴）和結局（被判1年刑）就不會出現。這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為「納什均衡」，也叫非合作均衡。因為，每一方在選擇策略時都沒有「共謀」（串供），他們只是選擇對自己最有利的策略，而不考慮社會福利或任何其他對手的利益。也就是說，這種策略組合由所有局中人（也稱當事人、參與者）的最佳策略組合構成。沒有人會主動改變自己的策略以便使自己獲得更大利益。「囚徒的兩難選擇」有著廣泛而深刻的意義。個人理性與集體理性的衝突，各人追求利己行為而導致的最終結局是一個「納什均衡」，也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己，這樣他們必然要服長的刑期。只有當他們都首先替對方著想時，或者相互合謀(串供)時，才可以得到最短時間的監禁的結果。「納什均衡」首先對亞當·斯密的「看不見的手」的原理提出挑戰。按照斯密的理論，在市場經濟中，每一個人都從利己的目的出發，而最終全社會達到利他的效果。不妨讓我們重溫一下這位經濟學聖人在《國富論》中的名言：「通過追求(個人的)自身利益，他常常會比其實際上想做的那樣更有效地促進社會利益。」從「納什均衡」我們引出了「看不見的手」的原理的一個悖論：從利己目的出發，結果損人不利己，既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說，「納什均衡」提出的悖論實際上動搖了西方經濟學的基石。因此，從「納什均衡」中我們還可以悟出一條真理：合作是有利的「利己策略」。但它必須符合以下黃金律：按照你願意別人對你的方式來對別人，但只有他們也按同樣方式行事才行。也就是中國人說的「己所不欲勿施於人」。但前提是人所不欲勿施於我。其次，「納什均衡」是一種非合作博弈均衡，在現實中非合作的情況要比合作情況普遍。所以「納什均衡」是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展，甚至可以說是一場革命。　　從「納什均衡」的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象。我們將例舉出許多類似於「囚徒的兩難處境」這樣的例子。如價格戰、軍備競賽、污染等等。一般的博弈問題由三個要素所構成：即局中人(players)又稱當事人、參與者、策略等等的集合，策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關係被選擇，每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。價格戰博弈　　現在我們經常會遇到各種各樣的家電價格大戰，彩電大戰、冰箱大戰、空調大戰、微波爐大戰……這些大戰的受益者首先是消費者。每當看到一種家電產品的價格大戰，百姓都會「沒事兒偷著樂」。在這裡，我們可以解釋廠家價格大戰的結局也是一個「納什均衡」，而且價格戰的結果是誰都沒錢賺。因為博弈雙方的利潤正好是零。競爭的結果是穩定的，即是一個「納什均衡」。這個結果可能對消費者是有利的，但對廠商而言是災難性的。所以，價格戰對廠商而言意味著自殺。從這個案例中我們可以引伸出兩個問題，一是競爭削價的結果或「納什均衡」可能導致一個有效率的零利潤結局。二是如果不採取價格戰，作為一種敵對博弈論(rivalry game)其結果會如何呢？每一個企業，都會考慮採取正常價格策略，還是採取高價格策略形成壟斷價格，並儘力獲取壟斷利潤。如果壟斷可以形成，則博弈雙方的共同利潤最大。這種情況就是壟斷經營所做的，通常會抬高價格。另一個極端的情況是廠商用正常的價格，雙方都可以獲得利潤。從這一點，我們又引出一條基本準則：「把你自己的戰略建立在假定對手會按其最佳利益行動的基礎上」。事實上，完全競爭的均衡就是「納什均衡」或「非合作博弈均衡」。在這種狀態下，每一個廠商或消費者都是按照所有的別人已定的價格來進行決策。在這種均衡中，每一企業要使利潤最大化，消費者要使效用最大化，結果導致了零利潤，也就是說價格等於邊際成本。在完全競爭的情況下，非合作行為導致了社會所期望的經濟效率狀態。如果廠商採取合作行動並決定轉向壟斷價格，那麼社會的經濟效率就會遭到破壞。這就是為什麼WTO和各國政府要加強反壟斷的意義所在。污染博弈　　假如市場經濟中存在著污染，但政府並沒有管制的環境，企業為了追求利潤的最大化，寧願以犧牲環境為代價，也絕不會主動增加環保設備投資。按照看不見的手的原理，所有企業都會從利己的目的出發，採取不顧環境的策略，從而進入「納什均衡」狀態。如果一個企業從利他的目的出發，投資治理污染，而其他企業仍然不顧環境污染，那麼這個企業的生產成本就會增加，價格就要提高，它的產品就沒有競爭力，甚至企業還要破產。這是一個「看不見的手的有效的完全競爭機制」失敗的例證。直到20世紀90年代中期，中國鄉鎮企業的盲目發展造成嚴重污染的情況就是如此。只有在政府加強污染管制時，企業才會採取低污染的策略組合。企業在這種情況下，獲得與高污染同樣的利潤，但環境將更好。貿易戰博弈　　貿易戰對於剛剛加入WTO的中國而言尤為重要。任何一個國家在國際貿易中都面臨著保持貿易自由與實行貿易保護主義的兩難選擇。貿易自由與壁壘問題，也是一個「納什均衡」，這個均衡是貿易雙方採取不合作博弈的策略，結果使雙方因貿易戰受到損害。X國試圖對Y國進行進口貿易限制，比如提高關稅，則Y國必然會進行反擊，也提高關稅，結果誰也沒有撈到好處。反之，如X和Y能達成合作性均衡，即從互惠互利的原則出發，雙方都減少關稅限制，結果大家都從貿易自由中獲得了最大利益，而且全球貿易的總收益也增加了。　　博弈論--這是一個熱得燙手的概念。它不僅僅存在於數學的運籌學中，也正在經濟學中佔據越來越重要的地位（近幾年諾貝爾經濟學獎就頻頻授予博弈論研究者），但如果你認為博弈論的應用領域僅限於此的話，那你就大錯了。實際上，博弈論甚至在我們的工作和生活中無處不在！在工作中，你在和上司博弈，也在和下屬博弈，你也同樣會跟其他相關部門人員博弈；而要開展業務，你更是在和你的客戶以及競爭對手博弈。在生活中，博弈仍然無處不在。博弈論代表著一種全新的分析方法和全新的思想。　　諾貝爾經濟學獎獲得者包羅·薩繆爾遜如是說：　　要想在現代社會做個有價值的人,你就必須對博弈論有個大致的了解。　　也可以這樣說,要想贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。企業博弈　　博弈論是分析寡頭壟斷企業市場行為的有力工具。博弈論研究機智而又理性的經濟活動主體，在其行為相互影響時的決策以及這種決策的均衡問題。編輯本段主要範式重複博弈　　囚徒困境，砸了傳統經濟學的場子。因為個人的自利行為，並不一定導致集體利益的最大化，「看不見的手」拉不住，人類向墮落之城下滑的趨勢，難道這真是一個悲哀？索性並非如此，撇去博弈論的理性假設不說。博弈論者很快發現囚徒困境只在單次博弈情形下明顯，一旦博弈的開始陷入重複，合作將到來。因為，未來的收益將左右目前的決策。以牙還牙　　重複的博弈理論上導致了合作的產生，但是誰也不能保證合作的繼續，因為之前已經說過，合作的代價是建立在損害個人利益基礎之上的。如果個人放棄未來收益或當前背叛收益大於未來收益，背叛的風險仍然存在。那麼在重複博弈中怎樣的策略才是最優。若干睿智而複雜在經過計算機中PK之後，極其原始的「以牙換牙」策略脫穎而出，固然這個策略簡單至極，其威力卻無窮，以至於人們在短暫的欣喜之後，發現這把太阿指之劍倒持的可怕，一旦重複鏈條中出現一次（也許不經意的）背叛，那據此原則行事的博弈將永無止境的背叛下去，個人利益極度膨脹的同時，集體利益無限衰微。幸好，這個世界不是模型，也不是如此簡單。很多時候，我們不必以牙還牙，第三方的規範：道德與法律就是我們的假牙，他們更加有利、有理、有節。人質困境　　一場憋屈的博弈。搶打出頭鳥，人質聯合固然可以制服歹徒，但是誰願出頭。這一點給了無數處於劫持者地位的一方以機會，類似於秦的遠交近攻、各個擊破的策略，將最終全盤贏下。人質可有反制的策略，當然有，不過艱難至極。人質可以選擇沉默，這樣他有一定時間苟延殘喘；或者聯合劫持者對付人質，結局還是取決於劫持者，萬一他過河拆橋怎麼辦；同時反抗，集體將獲得左右策略，但是這需要壯士斷腕的勇氣，部分人可能因此受傷。這裡是實力與勇氣的較量，而且實力暫居上風。酒吧博弈　　如果人人理性，那麼每一天到達酒吧的人數將是差不多正好的，但是人非聖賢，往往是有限理性的。第一次到酒吧的人多，那麼大多人人認為酒吧人太多，太擠。第二次決定的時候，參考前次而不去酒吧。少數去的人發現酒吧的人第二天很少，感覺很爽，第三次將繼續回來，並重新帶回許多人……循環就此開始。酒吧博弈一方面顯示，現實的博弈參與者，是極其有限理性的，其理性只前延後伸一小段。歷史數據只對計算機有用，對人，則不一定。　　另一個方面，酒吧博弈指出，勝利者永遠只是少數。儘管酒吧存在調諧的可能，譬如發簡訊時時提醒，但成本恐怕太高。而在其他場合，少數派可能更加會設置種種障礙阻止後進者的上升。也就是說，我們的世界仍然是操弄在少數派的手中。不過，總算這個世界不是模型，少數派的道路到底還是有跡可循的。老練的將軍仍舊會在八卦迷陣中找到唯一的生門。若你想要，必須做一個更加老練的將軍。槍手博弈　　王者的悲哀。三人對槍自決，甲乙丙槍法優劣遞減。最後無奈而神奇的結局，將不取決於同時開槍還是先後開槍，最優良的槍手，倒下的概率將最高；而最蹩腳的槍手，存活的希望卻最大。因為沒有人會把威脅最小的槍手列為一號清楚目標。在這裡，後發制人的弱勢者將勝出。以弱勝強，絕不是神話。　　難道王者的命運就真如此不堪，呵，道別忘了每個理論模型都是有其前提的，擊破之中任何一個，王者仍將歸來。這就是先發優勢。假設這是一場類似CS的競技，優秀的槍手擊倒二號槍手，立刻獲得獎勵：盾牌。那麼三號槍手將陷入絕境。不過，不管怎樣，這個博弈模型，到底給了弱勢者一份希望。機會永遠存在。獵鹿博弈　　兩個獵人合作獵鹿獲得的收益將遠大於分別獵兔的收益，戰略聯盟將開始。這或許是件好事，不過有取決於最後獵獲的鹿——這一公共資源的分配，如果分配得當，整體的效率將增加。如果一方主導，另一方受損，那麼帕累托改善無法進行，合作可能終將破裂。　　另外一個問題，更加大局的問題。合作的示範性將使得更多的獵人加入，獵獲的鹿將大大增加，人類的利益短期內將呈幾何級數增長。但是最後，確是生態失衡，鹿群滅群。短暫的繁華之後，獵人將再一次回歸於原始獵兔生活。儘管為了避免這一悲劇，人類還有最後的希望：制度經濟學的法寶——科斯定理以產權歸屬來解決外部經濟問題。但由於談判成本以及可行性，人類社會的公共悲劇仍將不斷上演。智豬博弈　　混沌之前最後的博弈。小豬和大豬住在豬圈的一邊（食槽在這裡），開啟食物的開關在另一頭，誰去踩，誰喪失先機。結果怎樣？是小豬選擇「搭便車」，大豬勤跑。因為小豬無論跑還是停，大豬的最優策略都是策略都是去踩機關。不過在實際生活中。這裡依舊存在兩種策略。　　小豬的「搭便車」。大豬有的時候，自覺或不自覺地自封「俠之大者，為國為民」，並因此承受一些不能承受之重。《博弈論的詭計》指出美國戰後的行為極似大豬，戰後的美國竭力宣傳自己的普世價值觀，並深入到海外事務，甚至不惜重金協助小國防務。這樣小國不自覺地對大國進行了「剝削」。　　大豬在擊破模型的一個假設之後，仍然有一個後發制人的機會。因為大豬和小豬的耐餓能力不一樣，大豬完全有能力撐得更久，小豬如果不想餓死，那只有一條豪賭的路子：龜兔賽跑式的豪賭，但願大豬打了個盹兒，他回來的時候，還能吃上一兩口，要不然真是賠了夫人又折兵了。據此，再也不難解釋為什麼很多人切齒的騰訊，毫無顧忌地跟風，做QQ旋風，做拍拍，做滔滔。因為不甘心的小豬早早把新技術研發的前期搞定了，大豬們只需要悄悄跟隨，適當的時候踢開擋路的，就可以了。　　大豬在這裡的後發制人和槍手博弈的後發並不一致，槍手後發是建立在他人惡鬥的基礎上，大豬後發完全是以自身實力為基礎。而且大豬完全不必採取任何激進措施，只要跟隨就好。因為小豬獲勝的條件不是接近，還是距離。警察與小偷　　令人沮喪的博弈結局。警察和小偷各只有一個機會去巡查或者偷盜A地或B地。A地的價值大於B地，那麼警察應該為了保護價值大而一直保護A地嗎。博弈論認為當然不是，警察的合理策略應當是有傾向於A以一定概率的隨機巡查。這個概率就是：p=A地價值/AB地總價值。這種情況下才能使小偷最大得手幾率降至最低。但是很不幸的是，此時的小偷謀求的是，最小得手幾率的最大化。也就是說，警察的最優策略將把小偷的最差策略改良！這個便是馮·諾伊曼提出的「最小最大定律」。　　我們必須再一次感謝這個不完美的世界，因為現實之中，類似的現象，對於一方仍然可以設法找到對手致命的規律性行動（當然必須考慮到對方是不是一個更加老練的獵手，故意放出的誘餌）。而保持自己的行動的無序性，則有可能成為欺騙策略的武器，這倒似張三丰所言道的：無招勝有招。鬥雞博弈　　兩隻鬥雞在決鬥的時候，無論選擇進或退都是一個難題，因為納什均衡已經給出了一勝一敗的最優策略。在很多較量下，死拼將是得不償失的，因為很可能給第三者機會。因此，兩個已經在戰場的強勢力很可能自覺的遵循納什均衡，當一方攻擊時，另一方暫退。雖然可能某方暫時受損，但較之於兩敗俱傷是好得多的。不過，要維持這一狀況，必須保證下一次先期受損的一方發動攻勢的時候，另一方同樣的後退。於是這樣的攻擊性行為開始變得「儀式化」，沒有人真正流血。這只不過是兩個巨頭玩弄的遊戲，目的是警告後來者，想進來，那麼也得陪我們一起玩，可是你玩的起么？這正是百事的廣告，即使暗含挑釁也最多只到「敢為中國紅」這樣的地步的原因。協和謬誤　　歐洲政府在大量投資協和飛機後，終於不能自拔。即使前景黯淡，也撐著面子投下去，非要走投無路才放棄。而這時投入的成本已經全打水漂了。如果，發現不能繼續的時候，就果敢放手，損失會小得多。可是他們會、能這麼做么？壯士斷腕，是何等的壯烈，卻也是何等的艱難！　　沉沒成本很可能會延續人們無畏的堅持。已經沉沒的本該放棄，可惜大部分有賭徒式的心理，相信阿基米德的槓桿終將啟動。可惜他們在爬到足夠撬動槓桿的支點之前，已經窒息了。　　協和謬誤，倒是給了人們半途而廢的理由，會不會有人擔心它的濫觴會左右一些本該堅持的目標？的確有這個可能，但是應該相信人們足夠理智，完全可以比較沉沒成本、機會成本與未來收益的關係。看清了的，必定會坦然地走出協和謬誤。蜈蚣博弈　　一場顛前倒後的博弈。蜈蚣博弈的機理是以最終的結果倒退至開始。這是一個睿智的策略，因果相報，把握好因緣，自有好結果。它的另一個好處，就是使得未來的計劃明晰化，是你不再徘徊。只可惜，很多時候，碌碌無為的我們並沒有看透迷局的眼睛。我們黑色的眼睛只習慣於黑夜。　　蜈蚣博弈也有一個致命的悖論，仍舊是個人利益和集體利益的衝突，因為最後一次的背叛收益始終優於合作。可悲的是，這一次背叛將由於人性的理智，穿越時光隧道，回到原始的地點：人們將從開始就拒絕合作。還是感謝我們這個不完美的世界吧，事實上人們很少這樣做。當然合作到最後的也很少，這意味著，倒推法只在中間階段突然發生了作用，只不過誰也不能預測，中間一步在哪裡。在那裡，我們只有冀望信任、道德、良知等等。分蛋糕博弈　　兩個小孩怎麼分蛋糕？經典的故事，經典的解答：一個分，一個選。現實多如此，權利的合理分配將有效促進公平與效率。經營權與所有權的分置的確使得經濟更加活力。不過分蛋糕的進階模型卻強調了討價還價的策略，分蛋糕不是一次性的，而是多回合的，而且出現成本：蛋糕在融化。　　時間稱本的加入，將使得分配變得複雜化。雙方如果不能及時達成交易，不僅集體的收益將減量，而且個體的收益也將減少。在此情況下，利用時間稱本以及威脅、承諾將對其中一方極其有利。顧客可能迫於情勢，必須儘快結束談判，這時賣方卻不慌不忙，故意拖延，顧客一方將不得不在價格上作出妥協。　　顧客一方當然也有策略，它的策略就是貨比三家，要求承諾或威脅。這個前提是買方市場的存在。顧客還應當保護自己討價還價的能力，這就是顧客有權投訴商家。鷹鴿博弈　　這個博弈很多人等同於鬥雞博弈。不過，鬥雞是兩個兼具侵略性的個體，鷹鴿卻是兩個不同群體的博弈，一個和平，一個侵略。在只有鴿子一個苞穀場里，突然加入的鷹將大大獲益，並吸引同伴加入。但結果不是鷹將鴿逐出苞穀場，而是一定比例共存，因為鷹群增加一隻鷹的邊際收益趨零時（鷹群發生內鬥），均衡將到來。　　由此產生了ESS進化上的穩定策略，也就是說一旦均衡形成，偏離的運動會受到自然選擇的打擊。也就是鷹群飽滿後，再試圖加入的鷹將會被鷹群排擠。　　進化上的穩定均衡最大的好處莫過於保持穩定。但問題在於形成強勢的路徑依賴，也就是勝出的不一定是最好的。因為最好的會被當作出頭鳥幹掉，這是個體的失敗，集團的勝利以及集體的止步不前。臟臉博弈　　恍然大悟的博弈。三個人在屋子裡，不許說話。美女進來說：你們當中至少一個人臉是髒的。三人環看，沒有反應。美女又說：你們知道嗎？三人再看，頓悟，臉都紅了。為什麼？因為美女後一句廢話點破天機，三個人都知道臟臉的存在，而且推測知道對方也知道了臟臉的存在（因為另兩人臉沒紅，說明他們看到臟臉了），而且知道對方知道自己已經想到上一步……循環開始，知識開始共同化，真相大白：三個人都是臟臉，所有人都臉紅了。　　這就是共同知識的作用，它的作用顯得有點可怕的強大。幾乎是一招無影腿，殺人不見血。在檯面上的博弈之前，私下的算計已經置對手於死地。不過，很可能對方也預料到這一點，早也想到這一點，同時殺來。終於，形成雙死局面。　　當然，現實雖然存在類似現象，不過共同知識更大的作用在於減少交易成本。因為某些規則人盡皆知，雙方只要各自依之行事就可以了。信息均衡　　很顯然，信息的作用在博弈之中非常重要。將博弈論還原到現實，人們不再完全理性，信息存在不對稱，博弈就需要在搶佔信息高地上作出努力。　　信息不對稱，是一個很大的障礙。信息的不對稱會造成「逆向選擇」和「道德風險」，前者事前，後者事後。信息不對稱短期內對某一方會有利，但最終會破壞整個市場。於是有兩個解決策略。信息傳遞　　傳達你的正面的信息的策略，也就是說吸引顧客走到你的櫃檯面前。它的要點是保持有效、減低成本。信息甄別　　誘導對手暴露其私下擁有的真實信息。就是給顧客一個放大鏡，保證顧客不會走到其他櫃檯去。這種策略顯然更加有效，不過風險也更大：萬一顧客用放大鏡看出了了自己的瑕疵怎麼辦
推薦閱讀：

※犯罪客體的概念講義
※說說茶藝的概念
※掌紋的概念
※論實踐概念的三個層次
※【認真想】你需要理解什麼是「可及性」

TAG:博弈論 | 概念 |