博弈論:萬事解決之道
博弈論(Game Theory),有時也稱為對策論,或者賽局理論,是研究具有鬥爭或競爭性 質現象的理論和方法,它是應用數學的一個分支,既是現代數學的一個新分支,也是運籌學的一個重要學科。目前在生物學、經濟學、國際關係學、計算機科學、 政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(遊戲或者博弈(Game))間的相互作用,是研究具有鬥爭或競爭性質現象的數學理論和方法,也是運籌學的一個重要學科。
從現在開始學習博弈論,你會知道如何走出談判的「囚徒困境」;如何改變觀點,從別人的角度來觀察世界;如何「向前展望、向後推理」,按照自己預計的道路走下去;如何獲得「雙贏之道」。
學習博弈論,你會了解到,談判並非總是「你輸多少、我就贏多少」的「零和博弈」,還有大量的對雙方都更有利的協議存在;學習博弈論,不僅僅限於戰勝對方,同時也教你如何建立合作,學習博弈論,就是學習「戰爭與和平」的藝術。
博弈論,又稱對策論,是使用嚴謹的數學模型研究衝突對抗條件下最優決策問題的理論。作為一門正式學科,博弈論是在20世紀40年代形成並發展起來的。
博弈論研究人們的策略互動行為。博弈論認為:一、人是理性的,即人人都會在約束條件下最大化自身的利益;二、人們在交往合作中有衝突,行為互相影響,而且信息不對稱。博弈論研究人們的行為,在直接相互作用時的決策,以及決策的均衡問題。換句話說,博弈論研究如何使得人們在市場經濟中,自願做出大家都遵守和實施的有效制度安排,以增進社會的福利的機制。
博弈論是深刻理解經濟行為和社會問題的基礎。現在人們說的博弈論,一般指非合作博弈論。它的特徵是:人們行為相互作用時,當事人不能達成一個有約束力的協議。或者說,行為人之間的合約對於簽約人沒有實質性約束力。例如,現實中的非合作博弈問題的例子是,石油卡特爾歐佩克的產量協議,對於其成員國就沒有約束力。你心裡想什麼我不知道,我也不想讓你知道我心裡想什麼。因此,協議經常不能堅持到底,總有一國先行增產降價以謀求自己更高的利潤。博弈論的基本概念包括:參與人、行為、信息、戰略、支付函數、結果、均衡。
參與人是指博弈中選擇行動以最大化自身利益(效用、利潤等)的決策主體(如個人、廠商、國家)。
行動是指參與人的決策變數。
戰略是指參與人選擇行動的規則,它告訴參與人在什麼時候選擇什麼行動。
例如,「人不犯我、我不犯人;人若犯我、我必犯人」是一種戰略。這裡,「犯」與「不犯」是兩種不同的行動。戰略規定了什麼時候選擇「犯」,什麼時候選擇「不犯」。
信息是指參與人在博弈中的知識,特別是有關其他參與人(對手)的特徵和行動的知識。
支付函數是參與人從博弈中獲得的效用水平,它是所有參與人戰略或行動的函數,是每個參與人真正關心的東西。結果是指博弈者感興趣的要素的集合。
均衡是所有參與人的最優戰略或行動的組合。
上述概念中,參與人、行動、結果統稱為博弈規則。博弈分析的目的是使用博弈規則決定均衡。
正則形式的博弈(Normal form game)
設定 N 是一個「參與者」(players)的集合。對於每一個「參與者」
都有一個給定的「策略」集合
. 博弈(遊戲)是一個函數, 定義為:
也就是說,如果我們知道了參與者的策略集合是什麼,那麼就可以有一個實數值與之對應。 我們可以把上面的方程拆成兩個方程來進一步把它一般化。一個方程是正則形式(Normal form game)的參與者程,描述策略規定結果的方式。 另外一個方程描寫參與者對於結果(outcome)集合的偏愛(preference)。也就是:
這裡
是遊戲(博弈)的結果集合(outcome set)。對於每一個參與者
都有一個偏愛函數( preference function)
.
展開形式的博弈(Extensive form game)
(參見展開形式的博弈)(Extensive form game)
正則形式的定義為數學家們提供了「均衡」(equilibria)問題的研究一個容易使用的表達式。 因為它避免了怎麼計算「策略」的問題,也就是說遊戲是怎麼進行的問題。 處理這類問題的一個比較方便的表達式, 是展開形式的博弈。 這個形式與組合博弈論關係密切。 這個定義通過一個樹的形式給定。在樹的每一個節點(vertex), 不同的參與者選擇一個邊(edge)。
博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。 表面上不同的相互作用可能表現出相似的激勵結構(incentive structure),所以他們是同一個遊戲的特例。其中一個有名有趣的應用例子是囚徒困境悖論(Prisoner"s dilemma)。
具有競爭或對抗性質的行為成為博弈行為。在這類行為中,參加鬥爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益,各方必須考慮對手的各種可能的行動方案,并力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋,打牌等。博弈論就是研究博弈行為中鬥爭各方是否存在著最合理的行為方案,以及如何找到這個合理的行為方案的數學理論和方法。
生物學家使用博弈理論來理解和預測進化論的某些結果。例如:John Maynard Smith 和George R. Price 在1973年發表於Nature上的論文中提出的「evolutionarily stable strategy」的這個概念就是使用了博弈理論。還可以參見演化博弈理論(evolutionary game theory)和行為生態學(behavioral ecology)。
博弈論也應用於數學的其他分支,如概率、統計和線性規劃等。
根據參與者能否形成約束性的協議,以便集體行動,博弈可分為合作性博弈和非合作性博弈。納什等博弈論專家研究得更多的是非合作性博弈。
所謂合作性博弈是指參與者從自己的利益出發與其他參與者談判達成協議或形成聯盟,其結果對聯盟方均有利;而非合作性博弈是指參與者在行動選擇時無法達成約束性的協議。人們分工與交換的經濟活動就是合作性的博弈,而囚徒困境以及在第八章討論的公共資源悲 劇都是非合作性的博弈。
博弈又分靜態博弈和動態博弈。靜態博弈指參與者同時採取行動,或者儘管參與者行動的採取有先後順序,但後行動的人不知道先採取行動的人採取的是什麼行動。動態博弈指參與者的行動有先後順序,並且後採取行動的人可以知道先採取行動的人所採取的行動。
從知識的擁有程度來看,博弈分為完全信息博弈和不完全信息博弈。信息是博弈論中重要的內容。完全信息博弈指參與者對所有參與者的策略空間及策略組合下的支付有「完全的了解」,否則是不完全信息博弈。嚴格地講,完全信息博弈是指參與者的策略空間及策略組合下的支付,是博弈中所有參與者的「公共知識」的博弈。對於不完全信息博弈,參與者所做的是努力使自己的期望支付或期望效用最大化。
博弈論的發展 博弈論思想古已有之,我國古代的《孫子兵法》就不僅是一部軍事著作,而且算是最早的一部博弈論專著。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經驗上,沒有向理論化發展,正式發展成一門學科則是在20世紀初。
對於博弈論的研究,開始於策墨洛(Zermelo,1913)、波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928),後來由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)首次對其系統化和形式化(參照Myerson, 1991)。隨後約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎。此外,塞爾頓、哈桑尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成一門較完善的的學科。
當代博弈論的「三大家」和「四君子」
"三大家" 包括約翰·福布斯·納什、約翰·C·海薩尼以及萊因哈德·澤爾騰。這三人同時因為他們對博弈論的突出貢獻而獲得1994年的瑞典銀行經濟學獎(也稱諾貝爾經濟學獎)。
"四君子" 包括羅伯特·J·奧曼、肯·賓摩爾、戴維·克瑞普斯以及阿里爾·魯賓斯坦。
博弈論的基本概念 博弈要素:
(1)局中人(players):在一場競賽或博弈中,每一個有決策權的參與者成為一個局中人。只有兩個局中人的博弈現象稱為「兩人博弈」,而多於兩個局中人的博弈稱為 「多人博弈」。
(2)策略(strategiges):一局博弈中,每個局中人都有選擇實際可行的完整的行動方案,即方案不是某階段的行動方案,而是指導整個行動的一個方案,一個局中人的一個可行的自始至終全局籌劃的一個行動方案,稱為這個局中人的一個策略。如果在一個博弈中局中人都總共有有限個策略,則稱為「有限博弈」,否則稱為「無限博弈」。
(3)得失(payoffs):一局博弈結局時的結果稱為得失。每個局中人在一局博弈結束時的得失,不僅與該局中人自身所選擇的策略有關,而且與全局中人所取定的一組策略有關。所以,一局博弈結束時每個局中人的「得失」是全體局中人所取定的一組策略的函數,通常稱為支付(payoff)函數。
(4)次序(orders):各博弈方的決策有先後之分,且一個博弈方要作不止一次的決策選擇,就出現了次序問題;其他要素相同次序不同,博弈就不同。
(5)博弈涉及到均衡:均衡是平衡的意思,在經濟學中,均衡意即相關量處於穩定值。在供求關係中,某一商品市場如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時我們就說,該商品的供求達到了均衡。所謂納什均衡,它是一穩定的博弈結果。
納什均衡(Nash Equilibrium):在一策略組合中,所有的參與者面臨這樣一種情況,當其他人不改變策略時,他此時的策略是最好的。也就是說,此時如果他改變策略他的支付將會降低。在納什均衡點上,每一個理性的參與者都不會有單獨改變策略的衝動。納什均衡點存在性證明的前提是「博弈均衡偶」概念的提出。所謂「均衡偶」是在二人零和博弈中,當局中人A採取其最優策略a*,局中人B也採取其最優策略b*,如果局中人仍採取b*,而局中人A卻採取另一種策略a,那麼局中人A的支付不會超過他採取原來的策略a*的支付。這一結果對局中人B亦是如此。
這樣,「均衡偶」的明確定義為:一對策略a*(屬於策略集A)和策略b*(屬於策略集B)稱之為均衡偶,對任一策略a(屬於策略集A)和策略b(屬於策略集B),總有:偶對(a, b*)≤偶對(a*,b*)≤偶對(a*,b)。
對於非零和博弈也有如下定義:一對策略a*(屬於策略集A)和策略b*(屬於策略集B)稱為非零和博弈的均衡偶,對任一策略a(屬於策略集A)和策略 b(屬於策略集B),總有:對局中人A的偶對(a, b*) ≤偶對(a*,b*);對局中人B的偶對(a*,b)≤偶對(a*,b*)。
有了上述定義,就立即得到納什定理:
任何具有有限純策略的二人博弈至少有一個均衡偶。這一均衡偶就稱為納什均衡點。
納什定理的嚴格證明要用到不動點理論,不動點理論是經濟均衡研究的主要工具。通俗地說,尋找均衡點的存在性等價於找到博弈的不動點。
納什均衡點概念提供了一種非常重要的分析手段,使博弈論研究可以在一個博弈結構里尋找比較有意義的結果。
但納什均衡點定義只局限於任何局中人不想單方面變換策略,而忽視了其他局中人改變策略的可能性,因此,在很多情況下,納什均衡點的結論缺乏說服力,研究者們形象地稱之為「天真可愛的納什均衡點」。
塞爾頓(R·Selten)在多個均衡中剔除一些按照一定規則不合理的均衡點,從而形成了兩個均衡的精鍊概念:子博弈完全均衡和顫抖的手完美均衡。
博弈的類型 博弈的分類根據不同的基準也有不同的分類。一般認為,博弈主要可以分為合作博弈和非合作博弈。 合作博弈和非合作博弈的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時間序列性,博弈論進一步分為靜態博弈、動態博弈兩類: 靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動;
動態博弈是指在博弈中,參與人的行動有先後順序,且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬於靜態博弈;而棋牌類遊戲等決策或行動有先後次序的,屬於動態博弈
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。 完全博弈是指在博弈過程中,每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。
不完全信息博弈是指如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈就是不完全信息博弈。
目前經濟學家們現在所談的博弈論一般是指非合作博弈,由於合作博弈論比非合作博弈論複雜,在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。與上述四種博弈相對應的均衡概念為:納什均衡(Nash equilibrium),子博弈精鍊納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精鍊貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
博弈論還有很多分類,比如:以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈;以表現形式也可以分為一般型(戰略型)或者展開型,等等。
博弈論的意義 博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣,都是從複雜的現象中抽象出基本的元素,對這些元素構成的數學模型進行分析,而後逐步引入對其形勢產影響的其他因素,從而分析其結果。
基於不同抽象水平,形成三種博弈表述方式,標準型、擴展型和特徵函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經濟學、政治學、社會學等等,被各門社會科學所應用。
博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣,都是從複雜的現象中抽象出基本的元素,對這些元素構成的數學模型進行分析,而後逐步引入對其形勢產影響的其他因素,從而分析其結果。
基於不同抽象水平,形成三種博弈表述方式,標準型、擴展型和特徵函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經濟學、政治學、社會學等等,被各門社會科學所應用。
博弈論是指某個個人或是組織,面對一定的環境條件,在一定的規則約束下,依靠所掌握的信息,從各自選擇的行為或是策略進行選擇並加以實施,並從各自取得相應結果或收益的過程,在經濟學上博弈論是個非常重要的理論概念。
什麼是博弈論?古語有云,世事如棋。生活中每個人如同棋手,其每一個行為如同在一張看不見的棋盤上布一個子,精明慎重的棋手們相互揣摩、相互牽制,人人爭贏,下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們 「出棋」 著數中理性化、邏輯化的部分,並將其系統化為一門科學。換句話說,就是研究個體如何在錯綜複雜的相互影響中得出最合理的策略。事實上,博弈論正是衍生於古老的遊戲或曰博弈如象棋、撲克等。數學家們將具體的問題抽象化,通過建立自完備的邏輯框架、體系研究其規律及變化。這可不是件容易的事情,以最簡單的二人對弈為例,稍想一下便知此中大有玄妙:若假設雙方都精確地記得自己和對手的每一步棋且都是最「理性」 的棋手,甲出子的時候,為了贏棋,得仔細考慮乙的想法,而乙出子時也得考慮甲的想法,所以甲還得想到乙在想他的想法,乙當然也知道甲想到了他在想甲的想法…
面對如許重重迷霧,博弈論怎樣著手分析解決問題,怎樣對作為現實歸納的抽象數學問題求出最優解、從而為在理論上指導實踐提供可能性呢?現代博弈理論由匈牙利大數學家馮·諾伊曼於20世紀20年代開始創立,1944年他與經濟學家奧斯卡·摩根斯特恩合作出版的巨著《博弈論與經濟行為》,標誌著現代系統博弈理論的初步形成。對於非合作、純競爭型博弈,諾伊曼所解決的只有二人零和博弈--好比兩個人下棋、或是打乒乓球,一個人贏一著則另一個人必輸一著,凈獲利為零。在這裡抽象化後的博弈問題是,已知參與者集合(兩方) ,策略集合(所有棋著) ,和盈利集合(贏子輸子) ,能否且如何找到一個理論上的「解」 或「平衡」 ,也就是對參與雙方來說都最「合理」 、最優的具體策略?怎樣才是「合理」 ?應用傳統決定論中的「最小最大」 準則,即博弈的每一方都假設對方的所有功略的根本目的是使自己最大程度地失利,並據此最優化自己的對策,諾伊曼從數學上證明,通過一定的線性運算,對於每一個二人零和博弈,都能夠找到一個「最小最大解」 。通過一定的線性運算,競爭雙方以概率分布的形式隨機使用某套最優策略中的各個步驟,就可以最終達到彼此盈利最大且相當。當然,其隱含的意義在於,這套最優策略並不依賴於對手在博弈中的操作。用通俗的話說,這個著名的最小最大定理所體現的基本「理性」 思想是「抱最好的希望,做最壞的打算」 。
博弈論分析 一、經濟學中的「智豬博弈」(Pigs』payoffs) 這個例子講的是:豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。
那麼,兩隻豬各會採取什麼策略?答案是:小豬將選擇「搭便車」策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。
原因何在?因為,小豬踩踏板將一無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。
「小豬躺著大豬跑」的現象是由於故事中的遊戲規則所導致的。規則的核心指標是:每次落下的事物數量和踏板與投食口之間的距離。
如果改變一下核心指標,豬圈裡還會出現同樣的「小豬躺著大豬跑」的景象嗎?試試看。
改變方案一:減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。
如果目的是想讓豬們去多踩踏板,這個遊戲規則的設計顯然是失敗的。 改變方案二:增量方案。投食為原來的一倍分量。結果是小豬、大豬都會去踩踏板。誰想吃,誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當於生活在物質相對豐富的「共產主義」社會,所以競爭意識卻不會很強。
對於遊戲規則的設計者來說,這個規則的成本相當高(每次提供雙份的食物);而且因為競爭不強烈,想讓豬們去多踩踏板的效果並不好。
改變方案三:減量加移位方案。投食僅原來的一半分量,但同時將投食口移到踏板附近。結果呢,小豬和大豬都在拚命地搶著踩踏板。等待者不得食,而多勞者多得。每次的收穫剛好消費完。
對於遊戲設計者,這是一個最好的方案。成本不高,但收穫最大。
原版的「智豬博弈」故事給了競爭中的弱者(小豬)以等待為最佳策略的啟發。但是對於社會而言,因為小豬未能參與競爭,小豬搭便車時的社會資源配置的並不是最佳狀態。為使資源最有效配置,規則的設計者是不願看見有人搭便車的,政府如此,公司的老闆也是如此。而能否完全杜絕「搭便車」現象,就要看遊戲規則的核心指標設置是否合適了。
比如,公司的激勵制度設計,獎勵力度太大,又是持股,又是期權,公司職員個個都成了百萬富翁,成本高不說,員工的積極性並不一定很高。這相當於「智豬博弈」增量方案所描述的情形。但是如果獎勵力度不大,而且見者有份(不勞動的「小豬」也有),一度十分努力的大豬也不會有動力了----就象「智豬博弈」減量方案一所描述的情形。最好的激勵機制設計就象改變方案三----減量加移位的辦法,獎勵並非人人有份,而是直接針對個人(如業務按比例提成),既節約了成本(對公司而言),又消除了「搭便車」現象,能實現有效的激勵。
許多人並未讀過「智豬博弈」的故事,但是卻在自覺地使用小豬的策略。股市上等待莊家抬轎的散戶;等待產業市場中出現具有贏利能力新產品、繼而大舉仿製牟取暴利的遊資;公司里不創造效益但分享成果的人,等等。因此,對於制訂各種經濟管理的遊戲規則的人,必須深諳「智豬博弈」指標改變的個中道理。
二、囚徒困境博弈 在博弈論中,含有佔優戰略均衡的一個著名例子是由塔克給出的「囚徒困境」(prisoners』 dilemma)博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。下表給出了這個博弈的支付矩陣。
表 囚徒困境博弈 [Prisoner"s dilemma]
B 坦白 B 抵賴 A 坦白 –8, –8 0, –10 A 抵賴 –10, 0 –1, –1
我們來看看這個博弈可預測的均衡是什麼。對A來說,儘管他不知道B作何選擇,但他知道無論B選擇什麼,他選擇「坦白」總是最優的。顯然,根據對稱性,B也會選擇「坦白」,結果是兩人都被判刑8年。但是,倘若他們都選擇「抵賴」,每人只被判刑1年。在表2.2中的四種行動選擇組合中,(抵賴、抵賴)是帕累托最優的,因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使一個人的境況變差。不難看出,「坦白」是任一犯罪嫌疑人的佔優戰略,而(坦白,坦白)是一個佔優戰略均衡。
要了解納什的貢獻,首先要知道什麼是非合作博弈問題。現在幾乎所有的博弈論教科書上都會講「囚犯的兩難處境」的例子,每本書上的例子都大同小異。
博弈論畢竟是數學,更確切地說是運籌學的一個分支,談經論道自然少不了數學語言,外行人看來只是一大堆數學公式。好在博弈論關心的是日常經濟生活問題,所以不能不食人間煙火。其實這一理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語,聽上去有點玄奧,實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局,常常寓深刻道理於遊戲之中。所以,多從我們的日常生活中的凡人小事入手,以我們身邊的故事做例子,娓娓道來,並不乏味。
話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。
檢察官說,「由於你們的偷盜罪已有確鑿的證據,所以可以判你們一年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我只判你三個月的監禁,但你的同夥要被判十年刑。如果你拒不坦白,而被同夥檢舉,那麼你就將被判十年刑,他只判三個月的監禁。但是,如果你們兩人都坦白交代,那麼,你們都要被判5年刑。」斯卡爾菲絲和那庫爾斯該怎麼辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月,但前提是同夥抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不划算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判5年,總比被判 10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(被判1年刑)就不會出現。
這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為「納什均衡」,也叫非合作均衡。因為,每一方在選擇策略時都沒有「共謀」(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構成。沒有人會主動改變自己的策略以便使自己獲得更大利益。「囚徒的兩難選擇」有著廣泛而深刻的意義。個人理性與集體理性的衝突,各人追求利己行為而導致的最終結局是一個「納什均衡」,也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。只有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監禁的結果。「納什均衡」首先對亞當·斯密的「看不見的手」的原理提出挑戰。按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。
不妨讓我們重溫一下這位經濟學聖人在《國富論》中的名言:「通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。」從「納什均衡」我們引出了「看不見的手」的原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,「納什均衡」提出的悖論實際上動搖了西方經濟學的基石。因此,從「納什均衡」中我們還可以悟出一條真理:合作是有利的「利己策略」。但它必須符合以下黃金律:按照你願意別人對你的方式來對別人,但只有他們也按同樣方式行事才行。也就是中國人說的「己所不欲勿施於人」。但前提是人所不欲勿施於我。其次,「納什均衡」是一種非合作博弈均衡,在現實中非合作的情況要比合作情況普遍。所以「納什均衡」是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展,甚至可以說是一場革命。
從「納什均衡」的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象。我們將例舉出許多類似於「囚徒的兩難處境」 這樣的例子。如價格戰、軍奮競賽、污染等等。一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略 (strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關係被選擇,每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。
三、價格戰博弈 現在我們經常會遇到各種各樣的家電價格大戰,彩電大戰、冰箱大戰、空調大戰、微波爐大戰……這些大戰的受益者首先是消費者。每當看到一種家電產品的價格大戰,百姓都會「沒事兒偷著樂」。在這裡,我們可以解釋廠家價格大戰的結局也是一個「納什均衡」,而且價格戰的結果是誰都沒錢賺。因為博弈雙方的利潤正好是零。競爭的結果是穩定的,即是一個「納什均衡」。這個結果可能對消費者是有利的,但對廠商而言是災難性的。所以,價格戰對廠商而言意味著自殺。從這個案例中我們可以引伸出兩個問題,一是競爭削價的結果或「納什均衡」可能導致一個有效率的零利潤結局。二是如果不採取價格戰,作為一種敵對博弈論 (vivalry game)其結果會如何呢?每一個企業,都會考慮採取正常價格策略,還是採取高價格策略形成壟斷價格,並儘力獲取壟斷利潤。如果壟斷可以形成,則博弈雙方的共同利潤最大。這種情況就是壟斷經營所做的,通常會抬高價格。另一個極端的情況是廠商用正常的價格,雙方都可以獲得利潤。從這一點,我們又引出一條基本準則:「把你自己的戰略建立在假定對手會按其最佳利益行動的基礎上」。事實上,完全競爭的均衡就是「納什均衡」或「非合作博弈均衡」。在這種狀態下,每一個廠商或消費者都是按照所有的別人已定的價格來進行決策。在這種均衡中,每一企業要使利潤最大化,消費者要使效用最大化,結果導致了零利潤,也就是說價格等於邊際成本。在完全競爭的情況下,非合作行為導致了社會所期望的經濟效率狀態。如果廠商採取合作行動並決定轉向壟斷價格,那麼社會的經濟效率就會遭到破壞。這就是為什麼WTO和各國政府要加強反壟斷的意義所在。
四、污染博弈: 假如市場經濟中存在著污染,但政府並沒有管制的環境,企業為了追求利潤的最大化,寧願以犧牲環境為代價,也絕不會主動增加環保設備投資。按照看不見的手的原理,所有企業都會從利己的目的出發,採取不顧環境的策略,從而進入「納什均衡」狀態。如果一個企業從利他的目的出發,投資治理污染,而其他企業仍然不顧環境污染,那麼這個企業的生產成本就會增加,價格就要提高,它的產品就沒有競爭力,甚至企業還要破產。這是一個「看不見的手的有效的完全競爭機制」失敗的例證。直到20世紀90年代中期,中國鄉鎮企業的盲目發展造成嚴重污染的情況就是如此。只有在政府加強污染管制時,企業才會採取低污染的策略組合。企業在這種情況下,獲得與高污染同樣的利潤,但環境將更好。
五、貿易戰博弈論 這個問題對於剛剛加入WTO的中國而言尤為重要。任何一個國家在國際貿易中都面臨著保持貿易自由與實行貿易保護主義的兩難選擇。貿易自由與壁壘問題,也是一個「納什均衡」,這個均衡是貿易雙方採取不合作博弈的策略,結果使雙方因貿易戰受到損害。X國試圖對Y國進行進口貿易限制,比如提高關稅,則Y國必然會進行反擊,也提高關稅,結果誰也沒有撈到好處。反之,如X和Y能達成合作性均衡,即從互惠互利的原則出發,雙方都減少關稅限制,結果大家都從貿易自由中獲得了最大利益,而且全球貿易的總收益也增加了。
博弈論--這是一個熱得燙手的概念。它不僅僅存在於數學的運籌學中,也正在經濟學中佔據越來越重要的地位(近幾年諾貝爾經濟學獎就頻頻授予博弈論研究者),但如果你認為博弈論的應用領域僅限於此的話,那你就大錯了。實際上,博弈論甚至在我們的工作和生活中無處不在!在工作中,你在和上司博弈,也在和下屬博弈,你也同樣會跟其他相關部門人員博弈;而要開展業務,你更是在和你的客戶以及競爭對手博弈。在生活中,博弈仍然無處不在。博弈論代表著一種全新的分析方法和全新的思想。
諾貝爾經濟學獎獲得者包羅·薩繆爾遜如是說:要想在現代社會做個有價值的人,你就必須對博弈論有個大致的了解。也可以這樣說,要相贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。
博弈論與納什平衡 博弈論(game theory)對人的基本假定是:人是理性的(rational,或者說自私的),理性的人是指他在具體策略選擇時的目的是使自己的利益最大化,博弈論研究的是理性的人之間如何進行策略選擇的。
納什(John Nash)編製的博弈論經典故事"囚徒的困境",說明了非合作博弈及其均衡解的成立,故稱"納什平衡"。
所有的博弈問題都會遇到三個要素。在囚徒的故事中,兩個囚徒是當事人(players)又稱參與者;當事人所做的選擇策略 (strategies)是承認了殺人事實,最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人,另外一個抵賴,不承認殺人,那麼承認者將會得到減刑處理,而抵賴者將會得到最嚴厲的死刑判決,在納什故事中兩個人都承認了犯罪事實,所以兩個囚徒得到的是中間的結果。
類似的: 我們也能從「自私的基因」等理論中看到「納什平衡」的體現。
在互聯網這個原始叢林中:最優策略是如何產生的呢?
博弈中最優策略的產生 艾克斯羅德(Robert Axelrod)在開始研究合作之前,設定了兩個前提:一、每個人都是自私的;二、沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進行決策。在此前提下,合作要研究的問題是:第一、人為什麼要合作;第二、人什麼時候是合作的,什麼時候又是不合作的;第三、如何使別人與你合作。
社會實踐中有很多合作的問題。比如國家之間的關稅報復,對他國產品提高關稅有利於保護本國的經濟,但是國家之間互提關稅,產品價格就提高了,喪失了競爭力,損害了國際貿易的互補優勢。在對策中,由於雙方各自追求自己利益的最大化,導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。
A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。
顯然,對群體來說最好的結果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。
對策學界用這個矩陣來描述個體理性與群體理性的衝突:每個人在追求個體利益最大化時,就使群體利益受損,這就是囚徒困境。在矩陣中,對於A來說,當對方選 C,他選D得5分,選C只得3分;當對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇,即A,B都選D時,結果是各得1分。這個結果在矩陣中並非最優。困境就在於,每個人採取各自的優超策略時,得出的解是穩定的,但不是帕累托最優的,這個結果體現了個體理性與群體理性的矛盾。在數學上,這個一次性決策的矩陣沒有最優解。
如果博弈進行多次,只要對策者知道博弈次數,他們在最後一次肯定採取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,因此,在次數已知的多次博弈中,對策者沒有一次會合作。
如果博弈在多人間進行,而且次數未知,對策者就會意識到,當持續地採取合作並達成默契時,對策者就能持續地各得3分,但如果持續地不合作的話,每個人就永遠得1分。這樣,合作的動機就顯現出來。多次對局下,未來的收益應比現在的收益多一個折現率W,W越大,表示未來的收益越重要。在多人對策持續進行下去,且W比較大,即未來充分重要時,最優的策略是與別人採取的策略有關的。假設某人的策略是,第一次合作,以後只要對方不合作一次,他就永不合作。對這種對策者,當然合作下去是上策。假如有的人不管對方採取什麼策略,他總是合作,那麼總是對他採取不合作的策略得分最多。對於總是不合作的人,也只能採取不合作的策略。
艾克斯羅德做了一個實驗,邀請多人來參加遊戲,得分規則與前面的矩陣相同,什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序,然後用單循環賽的方式將參賽程序兩兩博弈,以找出什麼樣的策略得分最高。
第一輪遊戲有14個程序參加,再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是,第一次對局採用合作的策略,以後每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發現,得分排在前面的程序有三個特點:第一,從不首先背叛,即"善良的";第二,對於對方的背叛行為一定要報復,不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復,以後人家只要改為合作,你也要合作,即"寬容性"。
為了進一步驗證上述結論,艾氏決定邀請更多的人再做一次遊戲,並把第一次的結果公開發表。第二次徵集到了62個程序,加上他自己的隨機程序,又進行了一次競賽。結果,第一名的仍是"一報還一報"。艾氏總結這次遊戲的結論是:第一,"一報還一報"仍是最優策略。第二,前面提到的三個特點仍然有效,因為63人中的前15名里,只有第8名的哈靈頓程序是"不善良的",後15名中,只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點是"清晰性",能讓對方在三、五步對局內辨識出來,太複雜的對策不見得好。"一報還一報"就有很好的清晰性,讓對方很快發現規律,從而不得不採取合作的態度。
合作的進行過程及規律 "一報還一報"的策略在靜態的群體中得到了很好的分數,那麼,在一個動態的進化的群體中,這種合作者能否產生、發展、生存下去呢?群體是會向合作的方向進化,還是向不合作的方向進化?如果大家開始都不合作,能否在進化過程中產生合作?為了回答這些疑問,艾氏用生態學的原理來分析合作的進化過程。
假設對策者所組成的策略群體是一代一代進化下去的,進化的規則包括:一,試錯。人們在對待周圍環境時,起初不知道該怎麼做,於是就試試這個,試試那個,哪個結果好就照哪個去做。第二,遺傳。一個人如果合作性好,他的後代的合作基因就多。第三,學習。比賽過程就是對策者相互學習的過程,"一報還一報"的策略好,有的人就願意學。按這樣的思路,艾氏設計了一個實驗,假設63個對策者中,誰在第一輪中的得分高,他在第二輪的群體中所佔比例就越高,而且是他的得分的正函數。這樣,群體的結構就會在進化過程中改變,由此可以看出群體是向什麼方向進化的。
實驗結果很有趣。"一報還一報"原來在群體中佔1/63,經過1000代的進化,結構穩定下來時,它佔了24%。另外,有一些程序在進化過程中消失了。其中有一個值得研究的程序,即原來前15名中唯一的那個"不善良的"哈靈頓程序,它的對策方案是,首先合作,當發現對方一直在合作,它就突然來個不合作,如果對方立刻報復它,它就恢複合作,如果對方仍然合作,它就繼續背叛。這個程序一開始發展很快,但等到除了"一報還一報"之外的其它程序開始消失時,它就開始下降了。因此,以合作係數來測量,群體是越來越合作的。
進化實驗揭示了一個哲理:一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時,得分不可能超過對方,最多打個平手,但它的總分最高。它賴以生存的基礎是很牢固的,因為它讓對方得到了高分。哈靈頓程序就不是這樣,它得到高分時,對方必然得到低分。它的成功是建立在別人失敗的基礎上的,而失敗者總是要被淘汰的,當失敗者被淘汰之後,這個好占別人便宜的成功者也要被淘汰。
那麼,在一個極端自私者所組成的不合作者的群體中,"一報還一報"能否生存呢?艾氏發現,在得分矩陣和未來的折現係數一定的情況下,可以算出,只要群體的 5%或更多成員是"一報還一報"的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個合作的群體就會越來越大,最後蔓延到整個群體。反之,無論不合作者在一個合作者占多數的群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進化的棘輪是不可逆轉的,群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論,突破了"囚犯困境"的研究困境。
在研究中發現,合作的必要條件是:第一、關係要持續,一次性的或有限次的博弈中,對策者是沒有合作動機的;第二、對對方的行為要做出回報,一個永遠合作的對策者是不會有人跟他合作的。
那麼,如何提高合作性呢?首先,要建立持久的關係,即使是愛情也需要建立婚姻契約以維持雙方的合作。(火車站的小販為什麼要騙人?為什麼工作中要形成小組制度?換防的時候一方總是要小小地進攻一下的,在中越前線就是這樣)第二、要增強識別對方行動的能力,如果不清楚對方是合作還是不合作,就沒法回報他了。第三、要維持聲譽,說要報復就一定要做到,人家才知道你是不好欺負的,才不敢不與你合作。第四、能夠分步完成的對局不要一次完成,以維持長久關係,比如,貿易、談判都要分步進行,以促使對方採取合作態度。第五、不要嫉妒人家的成功,"一報還一報"正是這樣的典範。第六、不要首先背叛,以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報,對合作也要作出回報。第八、不要耍小聰明,占人家便宜。
艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件,即使是敵人,只要滿足了關係持續,互相回報的條件,也有可能合作。比如,第一次世界大戰期間,德英兩軍在戰壕戰中遇上了三個月的雨季,雙方在這三個月中達成了默契,互相不攻擊對方的糧車給養,到大反攻時再你死我活地打。這個例子說明,友誼不是合作的前提。第二、預見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是,當有預見性的人類了解了合作的規律之後,合作進化的過程就會加快。這時,預見性是有用的,學習也是有用的。
當遊戲中考慮到隨機干擾,即對策者由於誤會而開始互相背叛的情形時,吳堅忠博士經研究發現,以修正的"一報還一報",即以一定的概率不報復對方的背叛,和 "悔過的一報還一報",即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強,"悔過的一報還一報"效果越好,"寬大的一報還一報"效果越差。
艾克斯羅德的貢獻與局限性 艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境,達成合作,將這項研究帶到了一個全新境界,他在數學上的證明無疑是十分雄辯和令人信服的,而且,他在計算機模擬中得出的一些結論是非常驚人的發現,比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項羽的戰爭)
艾氏所發現的"一報還一報"策略,從社會學的角度可以看作是一種"互惠式利他",這種行為的動機是個人私利,但它的結果是雙方獲利,並通過互惠式利他有可能覆蓋了範圍最廣的社會生活,人們通過送禮及回報,形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時,與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式,比如社會聲譽的獲得,得到了回報。研究這種行為,將對我們理解社會生活有很重要的意義。
囚徒困境擴展為多人博弈時,就體現了一個更廣泛的問題──"社會悖論",或"資源悖論"。人類共有的資源是有限的,當每個人都試圖從有限的資源中多拿一點兒時,就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通阻塞,都可以在社會悖論中得以解釋,在這些問題中,關鍵是通過研究,制定遊戲規則來控制每個人的行為。
推薦閱讀:
※「花錢」與「掙錢」的博弈
※「毛衣戰」會變成「秋褲戰」嗎?
※博弈論研究
※《博弈心理學》筆記以及一些感悟
※經典益智謎題之海盜分金
TAG:博弈論 |