標籤:

博弈論基礎

博弈論基礎

第一節 博弈問題概述

一、博弈的基本概念

博弈論(gametheory)是研究決策主體的行為發生直接相互作用時候的決策以及這種決策的均衡問題的。換句話說,博弈論研究當某一經濟主體的決策既受到其它經濟主體決策的影響,而且該經濟主體的相應決策又反過來影響到其它經濟主體時的決策問題和均衡問題。

在前面幾章中,除了寡頭市場外,無論是消費者的個人效用函數,還是廠商的利潤函數,都只依賴於他自己的選擇,而與其他人的選擇無關。在這裡,經濟作為一個整體,各個經濟主體的選擇是相互影響的。但對於單個的消費者或廠商來說,所有其它經濟主體的行為都被包括在一個參數里。這個參數就是價格。除此以外,經濟主體在決策時,面臨的似乎是一個非人格化的東西。經濟主體既不需要考慮他人的選擇對自己選擇的影響,也何必需要考慮自己的選擇對他人的影響。而在本章所介紹的博弈論中,消費者的個人效用函數或廠商的利潤函數不僅依賴於自己的選擇,而且依賴於具體的某一個或某一些其它經濟主體的選擇。某一消費者或廠商的最優選擇是其它某一些經濟主體選擇的函數。

博弈論的基本概念包括:參與人、行為、信息、戰略、支付函數、結果、均衡。

參與人是指博弈中選擇行動以最大化自身利益(效用、利潤等)的決策主體(如個人、廠商、國家)。

行動是指參與人的決策變數。

戰略是指參與人選擇行動的規則,它告訴參與人在什麼時候選擇什麼行動。

例如,「人不犯我、我不犯人;人若犯我、我必犯人」是一種戰略。這裡,「犯」與「不犯」是兩種不同的行動。戰略規定了什麼時候選擇「犯」,什麼時候選擇「不犯」。

信息是指參與人在博弈中的知識,特別是有關其他參與人(對手)的特徵和行動的知識。

支付函數是參與人從博弈中獲得的效用水平,它是所有參與人戰略或行動的函數,是每個參與人真正關心的東西。結果是指博弈者感興趣的要素的集合。

均衡是所有參與人的最優戰略或行動的組合。

上述概念中,參與人、行動、結果統稱為博弈規則。博弈分析的目的是使用博弈規則決定均衡。

二、博弈的分類

可以從不同的角度對博弈進行分類。

根據博弈者選擇的戰略,可以將博弈分成合作博弈(cooperative games)與非合作博弈(non-cooperative games).合作博弈與非合作博弈之間的區別,主要在於博弈的當事人之間能否達成一個有約束力的協議。如果有,就是合作博弈;反之,就是非合作博弈。例如,如果幾家寡頭通過訂立並實行協議,限制產量,制定壟斷高價,則稱這種博弈為合作博弈。若寡頭們在市場競爭中沒有達成有約束里的協議,每個企業僅僅是在考慮到競爭對手可能採取的行為的條件下,獨立地進行產量與價格的決定,則稱這種博弈為非合作博弈。

根據參與人行動的先後順序,可以將博弈分成靜態博弈(static game)與動態博弈(dynamic game)。靜態博弈是指,博弈中參與人同時選擇行動;或者雖非同時行動,但行動在後者並不知道行動在先者採取了什麼具體行動。動態博弈是指參與人的行動有先後順序,而且行動在後者可以觀察到行動在先者的選擇,並據此作出相應的選擇。

根據參與人對其他參與人的了解程度,可以將博弈分成完全信息博弈(games of complete information)和不完全信息博弈(games of incomplete information)。完全信息博弈是指:在每個參與人對所有其他參與人(對手)的特徵、戰略和支付函數都有精確了解的情況下,所進行的博弈。如果了解得不夠精確,或者不是對所有的參與人都有精確的了解,在這種情況下進行的博弈就是不完全信息博弈。

在以下的幾節中,首先介紹非合作博弈,然後介紹合作博弈。而非合作博弈的介紹又分成四種情況分別介紹。這四種情況是:完全信息靜態博弈、完全信息動態博弈、不完全信息靜態博弈和不完全信息動態博弈。

第二節 完全信息靜態博弈

一、佔優戰略均衡

一般來說,由於每個參與人的效用(支付)是博弈中所有參與人的戰略的函數,因而每個參與人的最優戰略選擇依賴於所有其他參與人的戰略選擇。但在一些特殊的博弈中,一個參與人的最優戰略可能並不依賴於其他參與人的戰略選擇。換句話說,不論其他參與人選擇什麼戰略,他的最優戰略是唯一的,這樣的最優戰略被稱為「佔優戰略」(dominant strategies)。

以博弈論中最著名的囚徒困境(prisoner』s dilemma)為例。兩個合夥作案的犯罪嫌疑人被抓住了。警方懷疑他們作了許多的案子,但除了其中的一小部分外,警方手中並沒有他們作案的確切證據,因而對這兩個犯罪嫌疑人犯罪事實的認定及相應的量刑取決於他們自己的供認。假定警方對兩名犯罪嫌疑人實行隔離審訊,二者無法訂立攻守同盟。同時警方局明確地分別告訴這兩名犯罪嫌疑人,他們面臨著來以下後果。即

如果犯罪嫌疑人與其同夥都供認其全部犯罪事實,那麼,由於其罪行的嚴重性,兩人各判8年徒刑。

如果某一犯罪嫌疑人供認其全部犯罪事實,而其同夥抵賴,則供認者坦白從寬,從輕判處1年徒刑,而不供認者抗拒從嚴,從重判處10年徒刑。

如果兩個犯罪嫌疑人都不供認警方所不知道的犯罪事實。那麼,根據已經掌握的證據,只能判處他們每人2年徒刑。

表7-1 囚徒困境

囚徒B坦白 抵賴

囚徒A 坦白 -8,-8 -1,-10

抵賴 -10,-1 -2,-2

這兩個犯罪嫌疑人所面臨的後果可以用表7-1來表示。表中,正數值表示參與人有所得,負數值表示參與人有所失。

在表7-1中,每個犯罪嫌疑人都有兩種可供選擇的戰略:坦白或抵賴。但不論同夥選擇什麼戰略,每個犯罪嫌疑人的最優戰略是坦白。以犯罪嫌疑人A為例。當犯罪嫌疑人B選擇坦白時,A如也選擇坦白,則被判處8年徒刑,A如選擇抵賴,則將被判處10年徒刑。因而A選擇坦白比選擇抵賴好。當犯罪嫌疑人B選擇抵賴時,A如選擇坦白,則被判處1年徒刑,A如選擇抵賴,則將被判處2年徒刑。因而A選擇坦白還是比選擇抵賴好。因此,坦白是犯罪嫌疑人A的佔優戰略。對於犯罪嫌疑人B來說,坦白同樣也是他的佔優戰略。

在博弈中,如果所有的參與人都有佔優戰略存在,因而博弈將在所有參與人的佔優戰略的基礎上達到均衡,這種均衡稱為佔優戰略均衡。在表7-1中,「A坦白,B也坦白」就是佔優戰略均衡。

應該指出的是,佔優戰略均衡只要求所有的參與人是理性的,而並不要求每個參與人知道其他參與人也是理性的。因為,不論其他參與人是否理性,佔優戰略總是一個理性參與人的最優選擇。

在表7-1中,如果每個犯罪嫌疑人都選擇抵賴,則每人將被判處2年徒刑。對於兩個犯罪嫌疑人來說,這顯然比每人判處8年徒刑要好。但由於AB兩人均從個人角度出發,如果不存在某種約束,他們不可能在「A和B一起抵賴」的基礎上達到均衡。

囚徒困境反映了一個深刻的問題,這就是個人理性與團體理性的衝突。微觀經濟學的基本觀點之一,是可以通過市場機制這隻「看不見的手」,在人人追求自身利益最大化的基礎上達到全社會資源的最優配置。囚徒困境是對上述基本觀點的挑戰。

二、重複剔除的佔優戰略均衡

在絕大多數博弈中,佔優戰略均衡是不存在的。儘管如此,在有些博弈中,我們仍然可以用佔優的邏輯找出均衡。

表7-2 按按鈕對於吃食量的影響

按按鈕的豬 吃到的豬食數量大豬 小豬

大豬 4單位 4單位

小豬 7單位 1單位

兩豬同時 5單位 3單位

以博弈論中另一個著名的智豬博弈(boxed pigs)為例。豬圈裡有兩頭豬,大豬和小豬。豬圈的一頭有一個豬食槽,另一頭安裝著一個控制著豬食供應的按鈕。按一下按鈕,將有8個單位的豬食進入豬食槽,供兩頭豬食用。可供大豬和小豬選擇的戰略有兩種,自己去按按鈕,或者等待另一頭豬去按按鈕。如果某一頭豬作出自己去按按鈕的選擇,它必須付出下列代價:第一,它需要支付相當於2個單位豬食的成本;第二,由於按鈕遠離豬食槽,它將成為豬食槽邊的後到者,從而減少能夠吃到的豬食數量。具體情況如表7-2所示。

表7-3 智豬博弈

小豬按按鈕 等待

大豬 按按鈕 3,1 2,4

等待 7,-1 0,0

智豬博弈的後果如表7-3所示。表中的數字表示不同情況下每頭豬所吃到的豬食數量減去按按鈕的成本之後的凈支付水平。

表7-3表明,在這個博弈中,無論大豬選擇什麼戰略,小豬的佔優戰略均為等待。而對大豬來說,其最優戰略依賴於小豬的選擇。如果小豬選擇等待,大豬的最優戰略是按按鈕;如果小豬選擇按按鈕,則大豬的最優戰略是等待。換句話說,大豬沒有佔優戰略。

什麼是這一博弈的均衡解呢?假定小豬是理性的,它肯定會選擇自己的佔優戰略——等待。再假定大豬知道小豬是理性的,則大豬會正確地預測到小豬會選擇等待,根據小豬的這一選擇,大豬選擇了在此前提下自己的最優戰略——按按鈕。在這種情況下大豬和小豬的支付水平分別是2單位和4單位。這是一個多勞不多得、少勞不少得的均衡。

在尋找智豬博弈的均衡解時,我們所使用的做法可以歸納如下:首先找出某一博弈參與人的嚴格劣戰略,將它剔除掉,重新構造一個不包括已剔除戰略的新的博弈;然後繼續剔除這個新的博弈中某一參與人的嚴格劣戰略;重複進行這一過程,直到剩下唯一的參與人戰略組合為止。這個唯一剩下的參與人戰略組合,就是這個博弈的均衡解,稱為「重複剔除的佔優戰略均衡」(iterated dominance equilibrium).這裡所說的劣戰略(dominated strategies),是指在其他博弈參與人戰略為既定的條件下,某一參與人可能採取的戰略中,對自己相對不利的戰略。嚴格劣戰略(strictly dominated strategies)則是指:無論其他博弈參與人採取什麼戰略,某一參與人可能採取的戰略中,對自己相對不利的戰略。

在智豬博弈中,我們首先剔除了小豬的嚴格劣戰略「按按鈕」。在剔除掉小豬的這一選擇後的新的博弈中,小豬只有等待一個戰略,而大豬有兩個戰略可供選擇。我們再剔除新博弈中大豬的嚴格劣戰略「等待」,從而達到重複剔除的佔優戰略均衡。

在現實生活中有許多智豬博弈的例子。例如,在股份公司中,股東承擔著監督經理的職能。但不同的股東從監督中得到的收益大小不一樣。在監督成本相同的情況下,大股東從監督中得到的收益顯然多於小股東。因此,股份公司中監督經理的責任往往由大股東承擔,小股東則搭大股東的便車。

與前面討論的佔優戰略均衡相比,重複剔除的佔優戰略均衡不僅要求博弈的所有參與人都是理性的,而且要求每個參與人都了解所有的其他參與人都是理性的。在上例中,如果大豬不能排除小豬按按鈕的可能性,按按鈕就不一定是大豬的最優選擇。

三、納什均衡

納什均衡(Nash equilibrium)是指這樣一種均衡。在這一均衡中,每個博弈參與人都確信,在給定其他參與人戰略策略決定的情況下,他選擇了最優戰略。納什均衡是完全信息靜態博弈解的一般情況。構成納什均衡的戰略組合一定是在重複剔除嚴格劣戰略過程中無法被剔除的戰略組合。

在佔優戰略均衡中,無論所有其他參與人選擇什麼戰略,一個參與人的佔優戰略都是他的最優戰略。顯然,這一佔優戰略也必定是所有其他參與人選擇某一特定戰略時該參與人的最優戰略。因此,佔優戰略均衡一定是納什均衡。在重複剔除的佔優戰略均衡中,最後剩下的唯一戰略組合,一定是在重複剔除嚴格劣戰略過程中無法被剔除的戰略組合。因此,重複剔除的佔優戰略均衡也一定是納什均衡。

表7-4 性別戰

女方看足球 逛商店

男方 看足球 3,1 0,0

逛商店 0,0 1,3

納什均衡所包括的情況遠不止佔優戰略均衡和重複剔除的佔優戰略均衡。以博弈論中經常提到的性別戰(battle of the ***es)為例。談戀愛中的男女通常是共渡周末而不願意分開活動的。但對於周末幹什麼,男女雙方各自有著自己的偏好。男方喜歡看足球比賽,女方喜歡逛商店。不同選擇下男女雙方的得失見表7-4。

在這個博弈中,存在著兩個納什均衡。男女雙方或者一起去看足球,或者一起去逛商店。如果沒有進一步的信息,我們無法確定男女雙方在上述博弈中會作出什麼選擇。

與重複剔除的佔優戰略均衡一樣,納什均衡不僅要求博弈的所有參與人都是理性的,而且要求每個參與人都了解所有的其他參與人都是理性的。

第三節 完全信息動態博弈

一、子博弈精鍊納什均衡

在動態博弈中,參與人的行動有先後順序,而且後行動的參與人在自己行動之前可以觀測到先行動者的行動,並選擇相應的戰略。由於先行動者擁有後行動者可能選擇戰略的完全信息,因而先行動者在選擇自己的戰略時,就可以預先考慮自己的選擇對後行動者選擇的影響,並採取相應的對策。

表7-5 房地產開發博弈

(靜態)

B開發 不開發

A 開發 -3,-3 1,0

不開發 0,1 0,0

以某一房地產開發博弈為例,表7-5顯示了靜態條件下雙方參與人的得失。房地產開發商A是先行動者。在行動之前,A對競爭者B的戰略進行了預測。

在行動開始前的A看來,如果不計得失,B有四種戰略可選擇。

第一,無論A是否開發,B都要開發。

第二,如果A開發,B也開發;如果A不開發,B也不開發。

表7-6 A對B的預測

B開發,開發開發,不開發 不開發,開發不開發,不開發

A 開發 -3,-3 -3,-3 1,0 1,0

不開發 0,1 0,0 0,1 0,0

第三,如果A開發,B就不開發;如果A不開發,B就開發。

第四,無論A是否開發,B必定不開發。

將B可能採取的選擇與表7-5中博弈雙方相應選擇的得失結合起來,可以得出表7-6。

在表7-5中,存在著兩個納什均衡,即(A開發,B不開發)和(A不開發,B開發)。而在B可能選擇的戰略中,戰略一雖然包括了上述後一種納什均衡,但沒有包括前一種納什均衡;戰略四雖然包括了上述前一種納什均衡,但沒有包括後一種納什均衡;至於戰略二,則上述兩種納什均衡都沒有包括;只有戰略三包括了上述兩種納什均衡。換句話說,如果B選擇戰略三,那麼,不論A作出什麼選擇,B的回應都達到納什均衡。而在給定B會採取戰略三(即如果A開發,B就不開發;如果A不開發,B就開發)來回應A的選擇的前提下,開發是A的佔優戰略。因而A選擇了開發。

以上的分析方法,稱為子博弈精鍊納什均衡(sub-game perfect Nash equilibrium)。

子博弈是原博弈的一部分,它本身可以作為一個獨立的博弈進行分析。例如,在表7-5中,每一列或每一行都是一個子博弈。任何博弈本身則被稱為自身的一個子博弈。

只有當某一戰略組合在每一個子博弈(包括原博弈)上都構成一個納什均衡,這一戰略組合才是子博弈精鍊納什均衡。

仍然以前面提到的房地產開發博弈為例,這裡涉及到包括原博弈在內的三個子博弈。由於A是先行動者,那麼,在A選擇了開發之後,B的回應構成了子博弈甲,如表7-5的第一行,這裡的納什均衡是A開發,B不開發。在A選擇了不開發之後,B的回應也構成了子博弈乙,如表7-5的第二行,這裡的納什均衡是A不開發,B開發。而整個表7-5,則表示A在有可能選擇開發或不開發的情況下,B的回應。它既是原博弈,又是自身的子博弈。這裡存在著本段中提到的兩個納什均衡。而前面提到的B的四種戰略中,只有戰略三在子博弈甲、乙中都構成納什均衡,其它的戰略至少在子博弈甲、乙之一中不構成納什均衡,因而這一博弈中唯一的子博弈精鍊納什均衡,就是(開發,{不開發,開發}),即作為後行動者的B選擇戰略三,而作為先行動者的A選擇開發。

就特定情況而言,除了(開發,{不開發,開發})之外,參與人也可以選擇其它戰略。在上述房地產開發博弈中,在A選擇開發時,無論B選擇戰略三還是戰略四(即,無論A是否開發,B必定不開發),其結果——A開發,B不開發——都是構成納什均衡的。而子博弈精鍊納什均衡方法所要剔除的,正是這種只在特定情況下是合理的,而在其它情況下不合理的戰略組合。

二、重複博弈

以上討論的動態博弈有這樣一個特點。這就是,參與人在前一個階段的選擇將決定隨後的子博弈的結構。在上述房地產開發博弈中,子博弈甲不同於子博弈乙。當A選擇了開發後,子博弈乙就被排除了。這樣的動態博弈稱為序貫博弈(sequential games)。動態博弈中另外一類是所謂的重複博弈(repeated games)。顧名思義,重複博弈是指同樣結構的博弈重複許多次,其中的每次博弈稱為階段博弈(stage game)。

影響重複博弈均衡結果的主要因素,是博弈重複的次數和信息的完備性。重複次數的重要性來自參與人在短期利益和長期利益之間的權衡。當博弈只進行一次時,每個參與人都只關心一次性的支付;但如果博弈重複多次,參與人可能會為了長遠利益而犧牲眼前利益,從而選擇不同的均衡戰略。就信息的完備性而論,當一個參與人的支付函數還不為其他參與人所知時,該參與人可能有積極性建立一個良好的聲譽以換取長遠利益。在這裡,我們只討論博弈重複的次數。

表7-7 產品定價博弈

B低價 高價

A 低價 24,24 40,8

高價 8,40 32,32

我們用一個產品定價博弈的例子來分析重複博弈。表7-7顯示了這一博弈的有關情況。該表表明,在一次性的完全信息靜態博弈中,兩個參與人A與B均有佔優戰略,佔優戰略均衡為雙方都定低價。而一次性博弈意味著沒有人能夠對其他參與人的行為進行獎勵或報復。而在動態的重複博弈中,所有參與人過去的行為都是觀測得到的,因而某一參與人可以通過自己在本階段博弈中的選擇,來回應其他參與人在以前的階段博弈中的行為。以產品定價博弈為例。如果上一次階段博弈中,B選擇了高價,使得也選擇了高價的A得到了好處,那麼A可以在本階段博弈中繼續選擇高價作為對B的獎勵。如果在上一次階段博弈中,B選擇了低價,使得選擇了高價的A受到了損失,那麼A可以在本階段博弈中選擇低價作為對B的報復。

博弈重複的次數對參與人的選擇有什麼樣的影響呢?我們分兩種情況來討論。

先看博弈重複次數無限時的情況。

以表7-7所舉的產品定價博弈為例。如果B選擇與A合作維持產品高價,則B各階段所得是(32,32,32,32...);如果B選擇不與A合作,並在第一階段通過選擇低價使得選擇高價的A受到損失,A則在以後各階段的博弈中選擇低價以報復,則B各階段所得為(40,24,24,24...)。換句話說,B在第一高等博弈中因不與A合作而得到的額外好處,將因為A在以後各階段所採取的報復性選擇而抵消。重複博弈若干次後,B的不合作態度將導致得不償失的後果。在這裡,A所採取的戰略稱為冷酷戰略(grim strategies)。按照這種戰略,A起初選擇合作;但如果B在某一階段博弈中選擇不合作的話,A將永遠選擇不合作。A這樣做的理由是:選擇不合作(低價),他各階段的所得是24;而選擇合作(高價),他各階段的所得少於24,因為B在某一階段博弈中的不合作排除了雙方合作獲得雙贏的可能。因此,A有堅持冷酷戰略的積極性。而B為了減少損失,也就只能一直不合作下去。換句話說,冷酷戰略意味著任何一個參與人的一次性不合作將觸發永遠的不合作。在這種情況下,重複博弈的所有參與人懾於冷酷戰略的嚴重後果,有積極性維持合作。

再看博弈重複次數有限時的情況

博弈重複次數有限,意味著存在所有參與人都可以預測到的「最後一次」。在最後的階段博弈中,如果某一參與人選擇了自己的佔優戰略,給其他參與人造成損失,則其他參與人不可能報復。所有的參與人都明白這一點,因而在最後一次階段博弈中都會選擇佔優戰略——給自己的產品制定低價,從而構成與完全信息靜態博弈相同的佔優戰略均衡。

所有參與人在最後階段博弈中都會不約而同地選擇低價戰略,這意味著無論B在倒數第二階段——即最後階段以前的那個階段——博弈中採取什麼戰略,A在最後階段都將採取低價戰略。因此,在倒數第二階段中,B就沒有必要因為擔心A的報復而採取高價戰略。換句話說,在給定最後階段所有參與人都會選擇佔優戰略的前提下,所有的參與人在倒數第二階段的博弈中也都會選擇佔優戰略。

由此從最後的階段開始,逐個階段進行推理,可以得出以下結論:在階段博弈有唯一的納什均衡時,n次重複博弈的唯一子博弈精鍊納什均衡結果,是階段博弈的納什均衡重複n次。這就是說,每個階段博弈出現的都是一次性博弈的均衡結果。

在這裡,階段博弈納什均衡的唯一性是一個重要條件。如果納什均衡是唯一的,上述結論就不一定成立。

三、動態博弈戰略行動

在動態博弈中,參與人為了使得其他參與人的選擇對自己有利,往往採取一些行動來影響其他參與人對於自己行為的預期。這些行為稱為戰略行動(strategic move)。

以下是一些戰略行動的例子。

1.首先行動優勢

首先行動優勢(first-mover advantage)是指,在博弈中首先作出戰略選擇並採取相應行動的參與人可以獲得較多的利益。例如,在前面提到的性別戰中,存在著兩個納什均衡,即兩人一起看足球比賽或逛商店。男方偏好看足球比賽,而女方偏好逛商店。在這種情況下,男方僅僅提出要看足球比賽是不夠的,他應該採取行動,先買好足球票。從而使女方因感到「男朋友十分想看這場比賽」或因感到「買球票不容易,不看可惜」而接受兩人一起看足球比賽的選擇。

2.確實可信的威脅

表7-8 房地產開發博弈

(B承諾後)

B開發 不開發

A 開發 -3,-3 1,-5

不開發 0,1 0,-5

確實可信的威脅(credible threat)是指,博弈的參與人通過某種行動改變自己的支付函數,從而使得自己的威脅顯得可信。參與人為改變博弈結果而採取的措施稱為承諾(commitment)。

表7-9 A對B的預測

(B承諾後)

B開發,開發開發,不開發 不開發,開發不開發,不開發

A 開發 -3,-3 -3,-3 1,-5 1,-5

不開發 0,1 0,-5 0,1 0,-5

我們再來看前面提到過的房地產開發博弈。在這一例子中,B所選擇的戰略一(無論A是否開發,B都要開發)之所以不是子博弈精鍊納什均衡,是因為存在著如同表7-5和表7-6所表示的支付函數。如果A在作出選擇之前,B與某一客戶簽訂合同,規定B在一定期限內向客戶交付一定面積的住房,如果B不能按時履約,則賠償客戶5單位貨幣。有了這樣一個承諾,表7-5就變成表7-8,在完全信息靜態博弈下,B就有了佔優戰略——開發。因而B的第一種戰略——無論A是否開發,我都要開發——就成為確實可信的威脅。表7-6就變成表7-9,因而這一博弈的子博弈精鍊納什均衡,也就從原來的(開發,{不開發,開發})變成現在的(不開發,{開發,開發})。

第四節 不完全信息靜態博弈

前面介紹的博弈都包含一個基本假設,即完全信息假設。按照這一假設,每個參與人對所有其他參與人(對手)的類型、戰略和支付函數都有精確的了解。但是,在許多情況下,參與人對對手的了解往往是不夠精確的。這種情況下的博弈就是不完全信息博弈。

表7-10 市場進入博弈

A高成本 低成本默許 阻撓 默許阻撓

B 進入 40,50 -10,0 30,100 -10,140

不進入 0,300 0,300 0,400 0,400

舉例來說,某一市場原來被A企業所壟斷。現在B企業考慮是否進入。B企業知道,A企業是否允許它進入,取決於A企業阻撓B企業進入所花費的成本。如果阻撓的成本低,那麼,正如表7-10後兩列所表示的,A企業的佔優戰略是阻撓,博弈有重複剔除的佔優戰略均衡——A阻撓,B不進入。如果阻撓的成本高,那麼,正如表7-10前兩列所表示的,A企業的佔優戰略是默許B進入,博弈有重複剔除的佔優戰略均衡——A默許,B進入。B企業所不知道的,是A企業的阻撓成本是高是低。這裡,某一參與人本人知道、其他參與人則不知道的信息稱為私人信息。某一參與人所擁有的全部私人信息稱為他的類型。在上述例子中,阻撓成本就是A的私人信息。高阻撓成本和低阻撓成本則是兩種不同的類型。

顯然,在這裡,B所遇到的,是不確定性條件下的選擇問題。因為B不僅不知道A的類型(是高還是低),而且不知道不同類型的分布概率。

解決這類問題的方法之一,就是把不確定性條件下的選擇轉換為風險條件下的選擇。在風險條件下,B雖然不知道A的類型,但可以知道不同類型的分布概率。將不確定性條件下的選擇轉換為風險條件下的選擇,稱為海薩尼轉換(the Harsanyi transformation)。

按照海薩尼的方法,所有參與人的真實類型都是給定的。其他參與人雖然不清楚某一參與人的真實類型,但知道這些可能出現的類型的分布概率,而且這種概率是公共知識。用上例來說,公共知識不僅意味著B企業知道A企業高阻撓成本與低阻撓成本的分布概率,而且意味著A也清楚B知道這一概率。

通過海薩尼轉換,不完全信息博弈變成了完全但不完美信息博弈(games of complete but imperfect information)。這裡的不完美信息,就是指其他參與人只知道某一參與人某些方面類型的分布概率,而不知道該參與人在這些方面的真實類型。

在上述轉換的基礎上,海薩尼提出了貝葉斯納什均衡(Bayesian Nash equilibrium)。對此,可以作如下解釋:在不完全信息靜態博弈中,參與人同時行動,沒有機會觀察到別人的選擇。給定其他參與人的戰略選擇,每個參與人的最優戰略依賴於自己的類型。由於每個參與人僅知道其他參與人有關類型的分布概率,而不知道其真實類型,因而,他不可能知道其他參與人實際上會選擇什麼戰略。但是,他能夠正確地預測到其他參與人的選擇與其各自的有關類型之間的關係。因此,該參與人的決策目標就是:在給定自己的類型,以及給定其他參與人的類型與戰略選擇之間關係的條件下,使得自己的期望效用最大化。貝葉斯納什均衡是一種類型依賴型戰略組合。在給定自己的類型和其他參與人類型的分布概率的條件下,這種戰略組合使得每個參與人的期望效用達到了最大化。

回到上面提到的市場進入的例子。在這個例子里,對於挑戰者B來說,原壟斷者A在阻撓成本方面,存在著兩種可能性:高成本或低成本。B不知道A的阻撓成本究竟是高是低,但他知道A在這兩種不同阻撓成本下會作出的選擇,以及不同阻撓成本(類型)的分布概率。假定高成本的概率為x,則低成本的概率為(1-x)。如果A的阻撓成本高,A將默許B進入市場;如果A的阻撓成本低,A將阻撓B進入市場。在這兩種情況下,如表7-10所示,B進入的支付函數分別是得到40和失去10。因此,B選擇進入所得到的期望利潤為40x+(-10)(1-x),選擇不進入的期望利潤為0。簡單的計算表明,當A阻撓成本高的概率大於20%時,挑戰者B選擇進入得到的期望利潤大於選擇不進入的期望利潤。此時,選擇進入是B的最優選擇。此時的貝葉斯納什均衡為,挑戰者B選擇進入,高成本原壟斷者選擇默許,低成本原壟斷者選擇阻撓。

第五節 不完全信息動態博弈

在動態博弈中,行動有先後次序,後行動者可以通過觀察先行動者的行為,來獲得有關先行動者的信息,從而證實或修正自己對先行動者的判斷。

如上所述,在不完全信息條件下,博弈的參與人知道其他參與人可能有哪幾種類型,也知道不同的類型與相應戰略選擇之間的關係。但他們並不知道其他參與人的真實類型。在不完全信息靜態博弈中,我們是通過海薩尼轉換,即通過假定其他參與人知道某一參與人的所屬類型的分布概率,來得出博弈的貝葉斯納什均衡結果的。而在不完全信息動態博弈中,問題變得更加簡單。博弈開始時,某一參與人既不知道其他參與人的真實類型,也不知道其他參與人所屬類型的分布概率。他只是對這一概率分布有自己的主觀判斷,即有自己的信念。博弈開始後,該參與人將根據他所觀察到的其他參與人的行為,來修正自己的信念。並根據這種不斷變化的信念,作出自己的戰略選擇。

對應於不完全信息動態博弈的均衡概念是精鍊貝葉斯均衡(perfect Bayesian equilibrium)。這個概念是完全信息動態博弈的子博弈精鍊納什均衡與不完全信息靜態均衡的貝葉斯(納什)均衡的結合。具體來說,精鍊貝葉斯均衡是所有參與人戰略和信念的一種結合。它滿足如下條件:第一,在給定每個參與人有關其他參與人類型的信念的條件下,該參與人的戰略選擇是最優的。第二,每個參與人關於其他參與人所屬類型的信念,但是使用貝葉斯法則從所觀察到的行為中獲得的。

貝葉斯法則是概率統計中的應用所觀察到的現象對有關概率分布的主觀判斷(即先驗概率)進行修正的標準方法。採用上一節的例子,可以將貝葉斯規則的分析思路表達如下。

挑戰者B不知道原壟斷者A是屬於高阻撓成本類型還是低阻撓成本類型,但B知道,如果A屬於高阻撓成本類型,B進入市場時A進行阻撓的概率是20%(此時A為了保持壟斷帶來的高利潤,不計成本地拚命阻撓);如果A屬於低阻撓成本類型,B進入市場時A進行阻撓的概率是100%。

博弈開始時,B認為A屬於高阻撓成本企業的概率為70%,因此,B估計自己在進入市場時,受到A阻撓的概率為:0.7×0.2+0.3×1=0.44

0.44是在B給定A所屬類型的先驗概率下,A可能採取阻撓行為的概率。

當B進入市場時,A確實進行阻撓。使用貝葉斯法則,根據阻撓這一可以觀察到的行為,B認為A屬於高阻撓成本企業的概率變成

A屬於高成本企業的概率=0.7(A屬於高成本企業的先驗概率)×0.2(高成本企業對新進入市場的企業進行阻撓的概率)÷0.44=0.32

根據這一新的概率,B估計自己在進入市場時,受到A阻撓的概率為:

0.32×0.2+0.68×1=0.744

如果B再一次進入市場時,A又進行了阻撓。使用貝葉斯法則,根據再次阻撓這一可觀察到的行為,B認為A屬於高阻撓成本企業的概率變成

A屬於高成本企業的概率=0.32(A屬於高成本企業的先驗概率)×0.2(高成本企業對新進入市場的企業進行阻撓的概率)÷0.744=0.086

這樣,根據A一次又一次的阻撓行為,B對A所屬類型的判斷逐步發生變化,越來越傾向於將A判斷為低阻撓成本企業了。

以上例子表明,在不完全信息動態博弈中,參與人所採取的行為具有傳遞信息的作用。儘管A企業有可能是高成本企業,但A企業連續進行的市場進入阻撓,給B企業以A企業是低阻撓成本企業的印象,從而使得B企業停止了進入地市場的行動。

應該指出的是,傳遞信息的行為是需要成本的。假如這種行為沒有成本,誰都可以效仿,那麼,這種行為就達不到傳遞信息的目的。只有在行為需要相當大的成本,因而別人不敢輕易效仿時,這種行為才能起到傳遞信息的作用。

傳遞信息所支付的成本是由信息的不完全性造成的。但不能因此就說不完全信息就一定是壞事。研究表明,在重複次數有限的囚徒困境博弈中,不完全信息可以導致博弈雙方的合作。理由是:當信息不完全時,參與人為了獲得合作帶來的長期利益,不願過早暴露自己的本性。這就是說,在一種長期的關係中,一個人干好事還是幹壞事,常常不取決於他的本性是好是壞,而在很大程度上取決於其他人在多大程度上認為他是好人。如果其他人不知道自己的真實面目,一個壞人也會為了掩蓋自己而在相當長的時期內做好事


推薦閱讀:

基礎篇:左右發勁
如何把基礎款的襯衫穿的時髦又好看?
怎麼用基礎款和基礎色穿出冬天裡的男人味?
【鉤針教程】手工鉤針基礎知識/如何看國外版的鉤針圖解?

TAG:博弈論 | 基礎 |