誰能用易懂的語言解釋精鍊貝葉斯均衡？

01-06

老師上課用的輔助教材是吉本斯的博弈論基礎，但裡面精鍊貝葉斯均衡的部分真的看不懂。。。

謝謝 @劉玄邀請，其實 @ShiraishiMai 已經說的很詳細了，我來試著犧牲一點嚴謹度科普向一下。

先從納什均衡說起吧，納什均衡是什麼？是一個博弈中的任何玩家都不想單方面偏離當前均衡策略的點。

貝葉斯均衡則在納什均衡的基礎上加上了玩家的「信念」，因為信息不對稱了，所以玩家並不知道其他人是什麼情況，從而只能依賴於自己的主觀預期（當然這個預期是理性的）。每個玩家根據自己的主觀預期，選擇對自己最有利的策略。為什麼貝葉斯均衡裡面，玩家通常會有不同的類型呢? 因為如果玩家的類型一樣，那麼貝葉斯均衡就退化成了納什均衡——我可以完全的根據自己的想法來完美的模擬對手的想法，我和對手是一樣的，還有什麼信息不對稱呢？

貝葉斯博弈，名為博弈，其實永遠是一個自己和自己玩的遊戲，因為你觀察不到對方是什麼類型，你就無法讓自己的反應建立在對方的類型的基礎上，所以你的策略只能和你自己的類型以及你對其他人的預期有關。比如拍賣的時候，你的拍賣出價策略，只是你自己的類型的一個函數。

在貝葉斯均衡裡面，給定一個信念的分布，就能夠推出一個均衡解。加上精鍊兩個字之後，變成動態博弈，又多了一個約束，這個約束就是信念的一致性。

怎麼個一致法呢？我們用經典的自我實現的歧視模型來做個例子：

有A和B兩種可以從外貌上區分的人，比如男女，比如黑白，其天然的生產率一樣。現在「信念」是強行認為A類人生產率比較低，B類人比較高。那麼當A和B類人採用如下的行為策略時：

如果我是A類人，我就不努力；
如果我是B類人，我就努力；

那麼這個行為策略直接導致了A類人確實比B類人生產率低。於是反過來驗證了僱主的信念，僱主會給A類人開一個低工資，B類人開一個高工資。而兩類人的行為策略也變成了最優的選擇：因為A類人工資低，所有A類人理性的就應該選擇不努力。歧視被自我實現了。

這就是一個典型精鍊貝葉斯均衡：信念和最優策略集緊緊的耦合在一起，沒有任何一方能夠單方面偏離：首先給定工資低，被歧視，A類人是沒有動機提高努力的，因為自己的努力不足以獲得足夠的報酬；而僱主也沒有動機單方面的扭轉自己的信念，因為A類人的策略是不努力，所以僱主為什麼要不同工同酬呢？

反過來，如果僱主持著一視同仁的信念，A類人和B類人也付出同樣的努力的話，同樣是一個精鍊貝葉斯均衡：因為A類人和B類人的邊際報酬相等，並且他們先天無差異，那麼A和B就會付出相同的努力，達到相同的生產率，這也同樣驗證了僱主一視同仁的信念。

所以我們的這個例子有兩個精鍊貝葉斯均衡，但是一視同仁的均衡是有效率的，而歧視的均衡是相對無效率的。

---------------------

我自己將精鍊貝葉斯均衡理解成是信念和策略之間的一種類似納什均衡的存在——這倆個東西耦合在一起互相驗證對方，誰都沒有動機先偏離。

你對我的策略有一個信念，我執行我的行動策略之後，你觀察到我的行動，更新你的信念，然後你做出你的最優反應策略，而你的反應策略本身又恰恰證明了我當初的行動策略也是最優的，而我採用的這個最優行動策略也恰恰的符合了你當初的信念——換句話說，你的信念確實完美的推測了我的行為策略。

這個時候信念和策略都不會單方面做出改變：

1.如果策略變了，意味著如果信念不變，改變策略的人收益會減少。

2.如果信念變了，而策略沒有變，改變信念的人的收益同樣會減少。

首先聲明此回答中英文夾雜，非科普向，不是一個好答案，慎入。

事實上PBE即使在博士級別的微觀課程里也算一個難點，本身就不是一個特別簡單的概念，想看中文請百度。

%----------------------------------------------------------------------------------------------------------------------%

說說我對PBE的個人的理解吧，不一定精確但差不多就那麼回事兒。

什麼是PBE呢？首先它得是一個貝葉斯均衡。什麼是貝葉斯均衡呢（這裡以pure strategy為例）？Game中每個player都有type吧，這個均衡就是每個player的一個type-contingent strategy（就是說對一個player來說對應自己不同type他會選相應的strategy），使得對於每個player任意給定的其type和他對其對手的type概率分布的belief，在該策略下他的期望效用至少不小於他的其他任何可能策略。這點上其實和普通的納什均衡一回事兒，就是給定了別人的均衡strategy你沒有incentive to deviate from your optimal strategy（best response）。不同之處無非是多了type（不完全信息，然後type有一個概率分布）之後你的效用變成個期望值了。

PBE無非是dynamic game里，上面的BE加上一套對各player type的beliefs （system of beliefs）。注意BE不一定是PBE，但PBE一定是BE（這是句廢話），差別就在後面會提的system of beliefs是否consistent with the strategies。

舉例來說就是某個player先move，然後在他之後move的這個player會根據先move的人的action通過bayes rule更新他對先move人的type概率分布的beliefs。很重要的一點是在PBE里這些個beliefs要求在每個player的每個information set里，他play a best response to these beliefs。

至於PBE里的Pooling equilibrium就是不管自己type是什麼我總play一種strategy，Separating顧名思義對自己不同的type我play不同的strategy。Hybrid就是對於自己不同的type，我在這種type下play mixed strategy。

上面是我對PBE的個人的理解，Gibbons的定義我沒看過，但其實無論是MWG還是FudenbergTirole上的數學定義看起來都不太intuitive，尤其是MWG這部分寫的挺糟的。但我這麼說了你可能還是迷糊。所以建議把Gibbons書上的例子多看幾遍！多看幾遍！多看幾遍！你慢慢就能理解了。

一個玩家

1. 無論是否導致均衡，其決策是當前基於其信息集的最優決策。

2. 根據最優決策執行時，真實情境的分布與腦中信息集吻合。

易懂的語言：題主理解了sub-game perfect equilibrium (SPE)嗎？SPE要求在任意子博弈（即便子博弈不會在均衡里出現）下是納什均衡。[如果沒有理解，建議先回去理解SPE，一步步來]

精鍊貝葉斯(PBE)則要求

在任意信息集下，該PBE會是納什均衡
所有玩家的信息升級要根據貝葉斯法則

貝葉斯納什均衡（BNE）也要求玩家信息升級根據貝葉斯法則，但是，根據納什均衡的定義可知，BNE對off path（非均衡路徑）的信息集不做要求。

雖然PBE延續了SPE的精神，PBE不一定是SPE。

決策後輸了也只能嘆氣歸咎於運氣，因為決策前的思路和信息已經是當時最佳的了。

隨便扒出來的一個例子：不完全信息動態博弈：精鍊貝葉斯均衡

以裡面的例子來解釋吧！~

一個企業阻止新企業進入的成本是未知的，可能高，可能低。這個企業給定了阻撓的成本之後，會不會進行阻撓，也是未知的。這裡採用了先驗概率進行估計。

接著進行一系列觀察。第一次如果收到阻撓，那麼預計中的那0.44的概率真的發生了，於是把原先估計的高成本企業乘以阻撓概率，再除以這0.44，得出新的企業是高成本的概率。

以此類推。

等於是依靠一系列觀察，來調整對對方的估計。

額就是一堆數學方程的最優解