如何理解相關均衡？

01-04

我想，從最優反應的角度理解相關均衡也許比較好。根據定義，納什均衡是說每個人的均衡策略都是對其他人的策略的最優反應，之後的各種概念大都是圍繞如何定義「策略」而展開的。所以在我看來，理解相關均衡最重要的是理解什麼是「策略」，即我們在對什麼東西作「最優反應」。

下文第一部分講策略，第二部分講最優反應，第三部分講均衡，第四部分講可理性化。

（本文主要為國內高年級本科或者碩一的博弈論初學者準備，會從最基本的東西開始講，老手如果覺得啰嗦可以直接跳到（二）或者（三））

===============（一）===============

本科的博弈論教材里把每個人的策略空間當作一個「點集」（所有策略的集合，記為 $A$ ），純策略是參與人行動集合里的一個「點」（元素，記為 $ain A$ ）。在這種定義一下，混合策略字面上可以理解為「隨機選出幾個行動的概率規則」，但是我們不知道該用怎樣一種統一的數學形式描述任意混合策略，從而我們也就很難理解相關均衡。因此，第一步我們需要重新定義策略。

在這裡，我們把策略定義成一個概率分布函數 $f:A ightarrow [0,1]$ ，它的定義域是參與人的行動集合，並給集合中的每個元素賦予一個[0,1]之間的概率。在這個定義下，純策略是混合策略的特例：純策略 $a$ ，被看做是一個給 $a$ 賦概率1，給其他行動賦概率0的概率分布函數（這種描述確定性事件的概率分布稱為「退化分布」）。從前參與人從 $A$ 中選一個點作為策略，現在就成了從 $Delta A$ 中選一個函數作為策略。這裡 $Delta A$ 稱為 $A$ 的「混合拓展」，實際上是所有定義在集合 $A$ 上的概率分布函數的集合。

好了，現在參與人的策略不是從一個點集里選一個點了，而是從一個函數空間里選一個函數。假設有N個參與人，他們每人選一個自己的混合策略（函數 $f_i$ ），這樣的一個N元組（ $f_1,f_2,...,f_n$ ）會導致每個參與人得到一個收益 $u_i(f_1,f_2,...,f_n)$ 。這個收益函數 $u_i$ 是定義在所有 $Delta A_i$ 的笛卡爾積上面的，是從n個函數到一個實數的映射。

================（二）===============

下面第二步，我們回顧一下什麼是最優反應。在函數 $u_i(f_1,f_2,...,f_n)$ 中有n個自變數，但是參與人1能決定的變數只有第一個 $f_1$ ，其他 $f_2,...,f_n$ 對他來說都是外生給定的「參數」。這樣參與人1的任務就變成了一個含參數的最優化問題。參數一旦變了，最優點和最大值一般也會相應跟著變。我們用 $f_{1}^{ast } (f_2,...,f_n)$ 表示給定參數 $f_2,...,f_n$ 時，能最大化 $u_i(f_1,f_2,...,f_n)$ 的自變數 $f_1$ ，並稱 $f_{1}^{ast } (f_2,...,f_n)$ 是對 $f_2,...,f_n$ 的最優反應。如果恰好每個 $f_i$ 都是對其它 $f_j$ 的最優反應，那就會形成「敵不動，我不動」的局面，即納什均衡。

注意，在這裡出現了一個問題——參與人1選擇 $f_{1}^{ast } (f_{2}^{ast },f_{3}^{ast },...,f_{n}^{ast } )$ 的時候，必須確信其他參與人會選擇 $f_{2}^{ast },f_{3}^{ast },...,f_{n}^{ast }$ 。如果其他人實際上選擇了別的什麼，那參與人1的最優反應就要跟著變。換句話說，參與人1在選擇 $f_{1}^{ast }$ 的時候，他對其他參與人的選擇抱有一種信念——即相信其他參與人會選某些策略。參與人的策略不僅僅是對其他參與人策略的最優反應，更是對他自己所持信念的最優反應。理解了這句話（尤其是後半句），我們就可以做第三步——定義相關均衡了。

===============（三）===============

對於參與人1來說，如果 $f_{2},f_{3},...,f_{n}$ 作為概率分布函數相互獨立，即它們的聯合概率分布函數可以分解為每個 $f_i$ （只定義在 $Delta A_i$ 上）的乘積，那麼參與人1的最優反應就屬於「混合策略納什均衡」的範疇。此時參與人1相信其他所有參與人2,3,...,n各自獨立決定自己的策略，彼此之間不會相互勾結。舉一個不太恰當的例子，假設跑男里鄧超、陳赫、王祖藍在一個三岔口狹路相逢，每個人都知道對方兩個人之前沒碰到過，因此不可能有事前商量結盟的可能性。此時無論對方兩人怎麼做，最弱的王祖藍的最優反應都是掉頭就跑，並且因為跑得快別人都追不上他；鄧超陳赫實力相當，都選擇撕的話各以一半概率輸/贏，一個選擇跑的話另一個一定能從背後把他撕了，那給定王祖藍的最優反應（跑），兩人的最優反應都是撕對方。這時形成的均衡就是（退化的）混合策略納什均衡。

但是，如果參與人1相信某一些（未必是全部）對手會形成聯盟，在一些問題上共進退，不會損人利己背叛盟友過河拆橋……那參與人1的最優反應就屬於「相關均衡」的範疇。數學上講， $f_{2},f_{3},...,f_{n}$ 作為概率分布函數不相互獨立，它們的聯合概率分布函數無法分解為單個 $f_i$ 的乘積。比如，如果陳赫看到鄧超和王祖藍從同一條路一起過來，那他就會相信鄧超和王祖藍在來之前訂了攻守同盟，而王祖藍敢和鄧超聯盟不怕被反手撕了一定是因為他倆確認過身份或者什麼原因。持有這樣一種信念，陳赫的最優反應現在不是和鄧超撕了，而是掉頭就跑，另外兩人的最優反應都是追上去撕。這時形成的均衡就是相關均衡。（聲明：以上跑男的例子只是為了解釋，請大家不要將三人對號入座，比如認為王祖藍也可能把鄧超撕了啊什麼的）

補充一句，所有混合策略納什均衡都是相關均衡，但反之不成立。理由：每N-1個相互獨立的邊緣概率分布都能生成一個聯合概率分布，但不是每個聯合概率分布都能分解為N-1個相互獨立的邊緣概率分布（當相互不獨立）。所以純策略納什均衡是混合策略納什均衡的特例，後者又是相關均衡的特例。這就是相關均衡的含義。

===============（四）===============

作為題外話，講一下什麼是可理性化策略。以下做個類比：

看效用函數vs.顯示偏好，前者說如果假設消費者是理性，的那麼存在一個效用函數，能算出某一些需求；後者說如果觀測到一系列需求並且假設消費者是理性的，看能否找到一個效用函數能算出這一系列需求，如果找不到就說明消費者不是理性的。

標準型博弈模型vs.可理性化策略，前者說給定參與人理性（博弈中定義了效用函數）和博弈結構，並給定參與人i對其他參與人策略的信念，就能算出參與人i的混合策略（其中以某些概率使用a，b，c等純策略），後者說看到參與人i使用了某純策略a，並假設參與人i是理性的，看能否找到他對其他參與人策略一個信念使純策略a是對這一信念的最優反應，如果找不到就說明參與人i不是理性的。

由此，可理性化策略被定義為：「存在參與人i對其他參與人策略的一個信念，使得這個純策略（可理性化策略）是對該信念的一個最優反應」。注意可理性化策略只能是純策略。

在福登博格和梯若爾的博弈論教材里說，只有在兩人博弈中絕不是最優反應策略（可以當作不可理性化策略）才等價於嚴格劣勢策略，而奧斯本和魯賓斯坦的書里則沒有兩人博弈這個前提。其分歧在於，如果我們允許參與人i相信其他參與人可能合謀，即參與人i的信念是相關均衡意義上的，那這兩個概念就是等價的。這體現在奧斯本書里的證明裡。然而福登博格那本書假設參與人i的信念中不會出現其他參與人合謀，即其信念是混合策略納什均衡意義上的，所以必須加入兩人博弈的條件才能使二者等價（兩人情況下，對手j合謀不合謀沒有區別）。為解釋這一分歧，福登博格書中將奧斯本和這裡的可理性化稱為「相關可理性化」。

猜測：根據經驗做博弈決策，從歷史的相關博弈的經驗結果應用到這次類似的博弈中