如何理解經濟學中的混合策略 (Mixed Strategy) ？

01-04

這是個在research還是teach中我都很頭疼的概念，始終不知道該怎麼解釋更好。而且在不同的框架下都不是很一樣，看看達人們都怎麼說。謝謝！
如果各位有什麼經典的混合策略的例子，IO的，Theory的，也可以post上來，一起聊一聊。

謝邀…

混合策略的定義是純策略上的一個概率分布，數學上來看很簡單，但如何解釋的確不像看起來的那麼容易。我覺得如果不是專門做純博弈論的，學習過程中採用其中一種對你來說最自然的解釋就行。我在這裡列出兩種解釋，因為手機答題，所有例子我都用「石頭剪刀布」這個遊戲，兩位參與者就叫A和B。

先說一個比較基本的解釋，也是一本標準的高微書上會給出的解釋。混合策略就是隨機化自己的純策略，令自己的純策略依賴於一個隨機的信號。比如玩石頭剪刀布的時候我事先給自己約定：我先扔一枚骰子，點數是1或2我就出石頭；點數是3或4我就出剪刀；點數是5或6我就出布。這樣就實現了（1/3，1/3，1/3）這個隨機策略。（要生成別的分布，你可以利用電腦依[0,1]上均勻分布取一個數。）

上述解釋的一個缺點是：現實中沒人玩遊戲前還會擲個骰子啊。於是出現第二種解釋，最早由Aumann提出。

第二種解釋是說：A的一個混合策略並不是描述A的行為，而是B對A的行為的一個信念。舉個例子來說，A用（1/3，1/3，1/3）這個策略其實是B猜測A會以1/3概率出石頭，1/3概率出剪刀，1/3概率出布。這樣的話，石頭剪刀布這個遊戲的納什均衡就可以解釋為B認為A出石頭剪刀布的概率各為1/3。A認為B也是這樣。這種框架下納什均衡的解釋也並非採用「No profitable deviation」了，而是變成了以下兩個條件：

1.所有參與者給定自己對他人的信念選擇對自己最優的純策略。

2.所有參與者的信念是正確的。

參考《A Course in Game theory》Chapter3。

我自己的情況是：做題的時候（有計算的時候）會採用第一種解釋，而理解理論的時候會採用第二種解釋。就好比概率論里計算時用Riemann積分，開發理論時用Lebesgue積分。

其餘的解釋還有許多。比如Myerson在《Game Theory》Chapter3里引入一個Game Theorist的角色，說所以參與者的混合策略是這個Game Theorist的一個信念（和上述第二種解釋並無本質區別）

這個問題挺有意思的，按我的理解，所謂混合策略就是「把選擇權交給老天爺」。

假如，一個混合策略是0.7概率選擇行動A，以0.3概率選擇行動B，我想題主的問題可能是，這個(0.7,0.3)的概率測度是怎麼實現的，人可以選擇A，可以選擇B，這個0.7-A-0.3-B是怎麼出來的呢？這個在博弈論裡面有一個術語，叫做「隨機化」。

其實實現隨機化的方式很簡單，首先，你要推遲選擇，比如，A表示明天去上課，B表示明天在宿舍睡大頭覺，(0.7, 0.3)這個概率是考慮了老師是不是點名的收益和其他同學的選擇求解出來的。

下面就很簡單了，你查了一下天氣預報，發現明天早上不下雨的概率是0.7，下雨的概率是0.3，於是你的策略是：下雨就不去上課，不下雨就去上課。在這裡，你的選擇被推到了「明早是否降雨」這個隨機因素實現之後。

我記得我當時的微觀老師是這麼說的：你覺得你在做純策略的時候，很多時候你都是在做混合策略。

當然，Colin Camerer在那本巨著 Behavioral Game 當中用了一個章節來介紹各種各樣的實驗結果，證實人在隨機化過程中出現了大量的問題。就比如中科院前幾年驚世駭俗的剪子包袱錘研究，就證明了人們存在勝者不做改變的傾向。也就是說，人本身確實不擁有完美的隨機化能力，就像上面的例子里說的，人不可能總找到那麼巧合的概率分布。

不過，這裡也存在另一個問題，就是動態不一致性。在上面的例子裡面，決定是否去上課的學生，實際上選擇加入了一個自己和 nature 之間進行的子博弈。人與人之間的博弈要考慮對方的支付函數，而人與自然則不同，只需要一個海薩尼轉換把自然的策略轉化成隨機狀態的概率分布即可。在這個子博弈裡面，自然的策略決定了人的策略，所以是把選擇權交給老天爺。

那動態不一致性出現在哪裡呢？仔細觀察，事實上這裡涉及到了參與人對自己進行的承諾，也就是說，參與人實際上也選擇了一個承諾，承諾在不下雨時上課。如果一夜之後，參與人的偏好改變了（北方冬天的早上），變成了無論如何都要逃課（佔優策略均衡），那無論是否下雨他都不會去上課。昨天的隨機化，事實上就沒用了。

女孩兒拋硬幣決定是不是買一件死貴的衣服時，總是拋到符合買的條件為止，根據optimal stopping，這個概率是1。

One view explicit in Aumann and Brandenburger(1995) is that players always choose pure strategies, mixed strategies are only in the eyes of opponents, which are clouded by everyone"s subjective lens. In an $N$ -player game, the set of states of world is $mathbf {T} : = imes_{i in N} T_i$ . For a state $t in mathbf T$ , it satisfies the following specifications:

1. For a player $i$ , let $pi_i : mathbf {T} o T_i$ be the projection on a state′s $i$ th component. When a state is realized, player $i$ knows her own type $t_i$ , but doesn"t know the exact state. In other words, she doesn"t know which state in $pi_i^{-1}(t_i)$ is obtained. Instead, she held a belief on $A_{-i}$ and $pi_i^{-1}(t_i)$ , which is de facto $t_i$ .

2. Let $A_i$ be player $i$ "s action space. Her action is a random variable $a_i : mathbf{T} o A_i$ , while its restriction $left.a_i ight|_{pi_i^{-1}(t_i)}$ is constant.

3. Player $i$ ′s utility function $g_i$ is defined in the same fashion as $a_i$ , which means $g(t) : mathbf{A} o mathbb{R}$ is referring to the same utility function, for all $t in pi_i^{-1}(t_i)$ for all $t_i$ .

我來補充一個Harsanyi（海薩尼，或者文藝地翻成夏仙義）的經典解釋

海薩尼(Harsanyi,1973)對混合戰略的解釋是，混合策略均衡等價於不完全信息下的純策略均衡。在前例中，假定有兩類特徵的流浪漢，一類選擇尋找工作，另一類選擇遊盪；每個流浪漢都知道自己的特徵，但政府並不知道流浪漢的準確特徵，只知道流浪漢20%概率屬第一類，80%概率屬第二類。在這種情況下，政府在選擇自己的策略時似乎面臨的是一位選擇混合策略的流浪漢。

引自張維迎《博弈論與信息經濟學》1.4節。其中流浪漢-政府的社會福利博弈如下：

它沒有純戰略納什均衡，但是有混合戰略均衡

博弈中最怕的就是純策略被看穿，被看穿以後怎麼辦呢？換一個，再看穿呢？再換一個。

我怎麼知道我有沒有被看穿呢？那我就按著概率隨機切換的純策略。

好吧，我編不下去了。。。。。。

混合對應的就是純（pure），不是純的就是混合的嘛？

就好像你要怎麼成為知乎大神？

光認真答題肯定是不行的，只要會抖機靈也是不行的？

所有要一邊認真答題，一邊抖機靈嘛！！！

我理解的可能有些過度引申，就是在純的基礎上加入概率，目的是」使得對方無法把握自己的策略「，即使是在信息對稱，無限階理性的條件下，如果同時出手，仍舊可以保持參與人在出手前的公平。

僅供參考。

正如樓上的答案,《A Course in Game theory》里有討論,

這裡說點自己對混合策略的理解(在忘掉之前)

比較主流的兩種認識是:

1, 主動混合:玩家可以通過引入一個randomizing device來確實地隨機化.

2, 體現在信念上: 玩家(1)本人玩純策略;所有其他玩家對(1)在玩的純策略有一個common belief, 這個common belief在均衡時正好符合mixed NE的分布

替代(實質上一樣)的說法比如考慮有不同的人口分布/考慮在(假想的)重複博弈場景下的策略分布

3, 比較老的想法: purification theorem (可能我理解不到位,覺得2和3並不是完全一樣,若理解不到位或記憶出錯,請斧正)

Harsanyi 認為研究者正在研究的game不一定是真實的. 現實中可能每個玩家有自己的小九九. 具體點說就是每個玩家的支付方程和研究者看到的支付矩陣反映出來的方程有誤差. 注意是支付方程有誤差, $(f_i+epsilon_i)(s)$ ; 不只是payoff value有誤差 $f_i(s)+epsilon_i$ .

通過引入這個特殊的information structural, 和隨之而來的每個玩家對他人的uncertainty, Harsanyi證明了這麼一個可能的情況:

每個玩家其實都在玩純策略,只是他們的小九九研究者並沒有看到,於是乎在研究者觀察到的game里,他們as-if正在玩混合策略.

一般主流考慮的是1 和 2.

那麼1 和 2 我們應該接受哪一種呢? 答案是---看故事

講一個真實的例子:

教師想要通過給獎勵分(bonus)來鼓勵學生到教室上課, 她第一節課就宣布她並不會每次上課點名,並因此給分. 相反, 她會隨機在某一節課點名,同時隨機地給予在教室里的同學獎勵分.

這個教師玩的混合策略可以分為兩個維度: 1, 哪天點名, 2, 具體給幾分

假設在學期前,教師就已經想好在哪節課點名了,但是不告訴同學們,那麼我們就應該考慮第二種解釋: 教師在那節課給分這個維度上是玩純策略, 但是所有同學有一個common belief.

同時,點名當天,教師通過打開一個擲骰子網站, 通過搖到的骰子數,來決定這個學期的bonus, 那麼她在具體給的分數這個維度上,玩的就是主動randomizing的混合策略. 我們就應該考慮第一種情況.

我只是個剛學博弈論的小白，不知道說的對不對～說的不對，不要噴我啊～

我覺得混合策略mix strategy 主要是因為有多個純策略納什均衡或者沒有純策略的納什均衡，然後為了得到一個「更好的」均衡，通過概率分配得到。

比如說男女博弈，假設男生選擇boxing 或女生選擇ballet 得到2的收益，而男生選擇ballet 或女生選擇boxing得到1的收益，但雙方選擇不一致，收益為0。這個博弈有兩個純策略均衡，即（ballet，ballet）和（boxing，boxing），然後在張維迎的書裡面把男生女生的收益函數描繪出來，發現在收益函數的圖象（類似的卍）有一個交點（但是我不知道為什麼交點就是最優解）交點的策略為（2/3boxing1/3ballet，1/3boxing2/3ballet）此時每個人收益為4/3，比純策略的均衡收益高。但這只是理想狀態下的，並不一定能夠達到，所以混合策略我覺得只是告訴你一個最優的收益。

Pure strategy中選擇的概率是離散的，在mix中是連續的。

就是這麼簡單