博弈論之總結
1,總起:
在研究博弈論之前呢,我們首先發現博弈論有一個大前提條件,那就是人都是理性的,而且這種理性是一種共識。在這種大前提之下,我們可以發現無論是靜態博弈還是動態博弈。無論是完全信息博弈還是非完全信息博弈。所有的博弈者做出的決策都是使自己希望收益最大化的。無論這個決策帶來的收益是確定的,還是決策帶來的收益是一個概率分布。理性博弈者總會做出使自己收益最大化的決策(在考慮到對手決策之後)。這裡我們可能會說,在某一個博弈階段博弈者的收益並不是最大化的。但是在重複博弈中,博弈者肯定會使自己的總收益達到最大化。
我想這一點也是老師上課一直在強調的,雖然博弈種類有許多種,但是只要我們知道決策選擇是使博弈者期望收益最大化的就會迎刃而解。
下面我們來對每種博弈來做一下具體分析:
根據對信息的掌握程度,我們可以把博弈分成四大類:
完全信息的靜態和動態;不完全信息的靜態和動態。
2,完全信息靜態博弈
首先我們先從非合作均衡中最簡單的完全信息靜態均衡開始分析,NASH均衡作為最簡單的靜態博弈,一個非常經典的例子就是囚徒困境。雖然非常簡單但是我們從中看到戰略式博弈當中包含的三個基本要素:
1,參與人 2,參與人戰略級3,戰略所帶來的收益(效用函數)
從囚徒困境中,我們也可以發現,如果雙方合作的話會出現帕累托改進的現象。於是我們知道雙方的策略,只是在給定對方的策略下使自己的支付最大化的策略,而並不一定是最有效率的策略。就像是污染博弈,美蘇冷戰是一樣的道理。
2,接下來呢,我們再來看一下混合戰略,混合戰略解釋了一個參與人對其他參與人所採取的行動的不確定性,它描述了參與人在給定信息下以某種概率分布隨機地選擇不同的行動或戰略。
我們可以發現,在混合戰略中,各種情況下參與人採取的戰略決策並不是確定的,而是以一個概率的形式出現的,其實我們發現純戰略其實可以當做是混合戰略的一種特例(即0-1分布情況下的情形),所以其實混合戰略是一種更為廣泛的博弈形式。
那麼其實混合策略nash均衡的求解形式如果我們可以得出,其實也就可以把它推廣開來。
老師上課的時候講了兩種求解的方法,一種是支付最大化法,一種是支付等值法。其實我們發現無論是哪種方法都沒有離開我們最一開始的假定條件,那就是參與人的理性,和理性是一種共識。正是因為有了這個大前提,我們才能比較不同選擇為參與人帶來的收益,從而使其支付最大化。
和在純戰略的nash均衡一樣,混合戰略的nash均衡是每個參與人的混合策略是給定對方的混合策略下的最優選擇。
雖然上面這兩種博弈的形式非常簡單,但是其實,這兩種博弈尋找最優解的方法,使我們研究下面更複雜博弈的基礎。而且其實我們通過以上兩種博弈發現了一個特點,那就是博弈其實和單純的選擇最大的不同就是你的收益取決於你的博弈者的選擇,所以,博弈是需要考慮他人決策的一種「複雜選擇」。其實,這裡其他參與者的選擇確實對我們的影響非常之大。
3,完全信息動態博弈
在完全信息的靜態博弈之後呢,我們再來看一下完全信息動態博弈,其實動態博弈只是在博弈之前加入了參與人之間的選擇順序的先後,即由博弈雙方同時博弈變成了一個參與人作出決策,另一個參與人根據第一個博弈人做出的決策做出自己的決策。
在動態博弈中,參與人為了使得其他參與人的選擇對自己有利,往往採取一些行動來影響其他參與人對於自己行為的預期。這些行為稱為戰略行動。我們可以發現其由兩個方面來組成的:
1.首先行動優勢
首先行動優勢是指,在博弈中首先作出戰略選擇並採取相應行動的參與人可以獲得較多的利益。
2.確實可信的威脅
確實可信的威脅是指,博弈的參與人通過某種行動改變自己的支付函數,從而使得自己的威脅顯得可信。參與人為改變博弈結果而採取的措施稱為承諾。
我們還可以發現一個問題,那就是,如果我們用靜態博弈中的nash均衡的方法來討論動態博弈中的均衡問題,通常求出的均衡解是不唯一的。
我們可以發現在動態博弈中的矩陣形式不同於在靜態中的,一般我們在求解的過程中採用的逆推法來進行結果的推導。
因為有了這種逆推法,所以我們首先是把博弈分為不同的信息集,繼而就出現了子博弈的概念子博弈:是原博弈的一部分,它始於原博弈中一個單結信息集中的決策結x,並由決策結x及其後續結共同組成。一般用表示博弈樹中始於決策結xi的一個子博弈。
具體的分析過程是這樣的:
(1)找出博弈的所有子博弈;
(2)按照博弈進程的「反方向」逐一求解各個子博弈,即最先求解最底層的子博弈,再求解上一層的子博弈,......,直至原博弈。
由此我們可以根據以上的分析過程,從最底層開始,看看哪一些均衡是真正的均衡,而哪一些是在特定情況下才會產生的均衡。
在動態博弈中呢,一個非常重要的問題就是分析對手給出的威脅是否是可以置信的,以及怎麼樣把不可置信的威脅變成可以置信的威脅。
就如老師上課講的例子一樣,在開發和不開發的博弈中,如果一家公司(A)說無論另一家公司(B)開發或者不開發我都會選擇開發。這是A公司在這個博弈中的一個威脅。但是如果要看其是否是一個可置信的威脅的話,那我們需要對每種情況下的收益做出支付的分析。用逆推法我們可以得出以下結論:
可置信:如果我們發現在給出威脅的情況下,如果A公司採用威脅的行動這種情況可以帶來最大的收益是最大的(對A公司),則可以認為這種威脅時可置信的.
由此其實我們發現,動態博弈雖然用到了和靜態博弈中完全不同的決策樹的分析方法,而且,我們求解均衡的時候用到的是逆推法。但是我們發現,動態博弈的一個最重要的核心內容也是一樣的,那就是博弈參與者所作出的決策將會選擇那些使得自己受益最大化的決策,也就是理性人的假定必須成立的情況下,我們分析的方法還是收益的比較來做出最終的結論。
但是在生活中呢,我們發現了另一個非常有趣的例子,那就是污衊名人以求高額勒索的例子(也就是我們書中所說的要挾訴訟),在這個例子中呢,我們發現了動態博弈中的另外兩個概念:(我們分別來作出分析)
1,大的並不一定能帶來優勢
這一點上面我們也可以根據兩者的支付來得出結果(但是在訴訟的例子中這一點變成了損失而並不是原來意義上的正的收益),即規模大並不一定能夠帶來好處,有時還會成為攻擊的對象。
2,承諾行動
在這一點上面,我們沿用了前面一樣的分析方法,我們發現如果採用決策樹逆推法的分析形勢。要挾者假設會選擇使自己最大的收益的行動方法,則起訴的這個威脅是不可置信的。但是如果要挾著在訴訟之前就支付了訴訟的費用,我們發現,再進行收益的分析,就有可能使得不可置信的威脅變成了可以置信的威脅了。結合第一條,我們可以發現,如果要挾者提前支付了訴訟的費用,則如果原告的社會地位等(規模)越大,則就越有可能受到這種承諾行動的影響,使得不可置信的威脅變成了可置信的威脅。
通過這兩點,我們發現了可置信威脅與不可置信威脅有時候並非是絕對的。我們可以採用承諾行動的方法來使得不可置信的威脅變成可以置信的威脅。從這裡我們可以把承諾行動理解成一種沉沒成本,其實還是我們上面所說的那種方法。把承諾行動成本考慮進來之後,其實就是改變了每一種行動情況下的支付情況,使得原來不可置信的威脅的行動的收益超過了另一種行動時的收益。也就使得不可置信的威脅變成了可置信的威脅了。
4,不完全信息靜態博弈
分析了上面的兩種情況,我們的信息均為完全信息,下面我們來分析一下不完全信息的情況,看一下基本情況是什麼樣子的。
首先是不完全信息靜態博弈:
我們首先來看一下什麼是完全信息:每個參與人對其他參與人的支付函數有準確的了解;否則,為不完全信息。
完美信息:在博弈過程的任何時點每個參與人都能觀察並記憶之前各局中人所選擇的行動,否則為不完美信息。
有定義我們可以發現不完全信息與完全信息有以下聯繫和不同:
1,參與人並不知道其他參與人的支付(收益)情況是什麼樣子的
2,因為不知道其他參與者的收益情況,也就不能用完全信息的方法來進行分析
3,但是我們的基本框架還是沒有改變,那就是無論是完全信息博弈還是非完全信息博弈,都是假定參與人是理性的,並且都會選擇使自己期望收益最大的決策選擇。
根據前兩點的不同呢,我們可以發現,其實是因為在博弈開始之前,我們對參與人的信息並不了解,才造成了不確定因素,這也是我們為什麼不能用完全信息不能解決這個問題的方法。
但是如果將這種不確定因素去掉,我們可以將其轉換成完全信息的分析方式了:
因此我們就需要引入一個新的概念那就是類型的概念。
在引入類型之前呢,我們發現因為一個博弈者並不知道他在與誰博弈,也就無法確定其他博弈者的收益情況,因此也就不能用完全信息的方法來得出均衡解。但是當引入了類型之後,我們發現,其實在把可能遇到的參與者在不同的類型下分類之後,(就像老師上課所講的企業是高盈利的還是低盈利的,鬥雞博弈中的參與者是強硬的還是軟弱的。)這樣我們就可以進一步分析了,分別考慮在不同參與者類型情況下的問題。我們就將原本的不完全信息變成了完全信息博弈來求解了。
但是,我們發現在引入了新的類型之後,我們如何在博弈中表現這種類型呢?這就涉及到了一種非常經典的方法,海薩尼轉換:
我們先來看一下為什麼要引入海薩尼轉換:
因為在假定參與人擁有私人信息的情況下,其他參與人對特定參與人的支付函數類型是不清楚的。(也就是我們在上面引入的類型變數)如果一些局中人不知道另一些局中人的支付函數,或支付函數不是共同知識,局中人就不知道他在與誰博弈,博弈的規則是沒有定義的。
下面我們來看一下海薩尼轉換是怎麼具體實施的:
首先引入一個虛擬的局中人——「自然」,自然首先進行選擇它決定每個局中人的特徵。每個局中人知道自己的特徵,但不知道別的局中人特徵。這種方法將不完全信息靜態博弈變成一個兩階段動態博弈,第一個階段是自然N的行動選擇,第二階段是除N外的局中人的靜態博弈。我們可以看到這個轉換把「不完全信息」轉變成為完全但不完美信息,從而可以用分析完全信息博弈的方法進行分析。
在接下來的分析當中,我們發現其實我們的工作就非常簡單了,那就是只需要求出每種類型所出現的概率,然後再根據每種類型下的收益情況進行概率與收益的加權平均。就可以求出在信息不完全情況之下的(就是說一個參與人對另一個參與人的不確定因素)參與人在各種策略選擇上的收益情況,進而得出他的受益最大的策略。
我們發現還有一個問題沒有解決,那就是概率的問題:那麼我們如何解決概率的問題呢?
我們可以根據貝葉斯規則來進行求解:
以鬥雞博弈為例子:
1,用p(t1,…,tn)表示定義在參與人類型組合上的一個聯合分布概率函數。
2用表示參與人i在知道自己類型為ti的情況下,關於其他參與人類型的推斷(即條件概率),則
假設pss=0.2,psw=0.3,pws=0.25,pww=0.25。
其中, pss:決鬥者1和決鬥者2同時強硬的概率;
psw:決鬥者1強硬、決鬥者2軟弱的概率;
pws:決鬥者1軟弱、決鬥者2強硬的概率;
pww:決鬥者1軟弱、決鬥者2軟弱的概率;
雖然決鬥者1不知道決鬥者2 的類型,但由於決鬥者1知道自己的類型,因此他可以根據貝葉斯公式推知決鬥者2的類型分布。
由此我們知道,雖然不能得到決鬥者2到底是什麼類型,但是根據貝葉斯公式,我們可以得到其類型的概率分布,這樣子的情況之下,我們就將問題變成了我們前面提到的完全信息混合戰略nash均衡的求解問題上面了。
這就是不完全信息靜態博弈的分析方法,其中一個重要的應用方面的例子就是機制設計理論,從其定義上看:
設計者希望得到的結果和參與人所掌握的信息(可以是參與人的類型、也可以是參與人的努力程度等一切參與人知道、而設計者不知道並且與結果相關的信息)相關,但是設計者又無法直接獲得參與人所掌握的信息,從而無法直接確定結果,因此他必須誘導參與人發出信號,從而確定結果。
其實說的通俗一些,激勵設計理論就是說,設計一種方法讓設計者知道參與人的真實想法,而這裡的真實想法其實就是我們上面所說到的類型的一個延伸。
我們可以發現,在激勵設計理論中,有三個階段:
階段1:機制設計者(委託人)設計一種「機制」,或者「契約」,或者「激勵方案」;
階段2:代理人選擇接受或拒絕該機制,拒絕的代理人得到某個外生的「保留效用」;
階段3:接受機制的代理人選擇自己的行動(或者戰略),實現一個博弈結果。
而每一階段呢都要對應有自己的約束條件,
1,階段1:機制設計者(委託人)設計一種「機制」,或者「契約」,或者「激勵方案」;
約束:雖然老師上課沒有講,但是我覺得,只有當設計者認為設計的機制給他帶來的收益大於設計所帶了的成本的時候設計者才會選擇設計這個方案
2,階段2:代理人選擇接受或拒絕該機制,拒絕的代理人得到某個外生的「保留效用」;
約束:由於代理人在第二階段總可以選擇不接受該機制從而獲得一個保留效用,因此,代理人接受這個機制獲得的效用必須不小於拒絕這個機制時獲得的效用。(參與約束或個人理性約束)
3,階段3:接受機制的代理人選擇自己的行動(或者戰略),實現一個博弈結果。
約束:從機制設計者的角度而言,設計機制的目的是能夠使代理人的博弈行為促進其最大化利益的實現,也就是迫使代理人說真話,因此,必須要對代理人的行為選擇進行約束。這意味著,對於代理人而言,代理人真實報告自己的類型時獲得的效用必須不小於謊報自己類型時獲得的效用。(激勵相容約束)
機制設計理論的一個典型應用就是拍賣的例子。老師上課進行了數學推導,其實,最根本的還是滿足上面兩個條件,
滿足了參與約束
滿足了激勵相容約束
最後我們發現,雖然機制設計理論可以認為是一種延伸,但是只要看到上面這兩個約束我們就會發現,其根本問題還是選擇所帶來的收益的一個權衡問題。無論是慘不參加,還是說不說真話都是這樣。
6,不完全信息動態博弈:
在分析完不完全信息靜態博弈之後,我們最後來看一下不完全信息動態博弈:
這種博弈可以說是四種博弈中最為複雜的了,相比於完全信息博弈,由於其信息的不完全性,因此和不完全信息靜態博弈一樣他需要引入類型的概念。
而另一方面,相比較於靜態博弈,他又具有動態博弈所特有的行動順序。
因此,我們發現,具有以上兩個特點的不完全信息動態博弈,可以用到我們前三種的分析方法。
首先根據不完全信息的特性,與不完全信息靜態博弈一樣,在不完全信息條件下,博弈的每一參與人知道其他參與人的有哪幾種類型以及各種類型出現的概率,即知道「自然」參與人的不同類型與相應選擇之間的關係,但是,參與人並不知道其他的參與人具體屬於哪一種類型。
在靜態博弈中,我們用到的是貝葉斯法則求出了類型的概率分布,但是在動態中,因為行動有先後順序,後行動者可以通過觀察先行動者的行為,獲得有關先行動者的信息,從而證實或修正自己對先行動者的行動。
因此我們可以發現,動態博弈相較於靜態,在不完全信息下又增加了一個信息修正的過程。(即後決策者可以根據先前決策者的行動,來修正概率)
具體方法是:
在不完全信息動態博弈一開始,某一參與人根據其他參與人的不同類型及其所屬類型的概率分布,建立自己的初步判斷。當博弈開始後,該參與人就可以根據他所觀察到的其他參與人的實際行動,來修正自己的初步判斷。並根據這種不斷變化的判斷,選擇自己的策略。
因此我們可以根據修正前後的變化得到兩個概率:
先驗概率和後驗概率:
先驗概率(prior probability):修正之前的判斷;
後驗概率(posterior probability):修正之後的判斷。
根據貝葉斯法則,根據先驗概率,我們可以求出後驗概率:假定參與人i有K個類型,同時有H個行動,用qk和sh分別代表一個特定的類型和戰略,假定i屬於qk的先驗概率是p(qk)30,且Sp(qk)=1,參與人i選擇sh的條件概率為p(sh?qk),且Sp(sh?qk)=1。假如觀測到i選擇了sh,則i屬於類型qk的後驗概率Prob(qk?sh)為:
根據上面的對不完全信息動態博弈的解釋,我們可以來看一下它的一個非常廣泛的應用,那就是信號傳遞。
首先我們來看一下信號博弈順序:
(1)「自然」首先選擇1的類型Q?q,參與人1知道自己的類型,但參與人2不知道,只知道1屬於q的先驗概率p=p(q);
(2)1在觀測到類型q後選擇發出信號m?M,M={m1,…,mJ}是信號空間;
(3)2觀測到m(而非q)使用貝葉斯法則從先驗概率p推斷後驗概率,然後選擇戰略s;
(4)支付函數分別為u1(m,s,q), u2(m,s,q)
信號傳遞博弈的精鍊貝葉斯均衡是戰略組合(m*(q),s*(m))和後驗概率的結合,它滿足:
(P1)s*(m)極大化Su2(m,s,q);
(P2)m*(q)極大化u1(m,s*(m),q);
(B)是參與人2使用貝葉斯法則從先驗概率p=p(q)、觀測到的信號m和參與人1的最優戰略m*(q)得到的。
信號傳遞博弈的所有可能的精練貝葉斯均衡可以劃分為3類:
1,分離均衡:不同類型的發送者以1的概率選擇不同的信號,或者說,不同類型的人選擇的信號互不相同。在分離均衡下,信號準確地揭示出類型。
2,混同均衡:不同類型的發送者選擇相同的信號,或者說,不同類型的人選擇相同的信號,因此,接收者不修正先驗概率。
3,准分離均衡:一些類型的發送者隨機地選擇信號,另一些類型的發送者選擇特定的信號。
根據以上的這些基本的信息呢,我們可以得出一些關於信號傳遞的基本運作的原理。我們發現,在某些階段,企業所選取的策略選擇可能並不會使得本階段的收益是最大化的,但是它可以通過這個階段傳遞出的,或者不想傳遞出的信息使得整個過程博弈的收益最大化。因此我們發現在不完全信息動態博弈當中,我們還是沒有偏離我們的基本假定,那就是,選擇的策略的結果可以使得決策者在整個博弈中的收益高於其他的決策選擇。即使某些情況下某些決策在該階段可能並不是最有收益的,但是加上信號傳遞效果對整個過程的正的外部性,其實參與者在每個階段的決策選擇也是符合收益最大原則的。
7,總結
根據以上的這些總結我們把四種博弈的問題已經全部考慮進去了。下面我們來用表格更好的來展示一下這些博弈的聯繫與區別:
信息完全性/決策次序性 |
無決策次序 |
有決策次序 |
完全信息 |
完全信息靜態博弈 |
完全信息動態博弈 |
不完全信息 |
不完全信息靜態博弈 |
不完全信息動態博弈 |
類型 |
所需要素 |
博弈進行的前提假設 |
解決的方法 |
具體的例子 |
完全信息靜態博弈 |
1,參與人 2,參與人戰略級 3,戰略所帶來的收益 |
1,人的理性假設 2,理性共識假設 |
矩陣法 |
1,囚徒困境 |
不完全信息靜態博弈 |
1,參與人 2,參與人戰略級 3,戰略所帶來的收益 4,類型 |
1,人的理性假設 2,理性共識假設 |
海薩尼轉換 貝葉斯法則 |
1,古巴導彈危機 |
完全信息動態博弈 |
1,參與人 2,參與人戰略級 3,戰略所帶來的收益 4,決策順序 |
1,人的理性假設 2,理性共識假設 |
逆推法(決策樹) |
1,鬥雞博弈 |
不完全信息動態博弈 |
1,參與人 2,參與人戰略級 3,戰略所帶來的收益 4,類型 5,決策順序 6,先前決策所傳遞信息 |
1,人的理性假設 2,理性共識假設 |
海薩尼轉換 貝葉斯法則 信息修正 |
1.黔驢技窮 2.信號傳遞 |
8,最後的話:
自己在學完博弈之後的一點點感想,通過以上的總結,我想說的是,其實所有的問題都可以說是有一個固定的套路來進行解決。無論是最簡單的完全信息靜態博弈還是最後的不完全信息動態博弈。只要我們牢牢記住參與者的決策選擇一定是想讓他收益最大化的這個原則就是非常重要的。
老師上課的許多例子真的很引人入勝,也引發了我對生活中一些問題的思考,就如那個企業為什麼一邊放貸一邊又借貸的例子,讓我也通過這門課對生活中的一些問題作了一些思考。就如期中的那篇論文一樣。期末的這篇論文我也用到了以上提到的幾種博弈方法。用一個博弈的角度來看待問題。
推薦閱讀:
※博弈論第八節
※做事情要有有目的
※AlphaGo特別篇|完全公開信息類遊戲之最佳策略
※【周末薦游】王權(Reigns)與博弈論
※博弈論