怎麼用簡潔易懂的語言描述什麼是納什均衡理論?


如果博弈參與者達到納什均衡,那麼一個人單方面改變自己的策略不會得到更多的報酬。


每個參與人都選擇了最佳的對策;

改變策略嚴格不會使參與人獲得增益;

在其他參與人不改變行為的前提下,自身改變行為沒有好處。


電影中的橋段

看過這部奧斯卡最佳影片的同學都應該還記得酒吧里舞會的那種情景,大家都在盡情調侃的時候,納什一個人搬著桌子在那裡學習,然後就是這樣一種場景誘導他有了新的發現,最後帶著滿足的笑容匆匆離開時說了這樣一句經典台詞:「Adam Smith is wrong」。(亞當斯密錯了!)是什麼樣的場景呢?

兩組人,一組五個男生,一組五個女生;五個男生都想追女朋友,顯然滿足他們個人利益最大化的選擇是都去追最漂亮的那個,但是最漂亮的女生為了不得罪任何一個男生和自己的女伴,最好的選擇是都拒絕。

然後被拒絕後的男生會轉過頭追那些剩下的不怎麼漂亮的女生。由於自尊心受到打擊,那些不怎麼漂亮的女生都會選擇拒絕。

最終的結果是五個男生都依然單身。顯然對大家最好的結果就是五個男生跟五個女生一一配對成為朋友。

但是當每個男生都按照自身利益最大化去做選擇的時候,並沒有導致大家集體利益的最大化。從而納什否定了亞當斯密關於經濟學的基本假設「個人利益最大化一定會導致集體利益最大化」。

納什均衡理論

剛才為大家描繪的就是一個典型的納什均衡理論的案例。其實,納什均衡一種策略組合,使得同一時間內每個參與人的策略是對其他參與人策略的最優反應。

義:假設有n個局中人參與博弈,如果某情況下無一參與者可以獨自行動而增加收益(即為了自身利益的最大化,沒有任何單獨的一方願意改變其策略的),則此策略組合被稱為納什均衡。讓小U再給大家舉一個有關於納什均衡理論的經典案例,也就是我們常常聽到的囚徒困境:

假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊。

對每一個犯罪嫌疑人,警方給出的政策是:

1、如果一個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。

2、如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;

3、如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。

4、如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。

關於案例,顯然最好的策略是雙方都抵賴,結果是大家都只被判1年。但是由於兩人處於隔離的情況,首先應該是從心理學的角度來看,當事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當·斯密的理論,假設每個人都是「理性的經濟人」,都會從利己的目的出發進行選擇。

這兩個人都會有這樣一個盤算過程:假如他坦白,如果我抵賴,得坐10年監獄,如果我坦白最多才8年;假如他要是抵賴,如果我也抵賴,我就會被判一年,如果我坦白就可以被釋放,而他會坐10年牢。綜合以上幾種情況考慮,不管他坦白與否,對我而言都是坦白了划算。兩個人都會動這樣的腦筋,最終,兩個人都選擇了坦白,結果都被判8年刑期。

為啥說這個它顛覆了經濟學基礎理論?

我們先來看看經濟學的基礎理論是什麼?亞當斯密1776年在《國富論》里提出了「看不見的手」理論。什麼是「看不見的手」即市場機制,價格機制即在市場中,價格作為一種信息引導著資源的配置,最終達到的均衡是有效率的。

這裡面的均衡跟納什均衡的定義完全一模一樣,納什並沒有否定。納什否定的是「有效率」。傳統經濟理論認為:市場機制中,個人追求自身利益最大化,最終會導致集體利益最大化,即是有效率的。納什的創新之處就是否定了這樣一種觀點:個人按照自身利益最大化去決策,達到的結果並不一定意味著集體利益最大化。即個人利益最大化與集體利益最大化並不總是一致的,是有衝突的。

就如同囚徒困境中向大家闡述的那樣,從利己目的出發,結果損人不利己,既不利己也不利他。


Informally, a set of strategies is a Nash equilibrium if no player can do better by unilaterally changing his or her strategy. To see what this means, imagine that each player is told the strategies of the others. Suppose then that each player asks himself or herself: "Knowing the strategies of the other players, and treating the strategies of the other players as set in stone, can I benefit by changing my strategy?"

通俗的講,在納什均衡的策略組合中,任何人不可能從單方面改變其策略中得到好處。

博弈矩陣 囚犯甲招供 不招供囚犯乙招供判刑五年 甲判刑十年;乙判刑三個月不招供甲判刑三個月;乙判刑十年 判刑一年比如在上面這個囚徒困境中,納什均衡就是兩個犯人都選擇招供。因為如果甲單方面改變策略(即不招供),不能獲得好處。

在這裡,納什均衡並不是帕累托最優。如果在保證任何一方的利益不受損的情況下,沒有任何方法促使至少一個人得到更多的利,那麼我們稱帕累托最優;反之,就存在帕累托改進。顯然,在甲乙都不招供的情況下才是帕累托最優。

個人認為,實現從納什均衡到帕累托最優的辦法就是信息透明對稱,即甲乙協商。


抱歉,鄙人在腦子裡呼喚@納什 ,才想到夫婦2人2015車禍過世。恐怕我沒有能力回答此問。

可從如下關鍵詞理解:

霍特林模型—囚徒困境—動態環境—非最優解—0和1。


推薦閱讀:

壟斷廠商無價格歧視和一級價格歧視的區別究竟該怎麼解釋,很糊塗?
國產文具是否面臨危機?
作為共產主義者,您認為共產主義是一定「會」實現?還是一定「要」實現?
林文夫(Fumio Hayashi)在計量經濟學界的地位如何?
能不能舉例說明下什麼叫「典型的金融思維」?

TAG:經濟學 | 博弈論 |