怎樣向非專業人士專業地解釋「納什均衡」?
本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生,更多「博弈論」話題討論歡迎關注
「不後悔」
這是Yale的《博弈論》公開課上給出的一個直觀解釋,也是我目前看到的最容易理解的解釋。
不過我以為這個解釋還不夠嚴謹。納什均衡在一些博弈中並非共同最優的結果,如常被拿出來說事的「囚徒困境」中,納什均衡結果是兩人均認罪,而這個結果對兩個人而言都是不如兩人均不認罪的結果的。如果不對「不後悔」做一點補充,可能會造成歧義。於是解釋不得不變得稍微複雜一點:
給定其他人的策略不變,每一個參與者對於自己的選擇都「不後悔」。
而之所以合作結果不能成為均衡結果,正是因為給定一方「合作」(不認罪)時,另一方就會有將策略改為「背叛」(認罪)的激勵。即合作結果將會使雙方都後悔。
對於這樣的「不後悔」,有一個專業術語——「最優反應」(best response),於是可以進一步修改對納什均衡的解釋:
每個人的策略都是對其他人的策略的最優反應。
這個相對規範的表述也不難理解嘛:)
補充:
1、「囚徒困境」中的背叛結果是一個純策略納什均衡的例子,對於混合策略納什均衡,這個解釋也是成立的~
2、Dixit的Games of Strategy上更規範的定義:A Nash Equilibrium in a game is a list of strategies, one for each player, such that no player can get a better payoff by switching to some other strategy that is available to her while all other players adhere to the strategies specified for them in the list.都要求「專業的解釋」了,怎麼能沒有證明呢
都說了是「非專業人士」了,怎麼能拽數學符號呢
所以這題挺難啊 這是加分題啊
答完了我能不能保送啊
納什均衡說的是這麼一種狀態:在給定其它人的策略的情況下,每個人都已經做到最好了,沒有誰可以通過獨自改變策略而增加收益。
納什均衡在數學上就是一個不動點的概念。在給出存在性的證明之前,咱們先來說明不動點的概念和不動點定理。
什麼是「不動點」呢?方程f(x)=x 的解就是不動點。
首先把f( )看作一種變換/映射--f( )把x對應為 y=f(x),其中x和y分別是屬於集合X和Y的兩個元素。如果X=Y,那麼方程f(x)=x的幾何意義就是:一個映射f( )將x變成自己,即x在f 的 映射下是不變的,所以我們才把f(x)=x 的解叫做f()的不動點。
Brouwer不動點定理 說的就是滿足一些性質的函數 一定存在不動點
(Brouwer Fixed Point Theorem In Convex Compact Set)
Every continuous function from a convex compact subset K of a Euclidean
space to K itself has a fixed point.
嗯 我就不翻譯了 反正翻譯成中文更難理解。
這個Brouwer不動點定理有很強的幾何直觀,可是數學證明超級難,我當然不會證。。。
但是我們舉個栗子來簡單感受一下
考慮二維的case:
想像你有一台精確的理想GPS,但是屏幕嚴重變形,並且這個變形並不要求均勻按比例,而是全看心情隨意扭曲。以至於屏幕上顯示的是一個變形且縮小的地圖。如果我們把地球看作一個大的地圖A,GPS屏幕上的地圖B看作對A的縮小變形,那麼地圖A上的每一個點在B上都有了新的位置,可能B的紐約在A的波士頓位置,B的芝加哥在A的加州。但不動點原理告訴我們:B上必有一個點位置沒有動,即這個點在兩張地圖A、B上表示相同的位置。而!且!屏幕上顯示你當前位置的點就是「不動點」哦
所以說,當你用地圖查找你所處的位置時,就是找不動點的過程,假如你的地圖又很不規則,那麼你其實正在做一件數學上很困難的事情,找到不動點。你很厲害啊!
說回納什均衡
其實直接用來證明納什存在性定理的不動點定理還不是Brouwer fixed point,而是Kakutani不動點定理。這個Kakutani fixed point theorem說的是Let S be a non-empty, compact and convexsubset of some Euclidean space R^n. Let φ: S →2^S be a set-valued function on S with a closed graph and the property that φ(x) is non-empty and convex for all x ∈ S. Then φ has a fixed point.
說的是對於歐式空間(有限維向量空間)中 任一非空,緊(有界閉),凸子集S,S的一個上半連續的self correspondence φ (所謂correpondence就是把x映射到一個集)且對S中每個x, φ(x)都是S的一個非空凸子集。那麼,S中一定存在不動點。
納什均衡的證明 就是依據效用函數的連續性 ;有限個純策略數,且混合策略仍在strategy set里,依次證明 最優反應混合戰略R(-i) 滿足非空 凸。然後構造對應R,將strategy set中的點映射於strategy set中的子集, 再證R是上半連續的--證出來R是映到自身的一個上半連續correspondence。這樣根據角谷不動點定理,存在策略集中的某個混合戰略組合x, 使得xR(x).這個x就是這個game的一個納什均衡了。
-----------------------------------------------
我還是不行啊 最後那個數學證明好像還是沒說明白 有空再好好說一遍
說到簡潔,大部分的經濟學理論都是幾句話可以說清楚的,沒有那麼玄妙。
納什均衡有個這樣的前提:決策圈中的個體是獨立,不合作,不橫向溝通的。
然後每個個體在猜測決策圈裡的其他人的選擇後,作出自己認為最優的決策。這樣的決策簡單組合起來,就叫納什均衡。囚徒理論廣為人知,但是它是證明「納什均衡不代表整體最優決策」的一個淺顯簡單的例子。納什均衡是這樣的一種狀態:在博弈中如果玩家A選擇了X選項,那麼玩家B為了使自己的利益最大話選擇了Y選項;相反如果玩家B選擇了Y選項,這種情況下X對於玩家A來說也是利益最大話的唯一選項。
例子如:A,B兩個理性的玩家博弈,規則是兩個人各自選擇從1到9的任意一個整數,如果兩個人選的數字之和不大於10,則A、B玩家各自獲得所選數目的獎金,反之雙方一分錢也拿不到。
在這個例子裡面,如果A選擇「4」,B為了是利益最大化會選「6」,記為(4,6);相反,如果B選擇的是「6」,A為了利益最大化就只能選「4」,因此(4,6)就是一個納什均衡點。
相應地,(1,9)、(2,8)、(3,7)、(5,5)、(6,4)、(7,3)、(8,2)、(9,1)也都是納什均衡點。但是哪一個納什均衡是最容易出現的呢?這個答案取決於這個遊戲是靜態(Static gaming)的還是動態(dynamic gaming)的,彼此知不知道對方的選擇。
如果遊戲是靜態的(就像猜拳,彼此同時選擇,而且對方不知道彼此的選擇),出現哪個結果則取決於A,B雙方更願意相信對方會選擇多少。
如果是動態的,又分幾種情況,信息透明,和信息不透明,和信息不對稱。1,如果信息透明,也就是像下象棋一樣,A先選,B知道A選擇之後再選擇,這種情況下,一定是(9,1);2,如果信息不透明,就是A選好了,寫下來後放在信封里,然後B做選擇,這種情形等同於靜態博弈。3,如果信息不對稱,就比較複雜了,涉及到有沒有bluffing,有沒有欺騙等等,所以結果很有可能達不到納什均衡點。沒有任何一方願意主動改變現狀即為納什均衡。其實,納什自己已經給出了極精鍊的定義,根本不需要更簡潔了。
另外,沒有「納什均衡理論」這回事。中國人搞學術,就喜歡在任何一個名詞後面加個「學」、「理論」,以突顯知識層次的高貴。就納什均衡來說,納什只做了一件事情,就是證明了在任何一個博弈中,都存在納什均衡;簡單的講,就是任何博奕都有解。除此之外,他沒有再對博奕論做任何事情,因為他很快已經精神出問題了。
但這個成果,是博弈論大廈的唯一根基。在此之前雖然馮諾依曼也述及博弈論,但那隻能算玩票。納什定理告訴大家,博弈一定有解。從此,其它人才有可能繼續發展博弈論。否則,方程如果可能無解,那還解什麼方程。
納什在納什定理的證明中,另一個開創性的地方在於,他使用了拓撲學的不動點定理。在此之前,人們根本不知道拓撲學有什麼實際用途,只是數學家創造出來的思維遊戲而已。在此之後,不動點定理在金融學理論中也開始大展拳腳。
納什的理論,大致就是這樣簡潔的解釋:
「納什均衡」,它是這樣一種博弈結果,即每個參與人所作出的選擇都是對其他參與人作出的選擇的最佳反應,比如囚徒困境_百度百科中兩個囚徒互相揭發的結果。更簡潔的解釋:(吐個槽,該公式見於姚院長翻譯的紅皮《博弈論》,史上翻譯最差的博弈論教材沒有之一,比如「如果對每一個適當子博弈G, 在G上的限制是G的一個納什均衡,則擴展式博弈中的行為策略組合是一個子博弈完美均衡」OTZ…英文語序中文直譯…這酸爽…)——————————————————————————————————————
下面是啰嗦的解釋,主要想談談「納什均衡」的意義。讓我們先從「博弈」談起吧。「博弈」,英文為「Game」,是指參與者在一定的規則下,藉助各自掌握的信息,通過選擇恰當的行動策略以使得自己的受益最大。從上述定義可以看出,「博弈」所涵蓋的範圍是很廣的,石頭剪子布、企業的定價策略、國際談判等都可以找到「博弈論」的身影,而對於一個「博弈」而言,我們最想知道的就是所有的參與者會在博弈中如何行動,即博弈的結果是什麼了。比如最經典的「囚徒困境」的例子:囚徒困境(蘭德公司,1950)
兩個嫌疑犯甲和乙作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。
為了知道兩個嫌疑犯會如何選擇(即博弈的結果),不妨先站在嫌疑犯甲的角度考慮:
嫌疑犯甲會這麼想:如果乙抵賴了,那麼我最好坦白,因為如果我抵賴的話要被判一年的刑罰,而坦白可以獲得自由;如果乙坦白了,那麼我也最好坦白,因為如果我抵賴的話要被判十年,而坦白只要被判八年就可以了。所以,甲最終會選擇坦白。而嫌疑犯乙經過換位思考,想到了甲會選擇坦白,那麼自己最好也是坦白好了。所以這個博弈最終的結果就是「甲也坦白,乙也坦白」。好了,通過這個例子,我們展示了傳統博弈分析的方法(博弈論上稱之為重複嚴格優勢法,即每名參與者都考慮所有可能發生的情況,並從中作出最優選擇),得到了「甲也坦白,乙也坦白」的結果。
然而,並非所有的博弈都能像上述分析那樣找到均衡的結果。比如盧梭在《論人類不平等的起源和基礎》中提出的「獵鹿博弈」:獵鹿博弈(盧梭,1755)
兩個獵人甲和乙同時決定獵鹿還是野兔。如果兩個獵人均獵鹿,那麼他們將獲得一頭鹿,並且可以平分各得到2單位的價值;如果兩個獵人均獵兔,那麼他們將各獲得一隻兔,得到1單位價值;
如果一個獵兔而一個獵鹿,則前者將獲得1單位價值,後者將一無所獲。
如果我們還是按照剛才那個思路分析,不妨站在獵人甲的角度考慮:很明顯,如果獵人乙選擇獵鹿,那麼獵人甲最好的選擇是獵鹿;如果獵人乙選擇獵兔,那麼獵人乙最好的選擇是獵兔。
這樣,我們就不可能通過給定的規則直接判斷出獵人甲究竟會如何選擇,進而也就無法判斷出這個博弈會出現什麼樣的結果了。傳統的博弈分析方法失敗了!但是,在「獵鹿博弈」的例子中,「兩個獵人都獵鹿」和「兩個獵人都獵兔」對兩個人來說都是明顯優於「一個獵鹿,另一個獵兔」這樣的選擇的。換句話說,如果獵人甲知道獵人乙會選擇獵兔,那麼他一定會選擇獵兔;如果獵人甲知道獵人乙會選擇獵鹿,那麼他一定會選擇獵鹿。反過來站在獵人乙的角度考慮也是一樣的。
所以,雖然我們不能通過重複嚴格優勢法得知這個博弈將會產生怎樣的結果(實際上在兩個獵人不交流的情況下四種結果都有可能發生),但我們知道,其中某些結果是更「穩定」的,因為如果所有參與人預測到該結果會出現(比如大家都會獵鹿),那麼他們將沒有動力去採取其他行動。
我們將這種博弈的結果,稱為「納什均衡」,它是這樣一種博弈結果,即每個參與人的策略都是對其他參與人的策略的最優反應。
「納什均衡」之所以很重要,就是因為我們在日常生活中所能接觸到的博弈,更多的是像「獵鹿博弈」中那樣,會出現多個「均衡」點,而非像「囚徒困境」中那樣可以明顯地預測到博弈的結果。而「納什均衡」具有在廣泛的博弈中均存在的優點,為博弈論的蓬勃發展做出了巨大貢獻!
敵不動我不動
其實很好理解,在發生一件事情(Game)的時候,假設在這個事情里,每個被牽扯進來的人都必須做出一個決策,每個人只能做關於自己的決定,而不能幫別人做決定。假設每個人都是非常聰明和理性的,做出的決策一定是對自己最有利的。如果在某種情況下,每個人都發現現在他們能做的已經是當前情況下最好的選擇了,沒有人想改變自己的策略,因為如果別人不改變策略的話,自己的選擇已經沒有辦法更好了。如果每個人都是這樣的,那麼就沒有人有改變策略的意願,那麼就是一個納什均衡。
每個人都最大限度的自私是一種最好的平衡。
看人下菜,見招拆招。
- 這是一個「非合作博弈」,每個人都不願依賴別人的選擇。
- 「納什均衡」就是對每個參加博弈的人來說,無論比人怎麼選,自己都可以處於一定程度的最優。
- 處於均衡的每個人都沒有理由和動機改變現狀。
「納什均衡」對整體而言,得到的往往不是最優點。
「納什均衡」 是一種博弈中的穩定狀態,即"均衡「態。一局博弈(Game)如果在」納什均衡「這個狀態點上,那麼這個博弈就結束了(game over),因為博弈的雙方都達成了共識,誰也不會再改變策略,誰改變策略,誰就吃虧。納什均衡理論是不存在的,沒有這個理論,納什均衡屬於博弈論的一個名詞概念。
如果你喜歡一個女孩子。現在女孩子把你當很好很好的朋友。
如果你表白,女孩子覺得這樣當朋友太尷尬了,那以後可能一起玩的機會都沒有了。
如果女孩子把你拒絕了,她也就失去了一個很好的朋友,這一點對現在的她來說也不是好的結果。
於是你們倆,誰都不願主動做出改變,即納什均衡。
你們倆在信息不完全下達到了各自的最優。但對於外人來看卻不是。想到兩個相悖的觀點:
1. 三個火槍手中那句名言:All for one, one for all (人人為我,我為人人),我的理解是,貴族武士之間,通過自利和利他的行為實現共同目的2. 亞當斯密提出invisible hand理論時候的基本前提:當市場中每個人都進行自利行為的時候,在客觀上說,市場(或社會)整體的福利會被提升而納什均衡恰好否定了前面的觀點,我認為這也是這一理論如此著名的原因:當市場中每個人都進行自利行為的時候,在客觀上說,市場(或社會)整體的福利是無法達到最優的。剛好之前看過果殼的一篇文章[1],摘如下內容:
[1] http://www.guokr.com/article/56198任何一個遊戲中,玩家們都會想方設法讓自己的利益最大化,有時甚至作出出人意料的決定,這讓遊戲的局勢變得錯綜複雜,典型的例子就是 海盜分金問題 。可在這複雜的關係下,存在一個驚人的規律,那就是在有限人的遊戲中,總存在這樣一種情況,每個人都能採取一種策略,使得他的利益不能再增大了。這就是博 弈論中重要的納什均衡(Nash Equilibrium)。納什均衡分為純策略納什均衡(pure strategy Nash equilibrium)和混合策略納什均衡(mixed strategy Nash equilibrium),前一種是所有玩家都採取純策略,後一種則是至少有一人採取混合策略。
兩害相權取其輕,兩利相權取其重
綜合一下兩位的觀點,感覺就說的很徹底了:李吾語 博弈的雙方,儘可能的,都使自己的利益最大化,達到的一種均衡狀態。肖和達到均衡點時,任何一方單方面的行為改變都不會使自己獲得更多的利益,這是達到均衡的關鍵,也是均衡的制衡效果。
簡單說就是在這種狀態,別人不動的話你單方面怎麼變也沒有現在好,對於每個人來說都這樣。感覺像麻將倆人對捏。
打個比方。話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說,「由於你們的偷盜罪已有確鑿的證據,所以可以判你們一年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我只判你三個月的監禁,但你的同夥要被判十年刑。如果你拒不坦白,而被同夥檢舉,那麼你就將被判十年刑,他只判三個月的監禁。但是,如果你們兩人都坦白交代,那麼,你們都要被判5年刑。」斯卡爾菲絲和那庫爾斯該怎麼辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月,但前提是同夥抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不划算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判5年,總比被判10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(被判1年刑)就不會出現。這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為「納什均衡」,也叫非合作均衡。因為,每一方在選擇策略時都沒有「共謀」(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。就是所謂的沒有一方願意主動改變策略。
大家都爭著這樣做,而且不願意改變,因為誰不這麼做誰就吃虧,就是納什均衡。 比如大家爭著上好的小學好的初中,大家爭著給孩子做應試教育,這些就是納什均衡。
推薦閱讀:
※未來幾年中國經濟增長的動力可能是哪些方面?理由是什麼?
※如何看待2017年全球經濟增長,三分之一來自中國?
※如何評價印度廢鈔行動?原因是什麼?對我國、對世界會產生怎樣的影響?
※美利堅合眾國能夠把世界第一超級大國的地位保持多長時間?
※網吧審批全面放開原因是什麼?算是網吧的「春天」嗎?
TAG:經濟 | 博弈論 | 納什均衡NashEquilibrium |