標籤:

納什的「一鎚子博弈」案例中,為什麼實驗和理論的結論存在差異?該如何理解?

偉大的納什最近竟然因為車禍去世了,真的很可惜,聰明人本應該活得更長一點的。

  而我對博弈論的質疑是從這樣一個問題開始的。在納什的博弈論里有個問題叫做 " 一鎚子博弈 "。這個例子是說,有甲和乙兩個人,他們在一生中只會見一次面,以後再也沒有交集。而這次見面就是為了分一筆錢,這個錢怎麼分都由甲決定。那麼兩個人會怎麼分錢。

  由於假設乙是理性的人,所以在獲得大於等於 0 的情況下,乙應該接受一切分配方案;而甲也是理性的,他應該把盡量大的份額給自己。

  不過如果真的對人們處理這個問題進行調查,調查的結果和理論結論卻有很大的差距。如果被假想成乙方,人們普遍不能接受過於不公平的分配方案。但是隨著假設分的錢數增多,人們對不公平的忍受程度在增大。而如果被想像成甲方,人們也並沒有像理論上那麼自私,而是把比想像更多的錢分給對方,隨著要分錢數額的增大,甲方也越來越大方。

  看上去在處理這個問題上人們都不夠 " 理性 ",這到底是不是納什錯了?

  在這個實驗中,乙方的不理性似乎更好解釋,在要分的錢數比較少的時候,他們會對分到的錢呈無所謂的態度,但是當有可能分到的錢相對他們的財富水平不可忽略,人們則逐漸恢復理性。

  而甲方的行為要複雜得多。當人們面臨這樣一個問題時,參加測試的人的意向中其實不是在做一個算數題,而是面對一個社會性問題。雖然被告知一生中只會見一次面,但是他們的社會性已經被打到潛意識裡,潛意識告訴他們要為自己留條後路,誰說的准以後不要合作了,所以面對意外之財也不要過於貪婪了。

  在德國萊比錫大學關於人類和類人猿差別的測試中,人類的這種社會性相對於其他動物是其實先天存在的,所以在一個理論並不應該把這種影響當做 " 雜音 " 而忽略掉。

  而且,博弈論中把人類面臨懲罰和獎勵只做量上的區別,比如人們被懲罰 10 塊錢和相對其他人少得 10 塊錢被認為是同樣的刺激。而沒有注意到人們面對對這兩種處理時心理賬戶上不同造成的理性偏差。

  懲罰是一種更加理性的傾向,而獎勵在動物界幾乎是人類特有的(似乎其他動物不知道怎麼表示對同類的讚許)。所以博弈論在解決懲罰問題時離事實更近,而在解決獎勵問題的時候和實際情況相差要大一些。

本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生,更多「博弈論」話題討論歡迎關注


-------------------------------------------------

7.2註:

目前回答已經上了編輯推薦,我做了些語詞上的修改和信息補充。

希望看到此回答的同學也看一下本問題下其他回答,包括答主之間在評論區的討論,會對理解此問題有所幫助。

又及,在第一個問題的解釋上, @何聰 的回答認為是合作博弈, @阿虎 的回答認為是不完全信息的不同世界狀態,我的觀點是,在這個問題上,使用完全信息的非合作博弈已經能夠解釋這個問題,並不需要引入合作博弈或不完全信息。

-------------------------------------------------

謝 @Zampeli Diana 邀。

對於這個提問,我覺得主要是題主對於博弈論的理解有偏差,而這種理解偏差可以用一句話來解決,也即:

結果(Outcome)不等同於效用(Utility),而理性是針對效用而非結果而言的。

在我們平常的生活中,我們習慣性的認為,Outcome和Utility是對應的。一塊錢就是一塊錢的效用,在價值上等於一塊錢的東西給我帶來等同於一塊錢的效用的效用。

事實上,這種習慣背後引入了一個簡單的假設,即對於結果x,我們的效用函數即是U(x)=x。

由於序數意義的效用函數在單調增函數作用下等價(所謂「序數意義(Ordinal)」,指的是我們的效用函數只指示了大小關係,比如A物品的效用是100,B物品的效用是1,只說明A的效用比B高,不說明A的效用是B的100倍,後者就是所謂的「基數意義(Cardianl)」。在序數意義下,U(x)=x^2,或者x^3,或者e^x,或者任意你能想到的單調增函數,和U(x)=x都是等價的),基數意義的效用函數在單調增線性函數作用下等價(即所有的U(x)=kx+b,k&>0),結果就是這樣的假設適用於生活中的非常多的場景。

題主所說的兩個場景,無論是「最後通牒」博弈(Ultimatum Game,即題主所說的「一鎚子博弈」)還是得失相同的錢,如果我們繼續沿用上述假設,無疑就會得到這樣的結論:1. 乙應該接受任何略大於0的收入,甲應當選擇略小於總額的分配方式;2. 得到多少錢所增加的喜悅和失去同等數目的錢所喪失的「喜悅」是等額的。

然而,現實觀察告訴我們,這樣的結論是錯的。在最後通牒博弈中,乙往往會拒絕不公平的分配,而甲往往也會傾向於選擇公平的分配;在後一個場景,失去同等數目的錢往往使人更加悲痛,需要獲得更多的錢來彌補。

於是,有人就大喊:「非理性啦!」

大錯特錯。

事實上,我們在這裡有兩條前提,第一條是經濟學的基礎,即人是理性的,不要忘了還有一條前提,就是U(x)=x。

在最後通牒博弈中,我們只需要假定,參與博弈的雙方作為擁有社會性的動物——人——會考慮到各種其它因素,比如說,公平。不管出於什麼原因,是追求公平也好,是想要提升社會總福利也好,是希望提升對方福利也好,總之,U(x)不再等於x,而是和對方的收益(s-x)掛鉤了。(s代表總數)

假定甲考慮的是絕對遵循公平吧,對他來說,U(x)=-|x-(s-x)|,越不公平,雙方收入差距越大,效用越小。好了,這時候甲還是理性的,那麼甲選擇給乙多少錢?s的一半。

當然,現實情況會更複雜,這個絕對遵循公平太奇怪了。那好,我們還是假定雙方都追求公平,但是以這樣的形式:對於雙方來說,得到總數的一半以下,比拿不到錢還差。如果要寫成效用函數,可以是

U(0)=0

U(x)=x-s/2*{x&好了,現在我們用Backward Induction求解這個博弈的均衡。在乙選擇是否接受的回合,他只有在他得到的s-x&>=s/2,也即甲分給自己的x&<=s/2才會接受,否則拒絕。

而對於甲,他在第一回合如果分給自己x&>s/2,乙不會接受,他得0。分給自己x&

你看,還是理性人,還是公平的一人一半,沒有非理性什麼事兒。

對於第二個場景,我們也可以同樣來解釋。不過大樹底下好乘涼,我們引用一下前人的研究結果就行了,這個結果就是所謂的「前景理論」Prospect Theory。它的全部原理比較長,但是我們這邊只需要用到它的一個結論,那就是:人們對於收益和損失的效用函數,長得形狀是不一樣的( 感謝@何聰 的糾正,效用函數本身是同一個,只是在收益和損失的部分形狀不一樣)。

所以,納什沒有出問題,博弈論也沒有出問題,題主自己讀得書太少才是問題所在。

當然,國內教科書對這點好像也沒有講得很清楚,題主不妨去看耶魯大學公開課博弈論的第一講約20分鐘開始,即使考試成績(結果)相同,不同類型的學生會有不同的支付(效用),這裡面就有關於結果效用的區分。這個區分同時也解釋了,為什麼有時候我們會遭遇囚徒困境,而有時候大家卻會選擇合作,即使他們的結果矩陣看起來很相似。

以上。


非常感謝題主,這個問題在博弈論領域非常基礎且重要:納什均衡刻畫了什麼現象?我們怎麼解讀納什均衡?

正好我也是做這個領域的,就借這個機會和大家分享一下最近學習的一些收穫。從我的學科背景來看,我心中「答案」最接近的是 @Richard Xu和@Sarah Li(抱歉我好像@不到你)的回答。但是我的答案比前者的稍微複雜,後者也沒有詳細說,所以我決定寫一個新回答。

先說我的結論:在現實生活中,很難滿足納什均衡所需要的共同知識假設。一旦這個假設被違反,結果很有可能偏離理論預測。遺憾的是,從我下文的介紹中大家很容易發現,這個假設太容易被違反了。

題主說:

由於假設乙是理性的人,所以在獲得大於等於 0 的情況下,乙應該接受一切分配方案;而甲也是理性的,他應該把盡量大的份額給自己。

這句話背後有沒有什麼假設支持呢?我們以個人決策的視角來分析一下這個問題。假設一共分1塊錢,甲的報價為自己拿x,乙拿1-x,他會有如下考慮:

如果乙接受我的報價,他能獲得1-x;如果他拒絕,他只能獲得0。因此,只要1-x&>0,他就應該接受。而我為了最大化自己的利益,應該使x越大越好。

這是一個子博弈完美納什均衡(SPNE)的邏輯,即使用逆向歸納法對博弈求解。而SPNE只是對均衡的一個精鍊,也就是說,不是SPNE也有可能是納什均衡(NE)。我們不妨驗證一下,甲的策略x=0.5,乙的策略[x&>0.5時拒絕,x&<=0.5時接受]是不是NE。很顯然,對於甲和乙來說,給定對方的策略自己的策略已經是最優反應了。

如果我們把SPNE的均衡記作S1,後述的NE記為S2。那麼最終實現的均衡是S1還是S2由什麼因素決定呢?粗略地說,便是參與人的決策方式。

下面的論述會有些繞。如果甲認為乙使用SPNE的決策思路,那麼他便會預測乙的策略是「什麼都接受」,進而均衡為S1,;如果他認為乙使用後述NE的決策思路,那麼他便會預測乙的策略是分段的,進而均衡為S2。以S1為例詳細解釋,甲為什麼會認為「乙使用SPNE的決策思路」?因為甲認為乙會認為「甲認為乙認為使用SPNE的決策思路」,進而甲認為乙推測「甲的策略是給一個極小的x」。這個推理過程可以無限延伸下去。

什麼來保證這種「甲認為乙認為甲認為……」的推測是正確的呢?便是共同知識假設。共同知識指甲知道乙知道甲知道乙知道……的事情。以談戀愛為例,假設男孩A喜歡女孩B。男孩兒A知道自己喜歡女孩B是一階知識,但是此時A不知道B知不知道A喜歡她,因此,男孩A沒有二階知識。當A的好朋友C偷偷把A暗戀B的事情告訴了B,也將他通風報信的行為告訴了A,那麼A就知道了B知道了「A喜歡B」這件事,但是他不知道B知不知道A知道B知道這件事,即此時A有二階知識,但沒有三階知識。如果A對B進行表白,那麼,「A喜歡B」這件事情就成為了A和B之間的共同知識(common knowledge):A知道B知道A喜歡B,A也知道B知道A知道B知道「A喜歡B」……這個推理無限推下去都是成立的。通俗地講,叫「把話說開了」。需要注意的是,無論C在中間傳話多少次(有限次),共同知識都無法在A和B之間形成(因為總有更高階的知識無法形成),因此,共同知識所刻畫的情形非常具有局限性。

回到「一鎚子博弈」里。如果「雙方使用的決策思路符合SPNE」是共同知識的話,那麼S1便可以實現;如果「雙方使用的決策思路符合上述NE」是共同知識的話,那麼S2便會實現。但是回顧共同知識的定義可以發現,這兩個共同知識都不容易在現實生活中出現,因此選擇會出現一定的「隨意性」。

SPNE背後所反映的決策思路可以總結為「識時務者」,因為它排除了「不可置信威脅」。例如,在S2中,如果參與人2說「0.5以下的分配我都不接受」來保證甲不會給他低於0.5的分配,這實際上是個不可置信威脅。因為如果甲真的分他0.1,他的最優反應仍然是接受。也就是說,雖然乙會放棄一開始的堅持,選擇眼前的最大化。但是如果乙本身就是一個「硬漢」,篤信「我過得好不好不重要,公平必須實現」(可以理解為 @Richard Xu 所說的支付發生變化,但是這個情況其實用不完全信息的不同世界狀態(state of world)來分析更合適一點),那麼甲就傾向於相信乙的威脅,從而將均衡推到S2。

S1和S2的實現取決於共同知識還是「乙是識時務者」還是「乙是硬漢」。在現實中預測任何一個均衡的實現,必須先要對這些關鍵性共同知識進行識別。如題主所述,在陌生人之間的博弈能否滿足共同知識假設是值得懷疑的,因此在使用均衡結果進行預測的時候必須也要多加小心。

對於行為經濟學的發展大家是有目共睹的,不過我認為不應該把這種研究和理論研究對立起來——理論中卻是有很多地方可以把行為經濟學的研究工作融匯進來,對經典假設進行修補。據我所知,類似的工作以及非常多了。

最後,提醒一下大家,本文的介紹以科普為目的,所以很多概念都並不嚴格。比如決策思路實際上非常不嚴謹,在博弈論中經常講它分解為模型是共同知識和理性是共同知識兩塊。感興趣的讀者可以沿著這個線索繼續研究。


真想搞懂的話,google scholar search experimental study ultimatum game / dictator game. 讀幾篇literature review. 這塊都是幾十年前的東西了,自己讀一讀就明白了。其他答案說的都對,但如果基本概念都沒有,看了只能更糊塗。另外有興趣的話可以讀下這篇,以後就再也不會問納什錯了沒有這種問題了。所謂思而不學則殆,沒有點paper打底還是先別急著思考哲學問題。不是諷刺的意思,你的問題確實是很重要的涉及經濟學根基的問題,顯然不適合在知乎找答案。

Samuelson, L. (2005). Economic theory and experimental economics. Journal of Economic Literature, 65-107.


拋開所有經濟學xx學xx等,因為我不懂。zzz。一個理論中為什麼需要假設,這個理論必須在該假設下才會有意義嗎?顯然不是,理想的假設並不是為了證明當前引出的理論,而是試圖解釋該活動或該現象,比如假設天上有倆太陽,接下來這些個行星衛星該咋轉呢?引力這時候咋作用啊?這裡的假設都不一定對,因為我瞎掰的,當然萬一也有可能。影響結論的因素很多,理想理論我認為是個嵌入式平台,你然後再把因素考慮進去。


答案很簡單

如果博弈的解的戰略和現實不符,那肯定是因為收益矩陣表畫錯了

具體為什麼錯錯成什麼樣是另一回事,可以隨便開腦洞,比如提到的因為不知道type因為沒引入對公平的追求etc

但問題肯定在於表畫的和現實不一樣

當然也可以反過來說,現實的人和模型里的agent/player不一樣:我相信把實際的個人變成公司之類的時候,一鎚子買賣會更接近博弈模型


我放棄1塊讓你失去99塊,我虧了么?

不,我爽翻了好么。

自私追求的不是自身絕對的利益,而是要讓自己在與它人的比較中勝出,所以,自私有兩種策略:

積極的,讓自己比別人強

消極的,讓別人比自己弱


建議你找找行為經濟學的文獻看看,這個問題已經不完全是博弈學的範疇了。納什沒有錯,因為這套理論的基礎就是人們是"理性"的啊,這是前提,是假設。所以不能因為現實中人類的"不理性"而判定納什是錯的,你理解嗎?本末倒置了。

經濟學很多理論的基礎就是人類的"理性"。可人類就是不理性啊,行為經濟學能解釋很多經濟學理論與現實向悖的問題。


人的社會偏好問題,主要是公平感,對對方動機的關注及互惠性等人性決定的。


因為人人都是自私鬼。我得不到你也別想得到。


謝 @無邪邀

我可以把題主的問題理解為三個小問題吧?

①看上去在處理這個問題上人們都不夠 " 理性 ",這到底是不是納什錯了?

②合作和不合作的博弈情況會導致不同的博弈結果?

③同樣是少10塊錢,但是實際上對同一個起到的效果是不同的?

如果這是題主自己的思考的話,還是值得稱讚的。

======================================================

問題①中,如果甲乙都完全是理性人的話,甲應當會把所有的錢都給自己。但是在實際情況中,甲卻不會這樣做,因為他無法保證乙不會反抗,所以他肯定會考慮到乙反抗的概率和他鎮壓乙反抗所付出的成本,所以乙分到的錢不為零。但是甲分多少合適呢?甲至少應當分給乙反抗和不反抗的臨界點的那麼多的錢。但是我們也應當考慮到的是,乙的臨界點並非是不變的,而是隨著要分的錢數增加而增加,所以會表現到甲能分的錢越多,分給乙的錢也越多。

當然題主提到的情況也是存在的,即即使乙的臨界點為0的情況下,錢越多甲分給乙的錢也還是會越多。就我目前所學的知識並沒有能解答這個問題的理論。

========================================================

問題②中,這個很容易解答,因為在一次性博弈中,人們往往進行的都是不合作博弈,即每個人都只考慮自己的利益最大化,而不會考慮到其他人的利益。所以在一次性博弈中,甲顯然會將所有的錢都分給自己。但是在長期博弈中,他們往往會進行的是合作博弈,即每個人在考慮自己的利益最大化的情況下,也會考慮到其他人的利益。所以甲不會將所有的錢都分給自己。

========================================================

問題③中,用心理賬戶來解釋這個問題,我覺得並不恰當。因為心理賬戶是在你心中兩個賬戶,其中一個是沒花出去的,一個是已經花出去了的。例如你買了一張電影票,但是到了電影院的時候,你發現票不見了,不知道在哪個地方被弄丟了。這個時候你會再買一張票,因為之前買票的錢你已經支付出去了,在心理賬戶上被劃歸到了已經花出去的那個賬戶上了,所以在你心中你會覺得這筆錢已經不再屬於你的了。

我覺得應該用厭惡損失來解釋更恰當和合理,人們相比於得到,更厭惡於失去。而懲罰恰恰就是讓你失去某些東西,而獎勵是表示你得到了某些東西。這對於人們的感受自然會產生不同的影響,從而導致不同的效果。


這個實驗裡面,「 假設乙是理性的人,所以在獲得大於等於 0 的情況下,乙應該接受一切分配方案 」,這明顯就違反理性人(自私人)假設。自私人的目的是利益最大化,所以在沒有其他條件約束的情況下,乙當然是期望「甲乖乖地把全部錢都給乙」。


關注社會人的研究問題上,最好記住一點:人的不極端性!


題主描述得我感覺有點亂,我覺得可以借用 @東方凌 的3個小問題來說:

為了方便直接搬運,侵立刪。

-----------------------------------------------------------------------------------------------------------------------------

①看上去在處理這個問題上人們都不夠 " 理性 ",這到底是不是納什錯了?

②合作和不合作的博弈情況會導致不同的博弈結果?

③同樣是少10塊錢,但是實際上對同一個起到的效果是不同的?

------------------------------------------------------------------------------------------------------------------------------

第一個問題,題主的例子就是最後通牒博弈,雙方共同分100元,由甲方提出分配方案,乙方根據甲方的方案選擇:接受,按甲方提出的方案分配資金:或者否決,雙方都不得。

按照理性假設,分配方式如下,甲得99.99元,乙得0.01元(最小貨幣單位)。

然而有些人做實驗,並沒有得出這種結果,當乙覺得自己所得太少時寧可否決方案。我也曾經參與過這個實驗,當時的結果(2組,每組30個人)是70-30(好像是這個結果,具體數值記不清)。

所以說,人不是理性的這一點毋庸置疑。人是完全理性的肯定有錯,但是不可否認人是帶有理性的。而且納什並沒有錯,因為在這個博弈的前提假設下,結論是沒錯的。至於理論和現實的差異,那就是有這個模型沒有考慮的因素在起作用了,比如題主說的人的社會性。

當一個人不是完全理性的,比如因為宗教,因為社會輿論以及其他方方面面因素,現實博弈的結果會偏離理論結果,但是這並不一定會導致50-50這樣公平的結果。可能我認為我得60,給對方40就夠了,因為這樣一個「公平」的結果帶給我的效用等於我「損失」的資金的效用。並且在一個社會裡,這些非理性因素對分配結果的影響是有規律可循的。

--------------------------------------------------------------------------------------------------------------------------------

第二個問題,需要明確納什均衡只應用於非合作博弈。合作博弈是指個體會達成具有約束力的協議,而非合作博弈只是個體的單獨決策。顯然最後通牒博弈是非合作博弈,這個實驗進行無限次並且甲乙方互換,這是合作博弈(當有限次博弈並且最後一次博弈的分配資金的一方知道何時結束,他顯然會背叛雙方的協議,回到非合作博弈)。 所以說跳出非合作博弈的圈子批判納什均衡是耍流氓的行為。 @神人無功 簡單的否決U(x,y)顯然是沒有考慮到合作博弈時雙方達成協議。@Richard Xu 說的就是合作博弈,但是不要這麼快的把理性人的「褲子」脫掉吶。(我才不會簡單承認人不是理性的,經濟學的節操何在!!!人家一擺事實你就脫褲子!!!)

詳細說一下,在理性假設條件下也會出現「公平」的結果,理性人一旦考慮他人的效用(把別人的收益引入自己的效用函數),效用函數會從U(x)轉變到U(x,y)。當這個最後通牒博弈不是一次博弈而是無限次重複博弈時,並且每次甲乙方互換時就會出現這樣的效用函數。當一次博弈時,顯然甲方佔據優勢地位,分配結果也對甲有利。當無限次重複博弈並且雙方互換地位時,甲乙地位均等,分配結果也應當是「公平的」。當時我參與這個實驗得出的結果是趨向50-50的(無限次的限制可以用不告知實驗者什麼時候停止遊戲達成)。這一點我同意 @東方凌 的觀點,並且考慮他人的收益並不一定違背理性人假設。 @Richard Xu 說的也是這個意思,然而我不覺得這是雙方追求公平的結果,這是理性人在衡量多次博弈的總收益得出最優決策。

PS:答主的合作博弈學的很不好,有問題指正。

--------------------------------------------------------------------------------------------------------------------------------

第三個問題,對於懲罰和獎勵,就是「前景理論」的一個應用,也叫損失規避:相對於得到10元獲得的效用,拿走10元損失的效用更大,然而並不一定是效用函數不同@Richard Xu ,當效用函數為效用遞減時,效用遞減的規律就可以解釋。

--------------------------------------------------------------------------------------------------------------------------------

另外,反對 @Richard Xu ,理性是說明人做決策的一種方式,效用說明決策依據方便而引進的一種心理感覺,結果是自然產生的,沒必要割裂開來。並且沒有人認為結果和效用相等,U(x)=x是什麼鬼,那只是一個特殊的效用函數。至於「一塊錢效用」,恕我學力有限,實在看不出「一塊錢的效用」怎麼講的。例如一塊錢可以買一份牛奶或者一份麵包,但是我偏好牛奶多一點,也就是說一份牛奶帶來的效用多一點。所以此一塊錢效用不同於彼一塊錢效用。經濟學上有單位貨幣效用,但是我認為這是社會總體的偏好而不是個體的偏好哈。

--------------------------------------------------------------------------------------------------------------------------------


博弈論是建立在理性人假設的前提下,推出了一系列決策方案。而人類在某些場合非理性這不是納什能控制得了的,也無礙納什理論的正確性。

順手反對下 @Richard Xu ,最後通牒博弈前提假設是你完全不知道對方是誰,博弈之前不知道,博弈之後也不知道,那作為一個理性人,對方的收益和自己有個蛋蛋關係?自己的效用U(x)=x or x^2這都無所謂,可效用是s的函數,U(x)=f(x,s)的人,還好意思稱之為理性人?


推薦閱讀:

「大富翁」中,資產劣勢的多名玩家可否通過結盟免路費的方式來逆襲資產最強的玩家?
德州撲克的技術是否存在過度分析過度解讀?
為什麼棋類遊戲的規則不改成雙方同步下棋,而是有先手後手之分呢?
滴滴和快的是否符合古諾雙寡頭模型?它們之間的競爭是否會達成納什均衡?

TAG:博弈論 |