有限次博弈是否存在合作關係?
類似囚徒問題或價格串通問題,一般中級微觀經濟學教材都是說只有無限次重複博弈的情況下才可能合作。而有限次重複不能合作,因此有限次總可以找到最後一次。而最後一次沒有必要合作,這樣逆向倒推,之前的博弈也都沒有必要合作。
而平新喬的《微觀十八講》(北京大學出版社)P230中說了無限次這個條件可以放鬆。「可以證明有限次重複博弈里,仍會有合作的子博弈完美均衡。」
請問如何理解,有沒有相關資料或者題目。本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生,更多「博弈論」話題討論歡迎關注
我們可以先看一個有限次重複博弈存在合作的例子。
博弈中有兩個玩家,1和2,每個玩家在每一次博弈中有三個行動選項,C(合作),D(欺騙),和P(懲罰),每一次博弈的收益矩陣如下:
首先我們分析一下這個博弈。在這個博弈中,如果沒有策略P,那麼它就是一個標準的囚徒困境,C是劣勢策略,策略組(D,D)是唯一的納什均衡。但是在有策略P的情況下,它有兩個純策略納什均衡(D,D)和(P,P),以及一個混合納什均衡,為了簡便起見,我們僅考慮純策略。
現在我們假設玩家1和2重複以上的這個博弈次,。每個玩家在這個有限次重複博弈的最終收益為各次博弈收益的加總,即:,其中是玩家在第t次的選擇,就是它第t次博弈的收益,為方便起見,暫時不考慮折現。我們注意到在這個有限次重複博弈中,至少存在兩個子博弈精鍊均衡(路徑),兩人一直玩(D,D)或者一直玩(P,P)。
考慮一個最簡單的情形,重複博弈兩次,即。玩家1和2同時採用如下策略:
- 第一輪,選擇C(合作);
- 第二輪,選擇D(欺騙);但是如果第一輪中有人沒有選擇C(合作),那麼第二輪選擇P(懲罰)。
通過逆向歸納,我們可以驗證這個策略組合是一個子博弈精鍊均衡。在第二輪,不管是同時選擇D還是P都是納什均衡,因此是合理的。第一輪,如果選擇合作,第二輪會以(D,D)結束,那麼玩家i的總收益是4+2=6,而如果玩家i在第一輪選擇D(欺騙),第二輪會以(P,P)結束,它的總收益就只有5。所以雖然合作是劣勢策略,但是卻出現在了均衡路勁中。一般的的有限次博弈中,類似的策略組合,即一開始合作,最後一輪選擇(D,D),如果最後一輪之前一旦出現不合作的情況,之後一直(P,P)直到遊戲結束,是一個存在合作的子博弈精鍊均衡。
更一般的情況下,有限次重複博弈如果存在多個子博弈精鍊均衡,我們可以用最差的子博弈均衡路徑作為不合作的懲罰,以此來支持合作出現在均衡路徑中。
=======
有時間的話,可能會補充一點更一般的分析。
教授的notes
Jean-Pierre Benoit and Vijay Krishna : "Finitely Repeated Games," Econometnca, 53, 905-922,1985
這個問題我只知道三種解釋:
一. 收益矩陣錯了(對於一個behavioral type的人來說,該收益矩陣必然錯)。前面已經有兩個回答講了這個解釋。(儘管我個人很喜歡這個解釋,但是教我博弈論的教授卻不喜歡這個解釋,他認為這個解釋的範圍太廣以至於近乎毫無意義)
二. 信息不完全,不存在公共知識。前面也已經有一個回答講了這個解釋,這裡重複一下,就是一個normal type可以偽裝成一個behavioral type並且不被發現,這個時候對於一個normal type來說就會存在這樣的激勵。而這種解釋的極端情況就是雙方都是normal type,但是雙方都誤以為對方是behavioral type。
三. 更高等級的理性。前面還沒有回答講過這個解釋,這個解釋實際上是在第二個解釋的基礎上把公共知識拿回來。當你知道我是normal type的時候,你看到了我正在合作,這必然意味著我正在偽裝一個behavioral type。你知道我作為一個normal type,正在偽裝一個behavioral type,這時候,對於你而言,如果你是一個normal type的話,那麼你將應該做的選擇實際上是也選擇合作,偽裝成一個behavioral type,直到你認為我將停止偽裝為止。同樣的,我看到你的選擇之後,我知道你是個正在偽裝behavioral type的normal type,我也會繼續偽裝下去直到我認為你將停止偽裝。當你和我都知道這一點的時候,那麼你我雙方此刻都有理由一直偽裝成一個behavioral type(直到博弈的剩餘次數減少到一個警戒值以至於一方認為另一方應該按捺不住要跳反了為止,由於這種認為會被對方得知,則雙方都會如此認為,雙方將會同時準備跳反並且互相知道這一點,當然,這裡的「共同知識」僅僅限於把「知識」按照JTB模型及其有限的一些改版的定義下才成立),並且你我雙方都是normal type,並且你我雙方都知道這一點。並且在你我雙方都知道這點的情況下,相比起一開始就背叛的子博弈精鍊納什均衡來說,作為normal type,你我都會選擇這一結果。(教我博弈論的教授強烈推薦該解釋,儘管我直到今年才大概理解了一點)
其實我對於這第三個解釋還是有點疑慮的:
1. 共同知識真被拿回來了嗎?……在跳反的時候,這個模型所描述的是,我們都有一個justified belief(這一belief被原先的雙方背叛模型所justify),正是這個belief存在於博弈的雙方身上使得它為真(如果這個belief不存在於博弈的雙方身上,那麼它就不會為真)……這真的能算得上知識嗎?……儘管如果死扣JTB它的確是……
2. 跳反的時間是怎麼確定的?……為什麼早不跳反晚不跳反偏偏是這個時候跳反?……如果沒有一個方法可以系統地解決跳反時間問題,這個解釋尚且稱不上完全(但這個我卻怎麼也想不出來)……
答一發。
這個問題的題干是「有限次博弈是否存在合作」,按照我的理解這是對「無名氏定理」的一個延伸。無名氏定理宣稱,囚徒困境博弈是存在解決方案的,這個解決方案是「重複博弈」。而這個解決方案的成立至少要求兩個必要條件:1. 博弈必須是無限次,或者至少,博弈的參與人認為博弈是無限次的;2. 參與人要有足夠的耐心,用指數貼現的跨期效用函數來說,就是貼現因子足夠接近1。那麼,很多人自然就會有想法:當這兩個假設不成立的時候,是否存在合作的可能性?因此,應該考慮的是「有限次囚徒困境博弈是否存在合作」。因為畢竟,有很多靜態博弈當中就是存在合作現象的。
事實上,在過去的接近四十年的時間裡,「囚徒困境中的合作」是行為經濟學家率領一眾社會學家、人類學家甚至是生物學家對傳統經濟學的一次大反撲。這次反撲來自於大約在1982年人們觀察到了最後通牒博弈中的合作行為。最後通牒博弈並不是囚徒困境博弈,但是它們之間其實並不是全然沒有聯繫,特別是這個問題而言。這類博弈實際上描繪了「有限輪討價還價博弈」中的最後一輪,在這個博弈最原初的「故事」中,兩個議價者都已經喪失了耐心,於是一個議價者提出了一個報價,並威脅對方:要麼接受這個報價,要麼談判破裂。在雙邊壟斷的背景下,如果談判破裂雙方都無利可圖,所以預期到這一點的報價者應該會儘可能地壓縮對方得到的交易剩餘。但是這個「應該會」在實驗室中沒有被觀察到,在這四十年中,不斷有人質疑:
- 是不是實驗給的錢太少了所以被試們沒有認真玩?
- 是不是實驗用的被試都是在校大學生所以並不習慣於現實中的經濟互動?
- 是不是實驗做的次數太少了,等大家多玩幾次就沒有這個現象了?
這些質疑在這四十年中的大量(我不知道是不是有更誇張的詞能夠替換「大量」,我總覺得大量不足以描述這方面研究的數量之多)的實驗室數據告訴我們:你們這些質疑並不能完全解釋最後通牒博弈當中的合作行為。那麼,只有一種可能了:人們在意公平,願意為了公平犧牲物質利益。諾獎得主Vernon Smith從進化生物學的角度認為,這種僅見於高級靈長類動物的對公平的追求,才是人類能發展出市場經濟這種合作模式的根本,也就是說,市場經濟與公平之間的關係,非但不是對立的,反而是不能分割的。
我在這裡之所以要跑題說最後通牒博弈,是因為我們在最後通牒博弈當中得出的結論,其實放到囚徒困境博弈當中看起來是可以無縫對接的:因為人們在意公平,所以寧可合作。當然,我覺得這沒有問題,基於這個對個人偏好的限定,其實討論「有限次」還是「無限次」都沒有必要,單次囚徒困境博弈也是有合作解的。行為經濟學家Matthew Rabin在他1993年的力作中,利用1989年GPS合寫的「心理博弈理論」探究了當人們在意「別人怎麼看自己」和「別人怎麼看自己怎麼看別人怎麼看自己」等等高階信念的時候博弈中的合作解有怎樣的性質,我認為這是最正確的思路。千禧年之後,很多人的研究也在人的效用函數中加入了諸如身份、內疚等等社會心理因素,也能解釋囚徒困境中的合作。在這些研究中,根本就沒有「重複」什麼事兒。這些都與現實中的觀察一致,特別是實驗經濟學家對於公共物品供給的實驗研究,這是實驗經濟學經久不衰的最火的主題,沒有之一。
按理說,如果要解釋現實,他們的答案都已經足夠了,但是,這樣的解釋在某個層面上是有問題的,原因是實際上「囚徒困境博弈」的定義在這些解釋中是非常模糊的。其實,存在兩種層面的囚徒困境博弈:一是現實中的囚徒困境博弈,比如所謂的「公地的悲劇」,二是理論上的囚徒困境博弈,它是由教科書上常見的2×2收益矩陣定義的。這裡提醒各位注意:我們之所以認為第一個層面的囚徒困境博弈是一個囚徒困境博弈,是因為我們已經隱含地假設了「收益全部是物質的」,而當你從中發現收益不只是物質的這一點,你只能說明這不是一個囚徒困境博弈而已,而不能說明囚徒困境博弈存在合作解。這也是我不同意這些答案的原因:修改過效用函數的所謂囚徒困境博弈,根本就不是囚徒困境博弈。所以,這些答案的本質是答非所問的,就相當於我問你「囚徒困境博弈是不是存在合作」,你找了另外一個博弈告訴我存在合作,這是錯的。
同樣的道理,增加諸如報復、冷戰這樣的策略也不是囚徒困境博弈,同樣答非所問。
我的這個觀點也被賓默爾提出過。賓默爾在他1994年的《博弈論與社會契約》中提到:
數學定理一定都是同義反覆。數學定理是不可能錯的,因為它們並沒有說出任何實質內容,它們只是說出了事物是怎麼定義的而已。博弈論中的基本命題也有相同的特徵。(pp. 96)
因此,囚徒困境博弈存在合作解的唯一可能不是效用函數的設定有問題,而是納什均衡這個概念有問題。囚徒困境博弈的唯一的納什均衡就是互相背叛,這一點就像賓默爾說的那樣,是我們對收益矩陣的定義所決定的,是一種同義反覆,所以也就是不可能錯的。
如果我們在實驗室中能夠構建出真的囚徒困境博弈,也就是說,排除了任何個人偏好的干擾,那麼出現合作的唯一可能是大家不按照納什均衡所建議的那樣行動。所以,我們就必須要看納什均衡這個概念本身有什麼問題,當然,這個問題非常明顯,納什均衡要求理性的共同知識。這裡就涉及到epistemological game theory的內容了:簡單說,納什均衡出現要求博弈中的參與人互相相信對方也按照納什均衡指定的策略出招,即所有人都相信對方按照納什均衡的指示行動時,自己按照納什均衡的指示行動是最優的。但是這個信念並不是不言自明的,雖然從每種角度來看這個信念都是正確的,但正確的事情不發生有什麼稀奇呢?引汪丁丁教授在《交易費用與博弈均衡》中的一段話(剛翻譯完斯蒂格利茨的Live,實在不想翻譯外文文獻了……):
為了明確,我把甲的推理過程逐步列出:(1)甲選擇「不合作」的理由是什麼呢?如果他認為乙將會合作,他必定不會選擇「不合作」的策略,所以他必將認為乙將不合作。(2)為什麼甲認定乙將不合作呢?甲必定是已經設身處地在乙的位置上認定了甲將選擇「不合作」策略;因為否則乙必定會選擇「合作」,而不是不合作。(3)為什麼乙認定甲將不合作呢?在甲的推理中乙必定是已經設身處地在甲的位置上認定了甲認為乙將選擇「不合作」,所以甲將選擇「不合作」,所以乙才選擇「不合作」。(4)歸納原理可以推出,甲選擇不合作的理由是,甲認為:「乙認為:『甲認為』」……這是一個無限回歸推理過程。在這個推理鏈條中任何一個環節都需要假設以前所有環節所需要的假設。
所以,也難怪米羅斯基覺得納什均衡這種東西若不是納什這樣精神有問題的人是不可能想得出來的。
那麼下面,我們要問的問題就是,人們是不是會按照納什均衡給出的建議來行動。
關於這一點,最經典的證據莫過於脫胎於凱恩斯《通論》中「長期預期狀態」一章提到的「選美比賽博弈」。這個博弈的一個簡化版本是這樣的,所有人從1到100中猜一個數,誰的猜測最接近所有人平均數的1/2,誰就得到獎勵。如果人們真的像納什均衡所預測的那樣有理性的共同知識,你的邏輯應該是這樣的:如果按照古典概型猜,平均數應當是50,那我就猜25,可是所有人都是這麼想的,所以我應該猜12.5才對……周而復始,博弈的唯一納什均衡是所有人都猜1。可現實呢?我就不在這裡羅列實驗結果了,只能說我們當時玩的時候平均數是14,因為我事先知道了這個遊戲的目的,我猜了16,大差不差。提醒大家注意:當時的我絕對沒有任何「不理性」,僅僅是我預測到了很多人是不理性的而已。
另外一個很好的例子是剪刀石頭布博弈。當年這方面的研究發表出來的時候,很多人不理解做科研的人們都在幹嘛。根據經典博弈論的預測,剪刀石頭布博弈的唯一納什均衡是「完全隨機出招」,即決策者為三個招數賦予相同的概率:1/3。但是在重複博弈中我們發現,人們並沒有充分地隨機化自己的策略,而是遵循了「勝者不變」的策略。但是你要知道,這個策略肯定不是一個均衡,因為發現了這個規律的對手可以利用這個規律。
有這兩個例子,我們知道,納什均衡本身就不是一個對我們行為的好的預測,而是一個需要較高門檻的東西。
在重複博弈中,除了要求納什均衡,還要求「逆向歸納」。支撐「有限次博弈不能產生合作行為」這一命題的推理是這樣的:首先給定納什均衡,雙方在最後一輪一定會相互背叛,那麼,在倒數第二輪雙方就沒有通過合作來建立聲譽的必要性了。那麼,再給定雙方在倒數第二輪一定會相互背叛,那麼,在倒數第三輪就沒有通過合作來建立聲譽的必要性了。以此類推,雙方一定在第一輪就相互背叛。這段推理的本質就是逆向歸納,從控制論的角度,這是一個封閉的問題,因此是「可解的」,於是從最後一輪逆推到第一輪,得出了輪輪背叛的結果。當然,傳統的博弈理論對逆向歸納和它的孿生姐妹「子博弈完美」(如果沒有納什均衡則兩者並不等價)的批評主要在於:1. 它們不能保證「顫抖手完美」,2. 它們不能解釋「意外考試悖論」。但在我看來,逆向歸納這種推理過程本身,與納什均衡類似,也有對博弈參與人智能性的較高要求。
我們之所以願意相信納什均衡和逆向歸納的正確,是因為它是所謂「重複剔除劣策略」的結果,隱含地保證了參與人的「理性」。但是,是不是按照納什均衡的建議行動就是最好的呢?問這個問題的原因是,我們不妨猜測:如果納什均衡是最好的,那麼進化的壓力就應該保證人們不斷接近使用這個概念的完美智能,但如果不是,那就沒什麼好說了。
其實,很多人應該聽說過,上世紀七十年代就舉辦過一個「重複囚徒困境大賽」。舉辦者羅伯特·阿克塞爾羅德還專門為此寫過一本書,叫做《合作的進化》,上海世紀出版集團引進了這本書,有興趣的朋友可以找來看看。以下是關於比賽規則的書摘:
為了看看到底會發生什麼,我邀請了博弈論專家提送程序參加上述的計算機競賽。競賽是循環進行的,即每一個參賽程序都與其他程序相遇。按照事先宣布的競賽規則,每一個參賽程序還要與它自己以及一個「隨機」程序相遇。這個隨機程序,以相等的概率隨機地選擇合作或背叛。每輪遊戲有200次對局。(pp. 21)
可以看到,這是一個典型的有限次囚徒困境博弈。而在這場足以彪炳史冊的比賽中,贏得冠軍的反而是最簡單的「一報還一報」策略,這個策略是這樣的:首先選擇合作,如果對方在第T輪合作,那麼我就在第T+1輪背叛,也就是說,從第二輪開始,這個策略會複製之前的策略。之所以這個策略獲得了成功,是因為:
「一報還一報」的穩定成功的原因是它綜合了善良性、報復性、寬容性和清晰性。它的善良防止它陷入不必要的麻煩,它的報復性使對方試著背叛一次後就不敢再背叛,它的寬容性有助於重新恢複合作,它的清晰性使它很容易被對方理解,從而引出長期合作。(pp. 36)
怎麼解釋?
- 善良性是指不首先背叛。在參賽的14個程序中,是否善良是決定程序表現的決定性因素,所有會首先背叛的程序表現都低於不首先背叛的程序。作者說:「善良的規則在競賽中之所以表現好在很大程度上是由於它們相互之間相處得很好,而且對於具有一定的數量使得它們能夠大幅度互相提高它們的平均得分。只要對方不背叛,每個善良的規則一定是持續合作直到最後一步。」(pp. 24)而雙方從第一步開始合作將保證每一步都得到帕累托最優的結果,而不是納什均衡。
- 報復性這個容易理解。值得一提的是,作者指出,「兩報還一報」,即連續兩次背叛才懲罰一次其實表現比一報還一報更好,只是這個程序沒有參賽而已。作者說:「為了向可能的參賽者說明如何提交程序,一個示範程序被提供給了大家,事實上,如果有人簡單地把它剪下後寄回來,它將贏得這次競賽,可惜沒有人做。」也就是說,報復性並不是越強越好。
- 寬容性必須重點說,是指對方背叛之後重建合作的傾向。而在所有善良的程序中,寬容性最低的毫無疑問就是「一旦對方背叛一次則永不合作」。這個策略在比賽中叫「弗里德曼」,當然學過博弈論的朋友都知道,無名氏定理也叫做「弗里德曼定理」。在證明無限次重複囚徒困境博弈存在合作解時,我們也是證明了博弈雙方都採取「弗里德曼」時報酬是最高的,但僅在這次比賽中,弗里德曼的表現僅僅排在第七位。這是因為,很多程序會在一定條件下試探性地背叛一下,但弗里德曼太不寬容了,以致於所有試探性的背叛最終的結果都是永不合作。而一報還一報給了對手道歉的可能性,試探性地背叛遭到了報復後其他程序還是能與一報還一報快速重建合作關係。
- 清晰性是指,對方從你的行為中觀察、總結出你的行為模式的難易程度。可以發現,「一報還一報」和弗里德曼都是非常容易被發現模式的,而其他一些試圖在「一報還一報」策略上增加複雜性的程序表現其實沒有本體那麼好。
提醒大家注意:所有的程序都沒有假設逆向歸納,因為逆向歸納的成立在於所有人都具有關於逆向歸納的共同知識,所以也就沒有納什均衡的合法性。如果我清楚我在與一報還一報對局,那麼我依據逆向歸納求解出的最優反應是存在的(具體的最優反應依賴於我的時間偏好),而給定這個最優反應,一報還一報未必就是最優的。出現這個大規模合作的結果,是因為參與各方都沒有按照逆向歸納去求解納什均衡的能力。當參與雙方都不按照納什均衡給出的方案行事,合作出現了,而且情況比按照納什均衡行事更好。再所以,那種保證納什均衡的智力可能就不是進化壓力下的必然,這可能也就是老祖宗們說「難得糊塗」的含義。但是需要指出:這要求不止你糊塗,跟你對局的人也不能太精明……
博弈論真正有趣的地方在於推理,而這個風氣被行為經濟學帶歪了,弄得好像什麼現象改一改效用函數就能解決了。然而事實上,很多東西是能夠在不修改效用函數的情況下得以解決的,雖然我並不認為修改效用函數這種研究方案是沒有意義的。
我,也是這項工作其中的一員。
以上。
借自己之前一個回答來答。一般來說,解決一個問題有三種思路:解決問題;認為對方的問題不是問題;解決提出問題的人。基本也可以對應到解決這個問題常用的幾種辦法。要麼是改設定,改策略改收益改期限之類;要麼是改解的概念。前者好用,但不宜濫用,否則提理論的意義就不大了。
這是個很重要也很有趣的問題,也許可以用來澄清博弈論中一些概念。下面這段文字可能比較雜亂,期待能夠探討三個問題。一是納什均衡意味著什麼,二是現實中的囚徒困境和教科書上的有何不同,三是「理性」可能導致合作的一些情形。這裡會著重介紹康德均衡這個概念
首先,見到上面這樣的博弈,我們第一反應可能就是求納什均衡,但在此之前也許可以多想一步。納什均衡本身不是定見,它也是一個模型。除了它,我們還可以定義許許多多不同的解的概念,或者說「均衡」。只要對於某些博弈,新辦法可以給出一個解,那這就是屬於我們自己(更多情況下是某個前輩)的均衡。像Von Neumann和Morgenstern,他們給的定義就是最大最小。
定義可以有很多,但不是每個都能流傳下來。納什的留下來了,前幾天去世的Selten,他的子博弈納什均衡留下來了,還有Cho和Kreps的序貫均衡暫時也留下來了,剩下有很多解可能都逐漸被遺忘了。像Von Damme寫過一本均衡精鍊,每一種精鍊其實都是一種新的解定義。什麼正則、嚴格、神性、絕對神性均衡之類,如果不是專門做理論,恐怕都不會去花太多時間吧。
為什麼如此?如果我們自己定義了一個解概念,判定這個概念好不好,一般有三個準繩:一是它適用範圍廣不廣,二是它給的解數目是不是足夠少,最好只有一個,三是它和實際吻合程度怎麼樣。最好是對每個博弈,這個概念都只給出一個解,這個解還和人們實際行動一致。如果這個工具真有,估計大部分做理論的都要退休了。可惜暫時還沒有,說不定永遠也不會有。
納什均衡之所以存留下來,一大原因就是它把上面三點兼顧得比較好。進入中級課程以後可能都會接觸納什均衡存在性定理證明,很簡單但很美,有限人有限策略里納什均衡都存在。很多著名博弈納什均衡都不止一個,但考慮前一點,似乎也沒有什麼概念能夠做得更好了。第三點也不錯,雖然完全吻合例子少,但大體上人們玩的還是和納什均衡比較接近。最後,納什均衡可以做很多很多精鍊,比如序貫均衡,就常常可以在複雜博弈里篩出一個性質特好的解。
不過,納什均衡不完美。比如這篇仗義輩誰?負心人誰?——來自納粹德國庭審記錄的證據 - 輟耕錄 - 知乎專欄,即使面對納粹的集中營,還是有六分之一義士選擇不招,他們也遭受了更長的刑期。即使是實驗室里做,也總有一些人選擇合作。不要說囚徒困境,即使是實驗室里的公共品博弈、最後通牒博弈或者獨裁者博弈,也總有十幾二十個百分點,甚至更多參與者選擇貢獻,或者把錢分給別人,哪怕是雙方加上實驗者都完全匿名的獨裁者博弈,善人也有接近百分之十。
問題在哪?說納什均衡大體上解決了問題當然可以,但解釋能精緻一些也是好的。改善方法無非以下三種:一是推倒納什均衡,再搞一個概念。二是說我們沒把理論用好。三實際上是二的一種,引入重複博弈。我們不在這裡討論三,只考慮什麼因素會驅使個體在單次博弈中採取合作行為。如果希望了解三,請參考Mailath和Samuelson。知乎上有一個不錯的概括有限次博弈是否存在合作? - 博弈論。重複的思路沒法解釋一次的、匿名的實驗里為啥還會有合作。
一的話同樣有不少解決方法,2010年由John Roemer提出的康德均衡是其中不錯的一種解決辦法。Roemer是馬克思主義者,很有思想,他關於剝削的研究非常有名氣。二主要側重點在這裡:上面這個表裡的payoff,已經把參與者效用概括乾淨了,再用納什均衡當然可以得到滿意結果。生活中我們沒法看到這個表的。我們可以說給參與者錢,很多錢,但他/她心裡會有公益心,會在乎自我形象,會有良心,甚至可能討厭錢。也許有這些看不到的東西在作祟。
先談一。納什均衡強調每個人理性,而且每個人知道對方理性,有時甚至需要知道知道知道理性,無窮嵌套。康德均衡強調換位思考,換位不是指站在別人的利益上思考,而是要假想如果別人都和自己一樣行動,別無二致,自己該怎麼做。來點討厭數學。假設有 個參與者,策略都在集合 里選,如果分別採取行動,則拿到效用是 。上式就定義了博弈里的康德均衡:假如我動,別人一定馬上跟著動。考慮這個前提下最優就是康德均衡。
把這張圖第三次請出來。這不是囚徒困境,但如果我們假設 且 ,那它就變成了囚徒困境。把合作概率(一定在 範圍內)記成兩個人各自的策略空間,則此對稱博弈可以用康德均衡求解。Roemer證明了如果,兩人總是合作;如果不是,兩人合作概率都是,明顯大於 。為什麼有時大家會維護公共品,不過度使用?為什麼明明多自己一票少自己一票,候選人該當選都會當選,自己還會去投票?康德均衡可以給一個解釋。
需要注意一點:這裡沒有說康德均衡是更優的概念,只是說存在另一種解的概念,定義良好,對特定情形有解釋力,可以在單次博弈中導出合作結果。Roemer在2014年的另一篇論文作了更深入探討,發現滿足特定條件,帕累托最優在康德均衡能實施的集合里,很有意思。檢驗有兩種,一是實驗室里做,二是建演化模型,看看用這種辦法決策的個體能不能生存下來。關於這個新概念這兩類研究都很少。大家比較喜歡的辦法主要是前面講的第二種處理辦法:利他。
利他在經濟學上主要含義是效用函數里有別人,但具體怎麼把別人往效用里加,方法很多。大問題有兩個:一是怎麼加,二是要解釋為什麼可以加,尤其是在意別人的個體是怎麼在進化里存活下來的。Becker是這方面先驅之一,他用的效用函數是,兩項分別是自己和別人的適存度。Andreoni有個很好批評:如果大家真的純粹利他,對公共品貢獻不會有我們觀察到那麼多的,均衡下不會有人向紅會、兒童救助、動物保護組織大筆捐款,因為一點點就夠了。
Andreoni自己提出了一個理論,叫warm-glow,意思是我們不僅在意別人利益,也在乎自己行善這件事情。很多人捐錢圖個心安,做了好事心裡會亮堂許多,這就叫warm-glow,寫成效用函數就是,其中第一項是自己消費,第二項是公共品或者總的善業,第三項是自己的善業。這個理論可以解釋很多現象,但有一點解釋不了:Gneezy和Rustichini發現給上貨幣激勵,給募捐者發錢,對總的募捐不一定有正面效果。所以,還得往裡塞東西。
自己在物質獎勵對孩子到底是好是壞?會不會打消學習的積極性或者最原始的目的性,算是教育的失敗嗎? - Manolo 的回答里提到自我圖景的概念,意思是人會在乎形象,希望有好名聲,不被人戳脊梁骨。Brekke,Kverndokk和Nyborg文章就是這個思路,效用函數變成,四項分別是消費、閑暇、公共品和道德形象,這個道德形象由對公共品貢獻和社會定的道德標杆偏離程度決定。標杆就是那個能最大化個體權重相同的功利主義函數的貢獻水平。Benabou和Tirole的文章也考慮形象,但個體可能迷失,忘記自己本性,模型要複雜很多。
這裡還可以做一種解釋,就是身份。March和Olsen在1995年提到治理有兩種思路。一是曉之以利弊。告訴你這樣做有什麼好處,有什麼壞處,然後告訴他們自己可以帶給他們好處。二是讓他們明白自己的身份,比如說,應該為祖國而獻身。前面講了很多利他的設定,如果合適,都可以在單次囚徒困境里做出合作的結果。這裡,如果一個人在乎自己形象,或者有自我願景,或者很在意自己的身份,那也有可能理性地合作。比如雙百人物里,這樣的例子就不少吧。
這些假說並不虛妄,有很多實證,像Levine就用很一般的形式 對公共品博弈、蜈蚣博弈等做過估計,Camerer書里有不少相關結果。另外還有一些方法,恰當設定,也可導出囚徒困境中的理性合作,比如Fehr的互惠懲罰、Heifeit,Shannon和Spiegel的「有意犯錯誤」,等等。Alger和Weibull說明,如果定義兩種人,楊朱(完全自私)和墨子(兼愛,愛人如愛己)。只要相遇分開符合一定條件,不完全自利,介於兩者之間的道德人可以在演化中倖存下來。他們把這個叫做康德倫理,但概念和前面提到的康德均衡完全不同。
寫了這麼多,似乎什麼都沒有說,確實如此,但問題總是要回答的。何謂「理性」,什麼是「最大化」,嚴格追究下都不清晰。我們可以把兩點統一起來,稱作解的概念。解有很多,不止納什均衡一種,有其它解概念可以導出合作結果。實際中,環境不如教材純凈,個人可能利他,可能在意羽毛,可能迷糊,這些都有可能在單次囚徒困境(生活中的)里導出合作。紛紛擾擾,我們也不知道哪個最好,追求既有演化基礎(為啥能一直傳到今天),又有生理基礎(腦袋那裡亮起來了),還符合實際(從實驗室到田野所向披靡)的解釋,說是經濟學的聖杯也不過分。
另一方面講,暫時沒有定解,或者說有其它解概念,或者還有其它解釋,這也給了我們靈活發揮空間。拿到實際情況,或者實際做實驗,想辦法揣摩心理,在這麼多解釋里排除到只剩一種,都很考驗人。另一問題是理性是否等於自私,如果真的從頭到尾讀下來,恐怕不應該再有這種想法了吧。經濟學裡有homo economicus,也有homo moralis,還有homo economicus evolves。也許上面說這些還會隨著社會前進而變化,都是非常有趣而吸引人的問題。
參考文獻:
Alger I, Weibull J W. Homo moralis—preference evolution under incomplete information and assortative matching[J]. Econometrica, 2013, 81(6): 2269-2302.
Alger I, Weibull J W. Evolution and Kantian morality[J]. Games and Economic Behavior, forthcoming.
Andreoni J. Impure altruism and donations to public goods: A theory of warm-glow giving[J]. The Economic Journal, 1990, 100(401): 464-477.
Becker G S. Altruism, egoism, and genetic fitness: Economics and sociobiology[J]. Journal of Economic Literature, 1976, 14(3): 817-826.
Bénabou R, Tirole J. Incentives and prosocial behavior[J]. The American Economic Review, 2006, 96(5): 1652-1678.
Brekke K A, Kverndokk S, Nyborg K. An economic model of moral motivation[J]. Journal of Public Economics, 2003, 87(9): 1967-1983.
Camerer C. Behavioral game theory: Experiments in strategic interaction[M]. Princeton University Press, 2003.
Fehr E, G?chter S. Cooperation and Punishment in Public Goods Experiments[J]. The American Economic Review, 2000, 90(4): 980-994.
Fehr E, G?chter S. Altruistic punishment in humans[J]. Nature, 2002, 415(6868): 137-140.
Gneezy U, Rustichini A. Pay enough or don"t pay at all[J]. Quarterly Journal of Economics, 2000: 791-810.
Heifetz A, Shannon C, Spiegel Y. What to maximize if you must[J]. Journal of Economic Theory, 2007, 133(1): 31-57.
Levine D K. Modeling altruism and spitefulness in experiments[J]. Review of Economic Dynamics, 1998, 1(3): 593-622.
Levitt S D, List J A. Homo economicus evolves[J]. Science, 2008, 319(5865): 909-910.
Mailath G J, Samuelson L. Repeated games and reputations: long-run relationships[M]. Oxford University Press, 2006.
March J G, Olsen J P. Democratic governance[M]. Free Press, 1995.
Roemer J E. Kantian equilibrium[J]. The Scandinavian Journal of Economics, 2010, 112(1): 1-24.
Roemer J E. Kantian optimization: A microfoundation for cooperation[J]. Journal of Public Economics, 2015, 127: 45-57.
Van Damme E. Stability and perfection of Nash equilibria[M]. Berlin: Springer-Verlag, 1991.
這似乎和repeated games and reputation有關,我搬運下兩位大神mailath and samuelson的總結,大概有兩種思路:
第一種大家都很熟悉了,連鎖店悖論就是一個反常識的例子。
第二種稍稍偏離了完全信息假設,而是假定存在兩類人:normal type以及behavioral type,前者是博弈論假設的完全理性的人,會根據情況選擇最優策略,占絕大多數;後者則是行為主義的,會一直執行一種策略(比如,睚眥必報,或稱為冷酷戰略),但數量極少。每個人的類型是私人信息。那麼,normal type有激勵去偽裝自己的類型,通過一直合作來建立起聲譽,讓別人認為自己是behavioral type。
換句話說,我們可以操縱別人的信念:因為類型永遠無法獲知,人們只有通過已有信息來推斷他人的類型,形成並不斷更新信念。(這裡,信念就是個體對他人類型的先驗分布,作者用相對熵,或稱Kullback-Leibler距離來度量分布的差異,更新過程體現為不斷修正信念以使相對熵最小。我第一次在數理統計里學到KL距離,機器學習也有應用,沒想到在這裡又見到了。)
第二種思路的好處是,只要時間足夠長(而不需要無窮),人們建立起好的聲譽後,就真的開始合作了
There are two approaches to reputations in the repeated-games literature. In the first, an equilibrium of the repeated game is selected whose actions along the equilibrium path are not Nash equilibria of the stage game. Incentives to choose these actions are created by attaching less favorable continuation paths to deviations. For perhaps the most familiar example, there is an equilibrium of the repeated prisoners』 dilemma (if the players are sufficiently patient) in which the players cooperate in every period, with any deviation from such behavior prompting relentless mutual defection.
The players who choose the equilibrium actions in such a case are often interpreted as maintaining a reputation for doing so, with a punishment-triggering deviation interpreted as the loss of one』s reputation. For example, players in the repeated prisoners』 dilemma are interpreted as maintaining a reputation for being cooperative, while the first instance of defection destroys that reputation.
In this approach, the link between past behavior and expectations of future behavior is an equilibrium phenomenon, holding in some equilibria but not in others. The notion of reputation is used to interpret an equilibrium strategy profile, but otherwise involves no modification of the basic repeated game and adds nothing to the formal analysis.The adverse selection approach to reputations considers games of incomplete information. The motivation typically stems from a game of complete information in which the players are 「normal,」 and the game of incomplete information is viewed as a perturbation of the complete information game. In keeping with this motivation, attention is typically focused on games of 「nearly」 complete information, in the sense that a player whose type is unknown is very likely (but not quite certain) to be a normal type. For example, a player in a repeated game might be almost certain to have stage-game payoffs given by the prisoners』 dilemma, but may with some small possibility have no other option than to play tit-for-tat. Again, consistent with the perturbation motivation, it is desirable that the set of alternative types be not unduly constrained.
The idea that a player has an incentive to build, maintain, or milk his reputation is captured by the incentive that player has to manipulate the beliefs of other players about his type. The updating of these beliefs establishes links between past behavior and expectations of future behavior. We say 「reputations effects」 arise if these links give rise to restrictions on equilibrium payoffs or behavior that do not arise in the underlying game of complete information.
Mailath, George J., and Larry Samuelson. "Reputations in Repeated Games." Handbook of Game Theory with Economic Applications 4 (2015): 165-238.
題主在題目里所謂的「有限重複博弈都不會合作」的推理是有條件的。即每一期的博弈的納什均衡下每個player的支付等於他的「minmax payoff」(可以理解為所有的支付可能中他能獲得的最差支付)。囚徒困境屬於這種類型。
可以證明如果單期博弈存在納什均衡支付大於「minmax payoff」,那在無限重複博弈中的那些無名氏定理(Folk Theorem)依然可以以某種形式出現。也就是說,這種情況下仍可能構造一個有限重複博弈的納什均衡,它的strategy profile在每一期的博弈中並不構成一個納什均衡(按題主的話來說就是可能存在「合作」的可能)。
直覺是這樣的:在無限期重複博弈下之所以可能存在「合作」的可能是因為其他人可以對背叛者進行「懲罰」,即其他人只讓背叛者拿到「minmax payoff」。
在有限重複博弈下分兩種情況:
1,所有單期博弈的納什均衡下每個player的支付等於他的「minmax payoff」,(囚徒困境屬於這種情況)那麼懲罰在這種情況下就毫無意義了。
2,如果單期博弈存在納什均衡支付大於「minmax payoff」,可以構造一個均衡,在前L期「合作」(假設總共T期),如果前L期無人背叛,那麼後T-L期大家實行的每一期都實行納什均衡策略,如果有人背叛,那麼後T-L期其他人「懲罰」背叛者…
可以參考《A Course in Game Theory》的Chapter 8 中有限重複博弈部分。
我覺得你們還是統一下前提比較好,比如:複數均衡與否,完美信息與否,有modified action與否,etc.
有複數均衡時:可以,吉本斯在第二章練習題里有個類似的,大體idea就是用差的均衡做懲罰來達成super game上的合作(帕累托改善)
情報信息有問題也可能,比如不知道具體在哪個t上
額外行動就更多了
平應該是沒有說清楚。參考這個頁面:
求助《18講》博弈論裡面的一句話什麼意思?
這裡面說了一個解釋,就是平說的有限重複也能合作不能是囚徒困境這個情境。
我一開始想到的解釋是,如果博弈每一回合都以一定概率結束,實際上博弈重複的次數是有限次,但是本質上是一個帶貼現的無限重複博弈。但是這個就要求附加條件了,應該不是這個解釋。
當然存在合作,也不需要行為經濟學上的解釋就能達成, @epsilon-delta 說的就是正解,我舉個例子闡述一下。其實我認為這麼明目張胆的說「只有無限期才會存在合作」,都是通用的四個小方格式的博弈論圖示鬧騰的,為了抖機靈讓問題喪失了一般性(這個機靈就是,你看無論有幾次博弈,一千次一萬次一億次,只要是有限次,我都能嚴格證明合作是不存在的!出乎意料之外,又在情理之中)。就像下面這樣:
我和同學一起吃飯,說好飯錢不分彼此,共同支付。顯然我們都想喝香檳,但是自己單獨的時候是不會買的。於是都想自己點,然後讓對方為自己掏一部分錢。於是最後的均衡倆人都買。
顯然最後的均衡就是兩個都買,因為誰不買誰吃虧。應用到任意次數的有限次博弈也是一樣的,反正最後一輪,肯定是大家都買,那麼倒數第二輪,大家還是都買……於是從第一輪開始大家都買。
那麼現實中大學同學,四年後大家很大概率都各奔東西,這也是有限博弈啊。這是四年前我們就知道的事情,為什麼在大學生活中沒有處處都是囚徒困境呢?
事實上在日常的博弈中,均衡往往並不止一個,比如說,如果兩個人之一不高興了選擇冷戰,一個宿舍的人,冷戰起來感覺不好,所以只要有一個人冷戰,兩個人都獲得很低的效用。
所以這就不再是一個四小方格的博弈,而是存在兩個納什均衡,雙方都買和雙方都冷戰。那麼這個時候反而有合作的希望了,我們就看一個最簡單的,只有兩期的重複博弈,假定折現率為1。
這個時候每個人的策略就是:我第一回合選擇合作策略——不買,如果你選擇買,我下一回合就和你冷戰,如果你選擇不買,那麼第二回合是最後一回合,我無論如何都選擇非合作策略——買。
如果我在第一回合偏離,我獲得10,然後第二回合獲得-50, 加起來就是-40。
如果我第一回合合作,獲得0,第二回合選擇買,獲得-30, 加起來還是-30。
這個時候均衡狀態就是第一回合大家都默契的不買,但是在畢業分手飯的時候狂點……
其實就是,只要遊戲中存在不止一個納什均衡,那麼動態博弈中,一方就可以通過挪到更壞的均衡這個可信的威脅來達到前期的合作。我們生活中的常態基本上也是這樣的,真正的囚徒困境是極少極少的,無論夫妻之間,同學之間,還是同事之間,往往都有著很大的策略集,和很多的潛在的納什均衡。比如『不理對方,如果對方先開口找自己說話,就對對方冷嘲熱諷一番』 如果倆人都採用這個策略,也是一個納什均衡……
就算是囚徒困境的場景,每個囚徒要不要考慮到賣了對方之後,對方在獄中會指使對方家人對自己的報復呢?要不要考慮自己的朋友之間的壓力呢?再說除了坦白和不坦白,是不是還有一些模稜兩可的辭彙呢?現實中的策略總是很多的,高度抽象簡化之後就變成了兩個策略和四個小方格的payoff,信息是丟失了的。於是在做經濟學實驗的時候,人類是用自己在複雜的環境下養成的習慣,去做高度抽象和理論化的囚徒困境和公共品提供等實驗,然後得出來不那麼符合理論預測的結果,不是很正常的么?這並不意味著理論的失效,也不代表理性人假設被推翻。
很多時候,理性人原則表面上失效了,只是因為我們還沒有完全的理解我們的理性在何處。
總結起來,就是因為存在各種非常差的納什均衡,我們才會在有限次的合作中也有動機保持合作,很少被真的囚徒困境所困擾。
這個要看重複的是什麼博弈的,我想題主是想問一個納什均衡是不合作的博弈重複有限次能否出現合作的子博弈完美納什均衡。
一種情況是 @唐前鋒 老師在評論里說的,如果本身重複的博弈就有多重均衡,不僅不合作是納什均衡,合作也是納什均衡,那麼可以構建懲罰策略來實現合作的子博弈完美納什均衡。但是問題是,合作的子博弈完美納什均衡並不是唯一的子博弈完美納什均衡。還有很多辦法可以達成類似的結果,比如在一系列有限重複的prisoner『s dilemma後面加上一個battle of sex,只要battle of sex兩個均衡支付的差足夠大,就可以構建出全面全部合作的子博弈完美納什均衡,甚至於一方合作,一方背叛的子博弈完美納什均衡。
但是如果單純的將prisoner"s dilemma重複有限次,不改變任何假設,唯一的子博弈完美納什均衡就是每一期都不合作,合作是不可能的。
Folk Theorem除了通過無窮次重複博弈來支持合作均衡之外,還可以通過不完全信息來得到合作的均衡。Fudenberg and Maskin (1986)證明了這一點。
用英文了實在不熟悉中文翻譯...
除非改假設,否則 Finitely repeated game with stage unique pure strategy equilibrium has unique SPE regardless of history.
Consider the standard finitely-repeated Prisoner"s dilemma with . Denote the T-period repeated game with discount factor as . Notice if we consider finite , could be .
The stage game prisoner"s dilemma payoff matrix is given as follow.
Notice this game has unique stage game equilibrium . If , recall SPE is equivalent to backward induction, in the last period the subgame starting at has a unique dominant strategy equilibrium . Move to the stage at , given the sub game start at has unqiue SPE , the game start at also has a unique dominant strategy equilibrium. With this argument, we have there exists a unique SPE .
Theorem:
Consider repeated game for . Suppose that the stage game has a unique pure strategy equilibrium . Then has a unique SPE. In this unique SPE, regardless of history.
改假設的話,其實centipede game with reputation有一點值得提一下,in centipede game with reputation, considering the information structure, there are no subgames in centipede game with reputation, so SPE =PBE.
如果standard repeated prisoner"s dilemma to support cooperation 無限次這個條件可以放鬆,請私信/留言,非常好奇如何relax to support cooperation equilibrium...
Reference:
6.207/14.15: Networks Lecture 15: Repeated Games and Cooperation, Daron Acemoglu and Asu Ozdaglar, 2009
(Asu Ozdaglar女神~毛咕嚕就不說了...作業寫不完research卡死還在認真水知乎,我真是沒救了。。。)
理論上不存在
在實際實驗中是存在的。
補充一下 @陳茁 提到的計算機模擬囚徒困境互相比賽的情況。
當時政治學家Robert Axelrod研究的問題:在一個自私的世界裡,如果沒有中央權威,合作要如何才能出現?
出現合作意味著:
- 不管對手的策略如何,合作策略比非合作策略收益高。
- 如果採用達爾文式的演化,合作策略比重會增加。
Axelrod組織了兩次囚徒困境競賽:大家可以提交不同的策略,兩兩對抗200個回合。程序可以儲存自己之前與對手的博弈。收益矩陣如下:
第一次收到14個程序,第二次收到63個。
兩次的勝利策略都是以牙還牙(TIT FOR TAT),https://zh.wikipedia.org/wiki/%E6%8A%95%E6%A1%83%E5%A0%B1%E6%9D%8E
- 第一個回合選擇合作;
- 第n+1回合,如果對方第n回合背叛,選擇背叛;如果對方第n回合合作,選擇合作。
凡是成績好的策略都:
- 友善:從不最先背叛對方;
- 有報復性:當對方背叛,會馬上懲罰;
- 寬恕:當對方重新選擇合作,會原諒對方;
- 行為明確:對方可以預測行為,促進合作。
用遺傳演算法演化的結果是一致的。
加入社會規範 :
An Evolutionary Approach to Norms
每次背叛,都有幾率被其他人發現。在發現別人背叛時,可以選擇是否進行懲罰(扣分)。同樣用遺傳演算法,如果大家初始時都不選擇懲罰,背叛者就會越來越多。
之後加入執法者,專門懲罰背叛的人。那麼大家都會傾向於選擇懲罰,也會傾向於合作。
————————————————————————
回到問題,這個理論本身說的是囚犯困境博弈的納什均衡是參與者的不合作。因為最後一次合作參與者的欺騙和違約行為不可能被報復,所以參與者的最優策略選擇不合作。這樣參與者推得「最後一次會背叛」,往之前逆推,選擇不合作。
- 最後一個回合,當然所有的B都一分錢都沒有返,A損失m。
- 那麼逆推一步,A在第十回合就應該一分錢都不給B。
- 那麼第九回合,B知道A會在第十回合肯定不給自己錢,那麼這回合也會把A的錢全拿走。
- A推得B會選擇背叛,第九回合也一分錢都不給B。
- ……
- 所以A應該在一開始就不給B錢。
之前上課的時候班上做過一次實驗,兩兩對抗十個回合,A給B一定數量的錢m,B可以得到3m,然後選擇返還給A多少。目標是獲得最大的金錢。
然而真實的情況是,在一開始,大家都選擇合作——即A給B自己的能夠給出的最大值M,B得到3M,還給A1.5M,這樣A和B的錢都增多了1.5M,場面異常和諧。(雙方都沒有用納什均衡做判斷)
在第十回合,基本上所有的B都卷錢跑了,有一半的A沒有給,第九回合有更小一部分的B跑了,有更更小比例的A沒給…(像我這樣純真善良的撒逼,在最後一回合還是友好地給了M…還好規則的設定最大值M只佔A的錢的一部分,否則真的是傾家蕩產…)
一開始合作追求雙方的最大收益,在接近最後一回合,覺得對方下一次要背叛的時候選擇背叛。
參考:
https://book.douban.com/subject/2259198/ 合作的進化 Axelrod
當然可以,正在寫的論文就是有關重複博弈與演化博弈的問題。先提出三點分析的方向,以後有時間再慢慢補坑。
第一,最簡單的,可以參考TFT策略。
第二,可以用演化博弈分析,如果初始時刻合作比例較高,且收益矩陣中合作的收益與不合作的收益沒有差太多,經過若干次演化最終就有可能趨向於實現合作。
第三,可以考慮網路上的博弈分析,如果網路適於合作,且初始時刻合作與不合作的博弈方比例適當,經過若干次博弈,最終也有可能趨向於合作。
「「有限次博弈沒有合作」,指的是沒有subgame-perfect Nash equilibrium,這種就是題主說的倒推的均衡。別的均衡有沒有要取決於你的均衡定義,和博弈設定了。建議還是看看英文的教科書和論文,畢竟看中文容易受到辭彙的一般語義的影響…另外,英文的概念(給定義)就是比中文清楚。個人感覺,可能需要語言學和哲學小夥伴來解釋了。
有限次納什均衡和無限次是差不多的
只是最後一步無法合作,必須得納什均衡
spne必須要有兩個ne才能合作
推薦閱讀:
※什麼是協和謬誤 (coordination problem)?如何解決?
※在拍賣會上如何拍到 100 元?
※如果有一天,全世界的人都患上了一種情不自禁說出腦內想法(就像三體人一樣,想=說)的疾病,會發生什麼?
※為什麼 Google 的搜索廣告拍賣採用 GSP 機制,而不是 VCG 機制?