標籤:

博弈論用來解釋和解決現實問題和現象的效果如何?都有哪些實例?

或者僅僅是理論上的學科?

本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生,更多「博弈論」話題討論歡迎關注


已有許多精彩回答,再補充一個例子:挑撥離間,巧反壟斷。


反壟斷執行中有豁免(amnestry)和寬大(leniency)兩項安排。1993年,美國司法部通過新規:對還沒有展開調查的卡特爾,第一個主動舉報並配合調查的可以免掉全部處罰,謂之豁免。後面的第二個、第三個等,也可以在考慮具體情節的基礎上,減免一部分,謂之寬大。


儘管存在很多特殊情況,但一般來說,囚徒困境足以描述這種政策的邏輯。現有的卡特爾,如果未來被發現概率大到一定程度,每一家參與者都會暗自揣摩:搶先甩鍋是不是更划算?畢竟,在美國,如果組卡特爾被發現,不僅可能面臨三倍損害賠償(常常高達數億甚至數十億美元),還可能有牢獄之災。如果組局總有人反水,長期內,組卡特爾的激勵會減弱。

Miller 2009年發表於American Economic Review的文章,評估了這套政策實際執行的效果。控制其它因素之後,1993年政策通過後,破獲卡特爾數量短期上升,長期下降,符合之前的解釋。現在,大部分國家在執行競爭法時都有類似規定。

參考文獻:Miller N H. Strategic leniency and cartel enforcement[J]. The American Economic Review, 2009, 99(3): 750-768.


博弈論對現實的解釋力是很強大的,這一點毋庸置疑,因為很多的商業案例的結果都可以用博弈論解釋,比如東芝和索尼關於高清光碟標準之爭,波音和空客對新飛機引擎的研發等等。 比較難找的是解決現實問題,以及對現實問題提出切實可行的建議的例子。


因為事後解釋,我們知道什麼因素是重要的,什麼因素是不重要的,所以可以相對容易把他們提煉成博弈的標準形式加以解釋,但是當預測未來、設計機制或者提供政策指導的時候,找准關鍵的點,一針見血的指出並解決問題的能力就變的很重要。


一般來說,每當有人質問『博弈論到底能不能指導現實』的時候,經濟學家們喜歡引用的用來捍衛經濟學榮譽的案例就是 @十一點半 的回答——FCC的拍賣設計。確實是一個非常讓人印象深刻而直接的博弈論對拍賣機制設計的指導。


我在這裡分享一個沒有那麼著名,但是自己曾經參與過一點的案例,沒有FCC的這麼直接,但是對現實也確實造成了很大的影響。


話說英國的電力公司在改革之前,是區域壟斷的。雖然有好幾家電力提供商,但是具體到某個區域,消費者只有一個選擇,故而電費的價格一直居高不下。後來英國的電氣市場辦公室(類似中國的工信部、發改委之類)看不下去了,決定要放開區域市場,允許公司之間互相進入對方的領域, 提倡競爭,消滅壟斷,促進微創新和效率提高,把電費的價格降下來!


於是這些電力提供商就行動起來了。都對自己周邊的其他公司的地盤發起了進攻,提供了非常有吸引力的合同來奪取兄弟公司的客戶。但是對自己經營的地盤,他們防守的動機不是很高,因為畢竟對消費者而言切換新的提供商是很麻煩的事情,所以有些消費者失去就失去了,整體價格變動代價太大。


於是呈現出一幅這樣的場景:

- 電力提供商在非自己的地盤,作為進入者,提供非常好的合同,俘獲一小部分其他公司的客戶;

- 電力提供商自己自己的地盤,作為前壟斷者,提供昂貴的合同,丟失一小部分客戶,但是依然利潤豐厚;


於是電氣市場辦公室又不開心了。說你們這麼搞不行的,怎麼能對老客戶和新客戶如此的區別對待呢,我們要加一個管制,叫做非歧視條款:不能對不同區域的客戶收取不同的價格,要降價一起降價。只有這樣才能更好的競爭嘛。


故事進展到這一步,似乎都挺正常的。公司抓管制的空子,然後政府一步步的補漏洞,改進消費者的福利。我當時剛剛到競爭政策研究中心去工作,我們的頭就寫了一篇文章發表在了《經濟學學報》(Economic Journal)上,叫做 Non-discrimination clauses in the retail energy sector,指出這麼做可能不是對消費者好,反而恰恰可能害了消費者。


為什麼呢?作者指出,你不能假定目前的情況不變,然後用一個簡單的三級價格歧視去分析施加非歧視條款之後是什麼樣子。因為「進入其他市場」本身是內生的策略,而非天然的行為。具體來說,非歧視條款一方面確實讓本地的消費者變好了,但是也嚴重的削弱了局部壟斷者進入其他市場的動機,邏輯就是:

我要進入其他市場——我必須要提供有吸引力的合同,不然當地消費者不會切換的——這個合同必須也提供給我本地的消費者——我從本地消費者獲得收入大量減少——本地消費者的基數遠遠大於新進入市場消費者的基數——算了,我還是從新市場撤退吧

於是實行非歧視條款反而是對消費者不利的,因為大量的電力提供商紛紛的從其他周邊廠商的領地中退出,各自守住自己的一畝三分地收取高價,不再有動機去搶其他人的市場。這也解釋了公平貿易辦公室後來從零售市場上獲得的數據——非歧視管制實施之後,消費者真正收到的價格反而是上升的,因為競爭本身被削弱了。

於是這篇文章一出,電氣市場辦公室最終在2012年撤回了非歧視條款合同,公司們又可以對不同區域的消費者提供不同的合同了,於是公司們又紛紛的來勁了,開始挖其他人的牆角,而消費者拿到的價格又開始下降了。人人都需要用電,所以相當於全英國的人的在用電方面所產生的費用和效用,都被這一個博弈的框架給影響了,現在四五年過去了,有實證報告證明,這個影響確實是正面的。同等條件下,消費者現在能夠享受到更低的價格。


上面這個例子就是一個典型的博弈論指導政策的事實。


對於學習博弈論的作用,我非常認可 @chenqin 在一個答案下的回答,說博弈論本身只是形式化的邏輯,人們在生活中已經自覺或者不自覺在在應用博弈論的原理了。確實,我也認為博弈論並不是一個學了之後就可以神當殺神,佛當殺佛的知識。


我們思維中非常容易出現的一些誤區,就是會下意識的給定當前的情況不變,我們採取一個什麼行動或者政策,然後考慮會出現什麼效果。殘疾人受歧視,我們就規定公司解僱殘疾人需要經過層層審核;男女薪水不一樣,我們就規定同工同酬…… 當然這種「粗暴」的方法未必一定是無效的,但是當系統了學習了博弈論之後,就可能可以有意識的去進行所謂「策略性的思考」,也就是去思考對方對自己的這個行為或者政策的反應是什麼,而自己對對方的反應的又該如何什麼…… 從而得出最後的均衡狀態,然後看這個均衡態到底是不是自己想要的。

能夠讓我們在某些時候突破思維定勢,找到真正的關鍵點,我想這或許是博弈論給人在生活中帶來的重要好處之一吧。


既然題主問的是博弈論解決現實問題的效果如何,那麼顯然想要的答案不是囚徒困境、鷹鴿遊戲這種理論化的東西,也不是美國大學課堂里兩三美元賭注的的博弈實驗。

所以,答主在這裡給大家介紹一個絕對現實的案例——美國聯邦通訊委員會(FCC)頻譜牌照拍賣。

為什麼選擇這樣一個案例來說明博弈論在現實中的應用呢?

首先,拍賣中所涉金額巨大。在2008年的一次拍賣中(Auction 73),FCC一共獲得了將近190億美元的收入,101位成功競價者中的每一位平均要支付1.87億美元。每一次滑鼠的點擊都可能意味著上百萬美元的代價(還伴隨著腎上腺素飆升),其間的心理過程絕不是兩三美元的博弈遊戲所能模擬的。有人把參加頻譜拍賣比喻成「同時在十張桌子上玩上億美元賭注的德州撲克」。在如此巨大的利益面前,競價者們自然會挖空心思、想方設法來尋找拍賣規則中一切可以被利用的漏洞。

其次,拍賣的出價過程極其漫長。還以2008年的這次拍賣為例,從2008年1月24日開始到2008年3月18日結束,歷時54天。這樣漫長的一個拍賣過程讓每一位競價者都有充足的時間思考並調整自己的出價策略,盡量避免出價過程中的非理性因素。

在拍賣過程中,FCC無疑希望將同樣數量的牌照賣出儘可能高的價錢,而競拍者們希望用儘可能低的價格買到自己想要的牌照。

如果你是FCC,現在手裡有幾百張牌照等著要賣出去,你會選擇什麼樣的拍賣規則呢?

很多人會想:這還不簡單嗎?就像索斯比拍賣行出售名畫那樣,先把第一張牌照拿出來讓競價者們輪番叫價,出價最高者獲得牌照。然後用同樣的方法進行下一張牌照的拍賣,直到所有的牌照都賣出去。

這種拍賣方式聽上去很合理。但是,在通訊行業採取這種方式,卻有可能會造成總拍賣收入的降低。

假設FCC手裡現在有兩張牌照要出售,分別是牌照A和牌照B。有兩家虛構的通訊公司參與拍賣,分別是美國移動和美國電信。

美國移動是通訊業界的大佬,手中已經持有多張牌照。在此次拍賣中他們只需要一張牌照就夠了,至於是A還是B都無所謂。美國移動對這兩張牌照的估值都是4.5億美元。也就是說,如果價格超出4.5億美元,美國移動會放棄繼續報價。

另一位競價者美國電信剛剛進入通訊市場,手中的牌照資源極為匱乏。為了能和業界老大美國移動抗衡,他們需要將牌照A和B全部買下,只拿到一張牌照是沒有意義的。因此,他們對牌照A+B的組合估值10億美元,對只拿到一張牌照的情形估值為零。

如果把這兩家公司對於牌照的估值做成表格的形式,將會是這樣的:

對於FCC來說,最好的結果當然是把兩個牌照打包以後以10億美元的價格賣給美國電信。但是,實際操作起來是否能達到這樣的結果,與拍賣規則的設計有很大關係。

如果FCC先單獨進行牌照A的拍賣,美國電信極有可能會在價格達到4.5億之前就放棄競價。因為對於美國電信來說,稍後才會進行的牌照B拍賣會有多少人參加,價格會被拍到多少完全是未知數。這種不確定性導致了美國電信在對牌照A的出價上相對保守。因為美國電信如果花了4.5億美元買下了牌照A,而牌照B被某個土豪公司炒到了6億美元的話,他要麼被迫花10.5億美元買下估值只有10億美元的牌照組合,要麼放棄購買牌照B,白白花4.5億美元買一張對他來說沒什麼用的牌照A。

美國電信不是白痴,不會傻乎乎地花10.5億美元購買估值只有10億美元的兩塊牌照,也不會白白扔掉真金白銀的4.5億美元。現實中發生的情況將是美國電信為了控制風險,在牌照A的價格達到4億美元甚至更低時就停止報價。

所以,最終的結果可能是美國移動以4億美元甚至更低的價格買到了牌照A,而牌照B根本無人問津。

對於想要榨乾競拍者每一分錢的FCC來說,這樣的結果簡直就是一場噩夢(當然,他們會辯解說他們這樣做是為了更有效的分配頻譜資源)。

所以,為了鼓勵競價者們更加激進地報價,FCC採取了下面的基本拍賣規則(這裡列出的只是最基本的思路,完整的拍賣規則長達上百頁):

1)所有的牌照同時放出,供所有的競價者同時進行報價。
2)每一輪報價結束後,所有牌照接收到的報價都被公開,供競價者們決定在下一輪中如何報價。
3)如果某一輪報價結束後,任何一塊牌照都沒有收到新的報價,那麼拍賣結束。每一塊牌照都由出價最高的競拍者獲得。

採取了上面這種規則之後,美國電信可以實時觀察每一塊牌照的競價者數量以及最新的價格,從而可以進行更加激進的報價(FCC也會收到更多的錢)。

不過,這樣又產生了一個新的問題:對於想要獲得兩塊牌照的美國電信來說,應不應該允許他進行組合報價(package bidding)?

組合報價的含義就是允許美國電信對A+B這個牌照組合給出一個總價,並不分別給出每一個牌照的單價。請注意這裡其他的競價者還是可以針對每一個牌照給出單獨的報價。在拍賣結束時,FCC會把每塊牌照的單獨最高報價相加,如果得出的總價低於美國電信的組合報價,這些牌照就作為一個整體賣給美國電信。

在拍賣過程中,FCC是否允許組合報價,會對拍賣結果造成巨大的差別。


情形一:不允許組合報價。

假設美國移動由於業務擴張,把牌照A和牌照B的估值都調整為了6億美元:

從表格中的數字來看,美國電信還是可以贏得拍賣的。雖然美國移動調高了自己的估值,但是針對A+B的組合,美國電信的估值10億美元仍然要高於美國移動的6億美元。拍賣規則的設計不是應該讓估值最高的競價者獲勝嗎?

在不允許組合報價的情形下,為了贏得這兩張牌照,電信只好對牌照A和B進行單獨報價。假設在進行了N輪報價後,牌照A和B的最新報價都是4.9億美元。這時電信注意到其他的報價者都已推出,只剩下移動還在繼續報價。電信算了算,還在自己預算範圍內,在下一輪對這兩個牌照都報出了5億美元的價格。在這裡電信對移動的實力做出了錯誤的判斷,因為移動在下一輪報價中把牌照A的價格又抬高到了5.1億美元。

當牌照A的價格抬高到5.1億美元時,電信就傻眼了。因為已經開出的牌照B的5億美元已經無法撤回了,剩餘的資金又不夠繼續競價牌照A。最終的結果可能是美國電信以5億美元拍到了牌照B,而移動以5.1億美元拍到了牌照A。這裡最大的贏家是凈收10.1億美元的FCC,而美國電信則損失了5億美元。

美國電信所面臨的這種風險,有個專門的名詞叫做exposure problem。如果FCC允許組合報價的話,這種風險將不復存在。現在,讓我們一起來看一下允許組合報價的情形。

情形二:允許組合報價。

在允許組合報價的情況下,美國電信只要對兩張牌照給出一個組合價,而不單獨指定針對每一張牌照的報價。如果在拍賣中獲勝,可以在預算範圍內將兩張牌照收入囊中。如果在拍賣中被更高的價格擊敗,也不需要為此付出一分錢。這樣,就有效的規避了上面的這個exposure problem。

但是,FCC非常不支持這種組合報價的方式。他們搬出了一套又一套理由來反對組合報價,例如這樣會增加拍賣的複雜程度、這樣對小企業不公平等等。

事實上,他們反對組合報價的真正原因可能是下面這種情形:

假設現在又有一家企業,暴發戶美國聯通也參加到了拍賣當中。美國聯通在通訊市場也耕耘多年,手中的牌照資源也很豐富,因此他們只需要拍照A和拍照B中的一張就夠了。他們對拍照A和牌照B的估值都是7億美元。

這樣,我們就有了三家企業,他們對牌照A和B的估值是這樣的:

假設美國移動對牌照A給出了4億美元的報價,而美國聯通對牌照B給出了5億美元的報價。

針對這種情況,電信針對A+B的組合給出了9.1億美元的報價。由於這個組合報價略高於移動和聯通的對於這兩塊牌照的報價之和,所以如果他們不繼續報價的話電信將贏得拍賣。

從數學角度上講,這兩家企業完全有能力報出一個超過美國電信組合報價的數字。根據他們的估值,他們最高可以報出一個13億美元的總價,遠遠超過美國電信的估值10億美元。

但這只是數學角度而已。別忘了,每一個博弈者都是自私的。移動可能在等著聯通提高報價,而聯通又覺得難道我錢多就活該當冤大頭嗎?最後這兩家誰也不肯提高自己的報價,美國電信笑吟吟地以9.1億美元的價格將兩塊牌照收入囊中。

在這種情形下,FCC又要哭了,因為原本最多可以賣到13億美元的兩塊牌照結果只賣了9.1億美元。(這種情形也有個專門的名字叫做threshold problem)

FCC在1994年啟用頻譜牌照拍賣機制時,不允許投標者進行組合報價。為了減少投標者面臨的exposure problem所帶來的風險(實質上是為了鼓勵他們更激進的報價),FCC允許投標者撤回報價,條件是要支付所撤回的報價與最終中標價之間的差額。例如一家公司對牌照A報出了5億美元的最高價,比他低的次高價格是4億美元。如果這家公司又後悔了不想要這張牌照了,那麼他可以選擇撤回這個報價,如果最終中標價是4億美元的話,他只需支付1億美元的差價。這樣,這家公司的損失就由5億美元降低為1億美元,而FCC照樣可以收到5億美元。

在之後的九年里,FCC對於組合報價的態度一直是「這個我們研究一下,再研究一下」

過了九年之後,在2003年的一次拍賣中(auction 51),FCC才第一次在實際的拍賣中啟用了組合報價制度。這次拍賣的參與者多達……兩名,拍得總價款是……17萬9千美元。嗯,不提也罷。

到了2008年,FCC在auction 73中終於又啟用了組合報價。不過,投標者不能隨意進行組合,而只能對FCC事先規定好的組合進行報價。在這次拍賣中,FCC將所有的頻譜資源分成了五個block,其中的C block一共由12張牌照組成。針對C block中的12張牌照,投標者可以進行單獨報價,也可以按照FCC規定好的組合進行組合報價(牌照1至8一個組合,牌照10和12一個組合,牌照9和11一個組合)。最後的結果是Verizon以相對較低的價格47億美元買走了C block中大部分的牌照。

FCC的頻譜拍賣從1994年到現在,已經進行了大約100次,一些小的規則也是改來改去的。關於2008年auction 73以後的情況,答主沒找到總結性的資料,也不可能到FCC的官網上一個個的去看,所以暫時就先介紹到這裡。如果有對這個話題更加了解的人,歡迎補充。

不過,上面的內容應該足以回答題主的問題:不,博弈論不僅僅是一門理論上的學科。在現實世界中,一小群人通過博弈論可以決定上百億美元的歸屬。

以上。


1984年10月,愛爾蘭共和軍在英國保守黨一次集會時發動炸彈襲擊,試圖刺殺當時的首相撒切爾夫人,最終撒切爾夫人安然無恙,但是襲擊造成了5人死亡,31人受傷。在之後的一份聲明中,愛爾蘭共和軍如此寫道:「今天我們很不走運,但是不要忘了,我們只需要走運一次就行,而你們得次次都走運。


如何預防和應對恐怖分子襲擊是一個非常重要的社會治安問題,而無論防禦方如何增加安防措施,都無法保證自己照顧到了每一個漏洞。正如愛爾蘭共和軍的聲明所說,恐怖分子只需要走運一次,就能夠造成巨大的傷亡。那麼,應該如何利用有限的資源,來儘可能有效率地進行防禦呢?博弈論提供了一種解決的方案。

在如今的教科書中,都會提到Stackelberg博弈這一經典的動態博弈模型,其提出者是德國經濟學家Heinrich Freiherr von Stackelberg。令人驚奇的是,Stackelberg於1946年去世,而現代博弈論公認的開端是1944年von Neuman和Morgenstern的著作《Theory of Games and Economic Behavior》,也就是說,在規範的博弈論分析出現之前,Stackelberg的一些想法就已經具有博弈論的雛形了,但也正因為缺乏稱手的工具,他對於這些想法也只能淺嘗輒止而未能深入了。


1934年,Stackelberg發表了論文「 Market Forms and Equilibrium 」(《市場形式和均衡》),在其中他提出了「leadership game model」(領導博弈模型),即後來的Stackelberg博弈。這一博弈有兩個參與者,一個是leader,另一個是follower:leader先選擇一種策略,follower能夠觀察到leader的策略,並由此決定自己的策略。然而,leader作為一個理性人,當意識到follower會根據自己的策略而動時,他會在一開始就選擇某種特定的策略,使得follower的決定對於leader自己是最有利的。


正如論文的標題所言,Stackelberg提出這一博弈是想要研究廠商如何制定價格或銷售策略來搶佔市場,這也是Stackelberg博弈最經典的setting:市場上有一家大公司A和一家小公司B,大公司A先決定自己的產量qA,小公司B觀察到大公司A的產量後,決定自己的產量qB。如果大公司A是理性的,他就會意識到(並能計算出),對於不同的qA,小公司B會有一個最優的產量選擇函數qB*(qA),使得小公司B的收益uB(qA,qB*(qA))在給定的qA下最大化;既然如此,大公司A就應當選擇使得大公司A的收益uA(qA*,qB*(qA*))最大化的產量qA*。


然而博弈論模型的最大優點就在於,只需要滿足一定的結構,許多不同的setting都能被同一模型所解釋。比如我們現在面對的「如何應對恐怖分子襲擊」的問題,安保人員或者說防禦方就是leader,而恐怖分子或者說襲擊方就是follower,防禦方先制定安保計劃(leader選擇策略),襲擊方會了解到安保計劃,並進而決定自己的攻擊計劃(follower觀察到leader的策略,並相應地選擇自己的最優策略),既然如此,防禦方所選擇的安保計劃就應當使得,當襲擊者針對該安保計劃指定出最有利的攻擊計劃時,己方遭受的損失最小。


來看一個具體的量化的例子:現在有兩個襲擊目標1和2:

防禦方防禦目標1,進攻方進攻目標1:防禦方得4,進攻方得-4;

防禦方防禦目標1,進攻方進攻目標2:防禦方得-2,進攻方得2;

防禦方防禦目標2,進攻方進攻目標1:防禦方得-1,進攻方得1;

防禦方防禦目標2,進攻方進攻目標2:防禦方得3,進攻方得-3;

由於防禦方人手不足,因此防禦方在同一時間只能防禦一個目標。

如果防禦方死守一個目標,那麼襲擊方在得知這一計劃的情況下,將會選擇進攻另一個目標,此時防禦方的收益最多是-1(防禦目標2);

如果防禦方選擇一個混合策略,也就是以一定概率防禦目標1,一定概率防禦目標2,稍加計算即可得到,當防禦方以40%的概率防禦目標1,60%的概率防禦目標2時,襲擊方無論如何選擇期望收益都是-1,相應的防禦方的期望收益則為1(注意到這是一個零和博弈),這是防禦方可以達到的最高期望收益

如果防禦方選擇一個另外的概率,比如90%的概率防禦目標1,10%的概率防禦目標2,此時襲擊方選擇攻擊目標2的期望收益更高,因此襲擊方一定會攻擊目標2,襲擊方的期望收益是1.5,而防禦方的期望收益就是-1.5了。


那麼這一模型的現實效果如何呢?

美國海岸警衛隊於2011年開始採用以這一模型為基礎研發的巡邏系統,以應對針對渡輪和港口的恐怖襲擊,兩套系統分別叫作「PROTECT-FERRY」和「PROTECT-PORT」。

這裡介紹一下針對渡輪的巡邏系統:對於每一條渡輪來說,其航線通常是固定的,因此我們可以把它抽象成一條線段。又由於海岸防衛隊的巡邏船也一定的監視半徑,可以將線段劃分成若干段(離散化),這裡姑且標記為A、B、C……;同時我們也將時間離散化,比如5分鐘是一個時間段;這樣一來,巡邏船進行巡視的一種純策略就可以表示為如「AOICB……」,即第一個時間段(0分鐘~5分鐘)在航線A段巡邏,第二個時間段(5分鐘~10分鐘)在航線O段巡邏,依此類推。接下來,巡邏船就要選擇一個如何巡邏的混合策略,由於不同的純策略將有N的T次方種(N是航線的總段數,T是時間的總段數),直接計算如何在不同的純策略上分配概率是一個非常複雜的問題,這一系統轉而考慮所謂的transition probability,即「當這一個時間段處於XXX段時,下一個時間段去YYY段」的概率,這樣所要考慮的情形就大大減少了。根據每段航線的特點和歷史情況或經驗先估計出巡邏/襲擊的收益,然後就能計算出具體的概率了。


由於恐怖襲擊非常罕見,即使發生了恐怖襲擊,也無法作為依據以此來判斷這一系統的有效性,那麼該如何評價這一系統的好壞呢?來看這張在"PROTECT-PORT"系統使用前後的對比圖:

左圖是系統使用前,不同的巡邏區域(以不同顏色的線表示)在不同日期被巡視的次數統計,可以看出這張圖有兩個特點(或者說缺點):

(1)總的巡邏次數在第二天有一個低谷,第五天有一個高峰,這樣有規律的巡邏模式將會被恐怖分子所利用;

(2)同一區域的巡邏次數波動很大,然而既然是同一區域,其價值並不發生變化,那麼巡邏次數應該差不多相近才對。

右圖則是系統使用後,可以看出左圖的兩個特點(缺點)都得到了改善,對於同一區域的巡邏次數基本保持不變,總體上也沒有呈現出明顯的高峰和低谷。


在2001年「9·11事件」之後,美國國土安全部就加強了針對如何應對恐怖分子襲擊的研究,USC在與一眾大學的競爭中脫穎而出,與國土安全部合作成立了「恐怖活動風險與經濟分析中心」(Center for Risk and Economic Analysis of Terrorism Events, CREATE),是一個包括了心理學、公共政策、經濟學、傳播學、計算機科學等多方面的交叉學科研究中心。

Teamcore則是USC下屬的一個以「AI for social good」為主旨的研究所,其研究結果注重如何讓計算機輔助決策得到現實應用,以幫助政府和非政府組織在保護環境、保障公共安全等方面更好的制定政策。

由國土安全部和CREATE資助和參與,並由Teamcore研發的系統已經在很多場景得到了應用:

ARMOR:洛杉磯國際機場(2007年,首次應用)

IRIS: 美國聯邦空中警察(2009年)

PROTECT-PORT: 美國海岸警衛隊,波士頓港口(2011年4月)、紐約港口(2012年2月)、洛杉磯/長灘、休斯敦等地

PROTECT-FERRY: 美國海岸警衛隊(2013年4月)

TRUSTS: 洛杉磯Metro輕軌系統(實地試用)

PAWS: (用於保護野生動物)烏干達伊麗莎白女王國家公園(2014年4月)、馬來西亞某自然保護區(2015年7月測試)

MIDAS: (用於防止過度捕撈)美國海岸警衛隊(測試)


事實上,在大多數系統啟用前,相關機構都已經有「需要隨機化」的意識,但是現有研究已經表明,人自己的隨機化是非常靠不住的:比如,讓被試「隨機」寫下多次拋硬幣的結果,被試傾向於寫出同樣多的正面和反面,且正反交替比真正隨機的拋硬幣結果更加頻繁,再比如,如果讓人自己通過擲硬幣來做決定,人們常常會反悔並重新拋擲硬幣。人們的各種行為偏差導致了人們常常會無意識地展現出某種可以被利用的行為模式,而通過博弈論計算出合意的概率後,通過機器實時地給出隨機結果,同時執行者堅決地執行機器給出的指令(不然的話,恐怖分子可以通過佯動襲擊吸引注意力並打亂防禦安排),能夠有效地避免這種情況的發生。


參考鏈接:

Game theory can help protect against terrorist attacks

Teamcore: Teamcore Website

CREATE(Center for Risk and Economic Analysis of Terrorism Events): Home | CREATE


***1月24日補充***

@馮晗 博士在其答案中對博弈論原理的解釋既簡明,又到位,我的答案中缺乏這一套系統化的體系,建議大家學習。
********************
我們日常生活中的很多情形其實都在不知不覺中運用著博弈論。博弈論的關鍵是什麼——信息。當信息不完全或者不對稱的時候,博弈論可能就能派上用場。談判就是一個很好的例子。我看過一本書《You Can Negotiate Anything》。我虛構一個場景,這個場景里的片段有的照搬該書,有的啟發於該書,但都增加了我自己的理解和杜撰,供參考。我們假設一個購車的談判,這其中會用到一些博弈論的東西。

在一個虛構的購車的場景中,博弈的雙方是你和車商(你也可以將此化用到購買其他耐久性大宗商品上)。你們的信息是不對稱的,你不知道車商的底線,車商也不知道你真正最多能接受的價錢。你們的目的也是不同的,車商希望最終成交價格越高越好,而你則希望越低越好。你需要做的是,採取一些策略,使得車商覺得,他們在博弈中的佔優策略(dominant strategy)是不斷地放低價格,或者盡最大可能地把車賣給你(也意味著放低價格)

請注意:我在這裡舉這個例子的目的不是在於教你如何去砍價買車,而純粹是想用這個例子來發掘一些隱藏在內的博弈論的元素。有不妥之處,歡迎各位批評指教。

場景:你左看看右看看,東看看西看看,表現出很高的購車興趣,於是讓車商願意細緻入微地向你介紹展廳里每一輛車子的情況,然後再帶著你去馬路上試駕。於是,你用了大半天的時間把展廳里的所有感興趣的車都了解了一遍,然後確定了一個目標,鄭重其事地對銷售說,你考慮買這輛車。於是你們坐下來談價錢。你要注意的是,無論當天的談判結果怎麼樣,你都對銷售說:不好意思,我今天決定不了,我得回去徵求一下(老婆/老公/爸媽/我有經驗的鄰居/七大姑八大姨的同事)的意見,讓他們把把關。

然後第二天(或者幾天以後),比如,你叫來了你的老婆。找到同一個銷售,取決於你的友善程度,你可以讓銷售向你的老婆重複一遍他之前對你做的所有介紹,然後再次坐下來談價錢。談好以後,你老婆說,我今天還是決定不了,因為我還想去(網上/其他店)看看,比較比較。

注意,事到如今,你已經運用了三個策略:第一,讓你的談判對手增加了很多的談判成本(他已經在你身上耗費了整整兩天的青春);第二,你採用了信號傳遞的策略(signalling),讓博弈對手覺得你是個有價值花時間談判的人,因為你有很強的購買意願;第三,你採用了拖延戰術,為自己的決策贏得了考慮的時間。

再過了幾天,車商一定會打電話來催促你做決定,一旦他聯繫你,你就可以說,我已經看了好幾個地方的價錢,我現在就想誰家便宜我就買哪家,暗示他們需要繼續降價你才會考慮。但是,你永遠不會透露在其他地方看到的價錢究竟是多少。你這樣做,其實是在採取一個策略,那就是製造新的信息不對稱,並且讓對手處於信息不完全的一方

然後我們來換位思考,作為車商而言,他面臨的信息集是:A. 你有可能真的去看了其他車商,你也可能沒有。B. 他們現在給你的價錢可能已經比其他人低,也可能沒有。車商對於B的信息把握會更大,因為我們合理地假設車商之間應該能夠知道底線大概在哪裡,但他們無法知道你到底跑了多少車商,你手裡究竟有多少信息。於是,車商需要做的選擇是:A. 繼續降價 B. 拒絕降價。

車商在考慮策略的時候,作為那位銷售代表,他一定會想,為了達成你的這筆交易,他已經花去了整整2天的時間,如果你買下來,他就能拿到傭金,而如果你不買,他可能什麼也得不到。因此,他很有可能就會想,不管你到底是不是去其他地方看了車,只要他開低價,你購買的可能性就會大一些,他能賺一點也就賺一點,所以在很大可能性下,雖然信息不對稱,但他依舊會選擇繼續降價作為他的佔優策略(dominant strategy)

但是,也有一種可能,就是他死活都不肯降價了。如果是這樣的話,他有可能也是在和你玩信號傳遞的策略(signalling),讓你覺得他現在的報價已經沒有迴旋餘地了。他甚至會說,我再降價我就「虧本」,不賣給你了——如果他說了這樣的話,你可以把它當作不可置信的威脅,或者trash talk而直接無視。因為這同樣也是博弈當中對他而言的一種策略。

如果你想破,你能做的就是增加你的信息量,真正地去跑跑其他車商,看看其他車商能夠給你怎麼樣的signalling。

如果把故事繼續編下去的話還沒完,因為我還沒說對於「狡詐」的車商,他會採取什麼策略。對於車商來說,他需要做的就是運用一些策略,使得你覺得你的佔優策略是——儘快把車買下來(心甘情願地多出一些價錢)。一個典型的手段就是:告訴你(signalling)另一個消費者也想要你看中的這輛車,他們的存貨只有一台,所以,「你得抓緊」。而「另一位消費者」到底存不存在,就是留給你的不完全信息了。


2014.1.27
補充了個例子,見最後。
/***************************************/
@徐惟能 同學舉的例子很有意思。
不過我覺得這個例子與其說是在描述博弈論的應用,不如說是在描述博弈論可以用來解釋什麼。很多砍價高手的砍價策略都可以用博弈論來解釋,但他們不需要學習博弈論就能成為砍價高手。
因而他的答案只回答了問題的前半部分,即博弈論用來解釋現實的效果如何。

所以我來補充點內容吧。我本身不是做這個方向的,有什麼疏漏或錯誤的地方就請大家指正了。

一般情況下當我們說博弈論時,指的都是非合作博弈,它研究的其實不是在給定條件下參與人應該做什麼決策,而是更進一步地,討論當每個參與人都在給定的博弈框架下選擇各自最優策略所可能帶來的結果。

一個定義完整的博弈包含參與人、規則、結果和支付四個部分。
參與人就是博弈的參與者,規則定義了參與人在博弈每個階段的信息集和可選行動集,結果定義了參與人行動每個集合分別會造成的結果,支付則定義了每個參與人在每個結果上分別獲得的效用。

用囚徒困境舉例的話,這個博弈的參與人是兩個囚徒,A和B。
規則:這個博弈每個參與人都只有兩個可選行動,背叛和不背叛,決策時都不知道對方行動。
結果:兩個參與人都有兩個行動可以選擇,因而結果也就分別有4種。都不背叛一種、都背叛一種、一個背叛一個不背叛兩種。
支付:當兩個人都背叛時,兩者都會入獄,但也都會獲得警方獎勵,兩者獲得效用都為0;當一個背叛另一個不背叛時,背叛者被釋放,同時還有獎勵,不背叛者入獄,因而效用分別為2和-1;當兩者都不背叛時,都被釋放,但都沒獎勵,效用都為1。
這個博弈可以用下面的表格表示:

縱橫兩軸是兩個參與人,行/列是參與人的行動集,每組行動所對應的單位格都是博弈的一個結果,單位格內的數組是相應結果下各個參與人所獲得的支付。
或者也可以用下面的圖表示:

空心和實心的點代表不同參與人,實線表示參與人可選行動,被橢圓虛線保衛表示空心參與人在決策時無法區分這兩個點,也就是不知道對方行動。底部的每個分叉都是博弈的一個結果,每個結果都對應一組支付。

這個博弈的結果很簡單:不管對方選擇如何,對任意參與人而言選擇背叛所獲得的支付都比不背叛更高,因而兩個參與人的佔優策略都是選擇背叛。相應地,背叛/背叛也就是這個博弈的納什均衡。
OK,這裡又給出了博弈論里十分重要的兩個概念:策略和納什均衡。
策略:策略是一個完整的行動方案,它規定了參與人在每種情況下選擇的行動。繼續上面的例子的話,背叛是一個行動,而在任何情況下都選擇背叛則是一個策略。
納什均衡:每個參與人都選擇一個策略,就構成一個策略組合。納什均衡是一個策略組合,當出現這個組合時,任何參與人都無法通過調整自身策略來獲取更高支付。

看到這裡大概已經有些人開始頭暈了……不過大家也都應該清楚了,博弈論最關注的東西其實是均衡。在均衡下所有參與人都不會改變策略,因而我們就可以通過博弈論來解釋甚至預言給定條件下各個參與人的行為及其結果。也可以通過設計規則來把博弈導向特定均衡來獲取相應的結果。

然後再舉點博弈論具體應用的例子。
在經濟學方面,拍賣、產業組織、機制設計等等都能找到它應用的例子。比如著名的維克里拍賣(二級密封價格拍賣)就是一個例子。
在經濟學範圍以外,政治和社會學上的應用不必說,生物學方面也有演化博弈論。
甚至在計算機方面也有應用,據說姚期智提出的Yao"s principle就是一個例子,但我完全不懂這個……
/***************************************************************/
2014.1.27補充例子
初始博弈如圖所示

兩個參與人A、B各有兩個行動C、D可供選擇。
這個博弈有兩個納什均衡,C/C和D/D。
但對參與人而言,兩個均衡下獲得的支付顯著不同,顯然,A喜歡C/C均衡,而B喜歡D/D均衡。

這個時候,對參與人而言,如何將博弈導向自己喜歡的均衡就很好玩了。
以A為例,他可以聲稱要採取這樣的策略:無論如何都選擇C。
給定A這樣的策略選擇,對B來說選擇C就是最優策略。此時博弈就會被導向A喜歡的C/C均衡。

但問題在於,A這樣的聲稱是個「不可置信威脅」:一旦B選擇了D,對A來說堅持選擇C就不是最優的。因而B不會相信這樣的威脅。而要讓這個威脅可置信,A就需要讓C真正地成為自己的佔優策略。
一個可行的做法,就是通過可信的安排,降低自己的選擇行為D時所獲得的支付。比如跟某外部人簽訂合同,一旦選擇D就要給他100。

此時,博弈就變成了下面這個樣子:

此時A的威脅變得可置信。博弈就只剩下C/C一個納什均衡了。
表面上看,A這樣的安排不但無法帶來任何收益,還降低了自己在某些情況下所獲得的支付。但在博弈論當中,這卻可以把博弈導向對自己有利的均衡。


誰添加的情感/兩性關係的標籤??為什麼還在博弈論之前??這樣也太赤果果了吧。。

先簡短的回答問題,博弈論用來解釋和解決現實問題和現象的效果如何?都有哪些實例?

博弈論裡面不同的模型解釋現實問題和現象的效果不一,大多數都因為眾多條件限制(主要是現實太複雜)解釋解決現實問題的效果不會太理想。

不過也有解釋的好的,比如:Ignacio Palacios-Heurta(2003)用Mixed Strategy解釋1417次FIFA比賽罰球中Kicker和Goalie選擇往左往右的問題就解釋的相當精準(「Professional Play Minimax」),後來這篇文章發在了Review of Economic Studies上。

(樓主活了那麼多年,這是我見過的最無聊的教授(們),對著電腦數1417次,而且以樓主參加建模國賽數汽車的經歷,肯定會數錯重數。)

為方便對Game theory還不怎麼了解的知友,先介紹兩個概念:

什麼是Mixed Strategy?

拿@馮晗 老師(老師好。。)舉的Game theory裡面最經典的囚徒困境的栗子來說,囚徒們單純的選我是坦白從寬還是抗拒從嚴這叫Pure Strategy, 囚徒們說我今天喝多了可能80%的機率坦白從寬,20%的機率抗拒從嚴這就叫Mixed Strategy。

什麼是Mixed Strategy Nash Equilibrium?

就是如果A囚徒發現,如果給定B囚徒選坦白從寬抗拒從嚴的概率,A囚徒選擇坦白從寬還是抗拒從嚴其實是沒有差異的,反之亦然,這時候A、B囚徒的Strategy就叫MSNE。

鋪墊完畢。

無聊教授們做了什麼?

他們先統計了這1417次罰球中如果Kicker(射門的)選擇射左邊,Goalie(守門的)也選擇撲向左邊,那麼Kicker有0.58的概率贏,假設拿到0.58的效用,Goalie有0.42的概率贏,假設拿到0.42的效用。(即下圖中第一個是kicker的效用)

然後無聊教授們就根據這個數據和Mixed Strategy Nash Equilibrium的模型算出了,在這1417次罰球中,到底Kicker/Goalie往左的概率是多少,往右的概率是多少。


怎麼算的?

核心就是MSNE的insight:往左和往右的概率必須讓他們選左選右的效用無差異。

即:給定一個選手的Mixed Strategy, 另一個選手的Mixed Strategy必須使他選擇不同Strategy的效用無差異。

計算過程如下:

那這個我們算出來的結果和真實結果比相差多少呢?

還好我們有無聊教授(和他們的RA們)我們不用自己數1417次罰球:

(上面一行是算出的結果,下面一行是真實統計值)

有興趣的同學還可以搜下這篇講網球的:
M.Walker and J.Wooders ,American Economic Review(2001)"Minimax Play and Wimbeldon" volume91,pp 1521-1538。

-------------簡短和嘮嗑的分割線---------------

1。Game theory的模型對於我們生活其實還是有用的,可能我們並不能在公司談判,追妹紙等博弈的時候畫個樹形圖神馬的決定要採取什麼策略,但是很多模型提供的insight,往往能帶給人不少啟發。

2。模型總是有很多假設很多抽象,現實太複雜,對於單個的situation沒有太大意義,但是如果數據多了(比如1417次罰球),就能分辨出那些是對預測無用的noise哪些是essence,這時候用game theory模型才有意義。


這學期學習game theory的時候一直在思考,如何把學到的各種theory應用到生活之中。

後來發現這個根本就不現實好嘛。

現實生活中太多雜音太多干擾項了。

不過我還是發現我學過的game theory模型包含的insight其實是能帶給我們遠超模型本身的啟發的。


1.Prisoner"s dilemma

A Beautiful Mind裡面Nash在酒吧大喊亞當斯密是錯的,每個人都追求私利有時候並不能帶來效用最大化,指的就是Prisoner"s dilemma這個模型,@馮晗 老師的答案博弈論用來解釋和解決現實問題和現象的效果如何?都有哪些實例? 分別用perfect imformation和imperfect imformation兩種模式闡述了這個模型,寫的非常好,大家可以先去看看馮老師的答案。

但是這個模型的insight其實就是合作可能帶來的效用更大,但是在沒有條件溝通或者沒有信息的情況下,大家的選擇往往會損害彼此的利益。


2.Repeated Prisoner"s Dilemma


還是從大家熟悉的模型說起,不過這次是Repeated game,RPD模型其實就是玩很多遍囚徒困境模型,每個人的Pay off用n次玩法的discount來表示。

在Repeated PD裡面,納什均衡根據你選擇的策略(Trigger 啊 tit for tat啊神馬的)有所變化,但是insight仍然很簡單。

在有預期會多次博弈的情況下,大家的選擇會更傾向於合作達到彼此利益最大化。


比如說你現在是採購方,想選個供貨商,你暗示他你以後有經常買的需求,或者是你逛淘寶的時候,暗示賣家貨好的話會介紹同學同事來買,賣家欺騙你的可能性就會降低。

3. Nash Equilibrium

Nash Equilibrium不是個模型,但是Nash Equilibrium給我帶來的啟發也蠻大的。

什麼是NE?

就是給定博弈雙方的行為,每一個博弈方如果改變它的策略,並不能增加自己的效用。這種情況就是納什均衡。

NE並不一定是效用最大的情況,比如囚徒困境裡面兩名囚徒如果都抗拒從嚴他們的效用其實比都坦白要大,但是NE是現實中最可能達到的均衡結果。所以博弈論裡面相當的一部分內容就是尋找各種NE。上面舉的罰球的栗子就是一種叫做Mixed Strategy NE的東西。

那NE帶給我什麼啟發呢?如果你和別人合作,你們合作的現狀是NE的話,即你的合作方改變自己的策略並不能帶來效用的提高,這種合作才是可持續且穩定的。

以上的模型都是比較簡單的模型,可能insight也straightforward一點。有興趣的同學可以自己學習一下下面這個稍複雜點的模型。


4.Signal Game


@徐惟能 老師提到的signal其實就是這個模型

拿我們作業題舉例子吧,這個模型其實是關於選擇要不要讀MBA的。有興趣的同學可以看一下。

其中:
1-找工作的
2-僱主
H-1的能力是High
L-1的能力是Low
D-1選擇讀MBA
U-1選擇不讀MBA
M-2選擇讓1當Manager
B-2選擇讓1當 Blue-collar worker

我們假設1能力是High的概率是1/4,即得:

第一個NE很好解釋,如果僱主在你讀不讀MBA得情況下都讓你當工人,那無論是你能力高低,你都最好不要讀MBA。

第二個NE很有意思了,如果僱主讓沒MBA得當工人,有MBA得當Manager,那僱員就會在自己能力高得時候去讀MBA,付出代價向僱主發出一個signal,我願意付出代價讀MBA,僱員也會在自己能力低的時候選擇不讀MBA,節省信號成本。

完整題目可見(Q2):Dropbox - hw4_2.pdf 答案:Dropbox - solutions_hw4_2.pdf


至於signal 模型的insight,我也沒想到一個很好的辦法表述,大家自己想想吧。

-------------------------------------

博弈論的模型還有很多,centipede, voting, bertrand/cournot"s duopoly等等。。

以前我學習經濟學,金融學模型的時候,包括game theory模型的時候,總會想,那麼多假設條件,現實又那麼複雜,這些模型怎麼用?

後來我才發現,現實不是單單複雜的,現實是複雜而又簡單的。


2012年寒假我們做p2p借貸研究的時候,我專門去買了The Lending Club Story,也讀了其它的相關論文,發現單個借款人的還款能力可能判斷起來比較困難,但是如果有10000個借款人,我們來判斷裡面有百分之多少default,default之後的recovery rate,就會相對靠譜一點,因為我們可以計算經濟形勢對群體的影響,可以分析群體收入的分布,職業的分布,計算不同的因素對default的影響。

一句話概括就是,樣本多了之後,我們可以看出哪些是噪音noisy,哪些是真正對我們想要的結果有影響的因素essence。這時候模型才有意義。


哈, @馮晗 老師講得很好,那我就說一些博弈論實例吧。

因為是實例,所以就假設讀者有一些基本的博弈論概念了,而且我主要目的是想介紹一下博弈論與其他科目的關係,以及有哪些好玩的博弈,因此證明過程未免有些簡短和不夠謹慎,見諒。
———————————————————————————————————————————

1.政治(中位選民定理)
參與人:有兩個候選人,為了選舉,必須從下面10個立場中確定自己的政治立場(從極左到極右)。
規則:
1.每個立場有10%的選票;
2.選民會選離自己最近的候選人;
3.出現平局時,選票平分

1 2 3 4 5 6 7 8 9 10

收益:候選者希望最大化自己能得的票數。

怎麼辦?
重複剔除劣勢策略
比如,是不是無論對方選什麼,你選2總比你選1好呢?
證明:
(下面括弧裡面,前面的數字表示你的立場,後面數字表示對手的立場。而等號後面的數字則是你能獲得的票數)

(1,1)=50%&<(2,1)=90%
(1,2)=10%&<(2,2)=50%
(1,3)=15%&<(2,3)=20%
......
(1,10)=50%&<(2,10)=55%
如此,你能確定無論對方選什麼,你選2總比你選1好,於是你能把1剔除了,再比較2和3,3和4,4和5,以此類推。


結論:
最終只會剩下5,6→這可以解釋為何每逢美國大選,參選的美國總統候選人的政見會如此相似。

———————————————————————————————————————————
2.公共資源(牧場理論)
參與人:你和其他放羊的人
規則:
1.你可以選擇放羊或不放羊
2.牧場的承載能力因為額外的羊而有所損耗
收益:
1.你放得羊越多,你收益越多
2.牧場的損耗是算在所有人身上的。(即就算牧場一些地方壞了,你不能放羊,別人也不能放羊。)


會有什麼結果呢?
每一位牧羊人勢必會衡量如此的效用,進而增加自己的羊。
但是當所有的牧羊人皆做出如此的結論,並且無限制的放牧時,牧場負載力的耗損將是必然的後果。
這是公共資源悲劇的來源,用經濟學的解釋就是外部性。

———————————————————————————————————————————
3.社會(種族隔離)
參與人:高個和矮個,每個有10W人
規則:
1.假設有2個鎮,E鎮和W鎮,每個能容納10W人。
2.你們要同時選擇在哪裡住,不能溝通。
3.如果選1個鎮的不止10W,則全部隨機分配。比如12W人選E,那麼12W人全部隨機分配,10W人隨機到E,2W人隨機到W。

收益:

證明:
首先,你要選一個「無論別人選什麼,你都不會後悔的」決定,它就是你的最優策略,
假設你是矮人選E,E有2.5W矮人,那麼你的幸福感是0.5個單位,而W有7.5W矮人,你的幸福感是0.75,那麼你的選擇就不是最優的,你應該選W。

結論:
而每一個人的最優策略組合在一起,就變成了納什均衡,那個就是博弈的解。
這樣此題的納什均衡是高個會和高個住,矮個會和與矮個住。
從圖中,我們知道人們傾向於混居居住(每個鎮的高個矮個數量對半),但卻很難實現,因為人數稍少一些,人們就會傾向於隔離。
你看,有時並不是人們天生喜歡種族隔離,而是數以萬計的人們個人選擇導致的。


大家的答案都很好,很清晰的解釋了什麼是博弈論,這裡我想簡單說下博弈論在經濟中的應用,一個特別的方面,就是博弈論在contract theory裡面的應用。
合同理論講的就是僱員和僱主如何最優的制定薪資合同,假設A君開了個公司,要招人替他幹活,於是就要跑到招聘市場上去。招聘市場上有兩個人,能力值爆滿的B君和一無是處的C君,很顯然,A君希望招到的是B君而不是C君,因為B君會給A君的公司帶來回報而C君不會,但是呢,能力這種東西是觀察不到的,只有B君知道他自己很牛,也只有C君知道他自己很爛。
假設信息是對稱的,意味著A君有超能力可以直接看出別人的能力,那很明顯,如果要招B君,那就開相應的高工資,要招C君就相應的開低工資。大家都根據自己的能力拿到了相應的工資,人人都有工作,世界多美好。
然而正常情況下,信息是不對稱的,那對於A君來講他就非常頭痛了,他首先直接試探性的開出了市場上的平均工資,對於B君來說,我這麼牛,你給我這麼點錢,我不幹;而對於C君來講,哇塞,我這樣的人也能拿平均工資,絕對干啊。於是對於A君而言,這個並非最優策略,因為他開的工資不能separate market,好的人招不到,壞的人進來了,這種冤大頭的事A君不幹。
然後A君想了想,要不這樣,你們都說自己有能力,拿點東西證明給我看,比如學歷,我要名校MBA的畢業生。那對於B君而言,因為我牛啊,讀個MBA分分秒秒的事啊,而且對我本身付出的代價不會太大,因為像我這麼牛,學校絕對給我獎學金。而對於C君而言,天啊,我乘法口訣表都背不全,讀MBA還不如殺了我,況且我這麼爛,絕對是後腿,學校不可能給我獎學金的,所以對於C君而言,拿到MBA的代價遠遠大於B君的代價。加之,A君開出的工資僅僅蓋掉了優秀人才讀MBA需要的代價,所以對於B君而言,加入A君公司的utility遠遠大於C君的utility,在這種情況下,通過一個學歷就區分了B君和C君。而對於B君和C君而言,拿出學歷是一種表現出自己能力的方式,這樣的情況我們稱之為signaling game。
C君越想越氣憤,A君你不是歧視低學歷的人嘛!我去告你!然後別人找A君喝茶,說你這個看學歷的方式不公平,換一個,A君想了半天,好,換就換。要不我布置一個任務,這個任務呢能力高的人完成分分秒秒,能力低的拼死拼活,你們看著辦。B君想,這沒問題啊,我牛啊,秒完成啊。C君想,媽媽呀,這得一周不吃不喝不睡才行啊。然後A君開出的工資是對於B君而言可以接受,但是對於C君不能接受的,因為C君的付出和成本遠遠大於B君啊,於是對於這個職位,B君願意去做,而C君不願意去做,在這種情況下,通過一個任務可以區分B君和C君。對於A君而言,布置任務是檢驗能力的一種方式,這樣的情況我們稱之為screening game。
在contract理論中,基於一定的假設,放入一定的條件,如果我們可以計算出separating equilibrium,那何樂而不為呢。


如果說您不知道博弈論的實際用途,只能說明您不懂愛情。
如果您有一個古林精怪的女友,您就會知道博弈論並不是什麼特別高深的理論,本質也很簡單。但在討論它之前,我們需要先簡單了解一下人們在日常生活中是如何做出決策的。

人類首先意識到,如果僅僅憑藉自己的感性認識來做出選擇的話,往往會使得自己蒙受損失,無論是情感上,還是權益上,還是經濟上(我們在此為方便起見,統一使用「效益」一詞)。這一類的例子多不勝數,無需舉例。
於是,人類開始探索適合的工具,以完成用理性的思考來幫助做出正確選擇,於是數學介入了。

第一個階段:
最初的時候,選擇很少很簡單,人們在兩個事物之間做選擇的時候,只要一一比較二者的所有屬性優劣即可。
情景一:
比如您有一個女友,您打算在2014年2月14日送她一台電腦。您不確定是購買MacBook Pro還是Air,那麼您簡化地列出「顯卡、CPU、尺寸、內存、便攜性、外觀」這5項指標,假設Pro在「顯卡、CPU、尺寸、內存」方面均勝出,而Air僅僅在「便攜性、外觀」方面勝出,於是對比各大屬性指標後,得到結論:購買MacBook Pro

第二個階段:
但是這種選擇是不準確的,因為不是所有的屬性都是同樣重要的,所以人類引入了「權重」的概念。
情景二:
您的保密工作沒做好,女友知道您在給她挑選禮物,看了一眼Pro跟Air,然後說:Air好可愛,帶著也方便。
於是瞬間「顯卡、CPU、尺寸、內存」都不重要了,而「便攜性跟外觀」直接上升爆棚。所以引入「權重」以後,您的選擇於是變成了MacBook Air。

第三個階段:
但不是所有的事物都可以準確判斷出好壞,於是人類引入了「方差」的概念,即先設定一個理想情況,再根據實際選擇與理想情況的偏差,選擇偏差最小的那個。
情景三:
您雖然確定要購買MacBook Air,但是發現它還存在多種配置與價位,於是你列出自己的預期價格8000,再列出主要需要滿足的用途是看電影、存電影,於是,通過方差的對比,你決定選擇了11英寸的256G。

第四個階段:
但是,生活並不總是確定的,還有很多因為信息確實導致的不確定性事件,這時候我們引入了概率與事件樹。
情景四:
您買好了禮物,打算在2月14號當天坐車過去,晚上跟她一起看一場話劇。一查當天的話劇票,發現晚上有2場,7點場的才500元;而9點場的需要1000元。
如果買在7點的話,您依據經驗有40%的可能趕上周五的堵車從而錯過,那樣的話您就需要重新再買一張1000元的,於是您開始考慮如何選擇。
為了避免自己主觀上對絕對事件的偏好(即選擇確定不會誤機的1000元機票),您打算用數學的方法來解決,於是您列出了如下的決策過程:

雖然有點違反您的主觀對風險規避的偏好,但您決定相信數學,於是購買了500元的票

第五個階段:

生活不總是像選擇票務這樣,選項是靜止的,尤其是面對您的女友。更多時候,您需要考慮到對方的選擇對您的影響,於是有了「兩害相權取其輕」的博弈論。


第五個情景:

您順利地見到了您的女友,並趕上了7點的話劇,在等待入場的空間里,你的女友提出了史上最恐怖的遊戲:真心話大冒險。

依據您以往的經驗:

1、您當然希望聽到關於女友的真心話,但是擔心她會問您一些尷尬的問題:類似我跟你媽一起掉到水裡先救誰的問題。所以如果您選擇大冒險,而她選擇真心話,那麼您會High到10分的滿足感,但她會覺得您對她不真誠,所以興緻降為0,反之亦然。

2、如果您選擇了真心話,而她也選擇了真心話,可能雙方都顧慮對方會問一些尷尬問題,所以滿足感會對應抵消一些,都為5分。

3、如果兩個人都選擇大冒險,於是會推出對方都有事情瞞著對方,所以滿意度也很低,但總比一個人說了真心話另一個沒說要好,所以標記為1


如果真是如此,那麼恭喜您成為了愛情的囚徒,面臨了歷史上著名的囚徒困境。

您最後做出選擇,不管女友是選擇真心話還是大冒險,您都是選擇大冒險的收益會高一點,對您女友也是,所以最後根據博弈論的結果就是你們都選擇了大冒險。


(當然,如果您知道了女友是選擇「真心話還是大冒險」的概率,那麼會有進一步的概率模型,因為沒有什麼技術含量,在此免去不談。)

第六個階段:

如果世界停留在第五個階段的簡單模式下就好了,可惜的是,對方的選擇可以通過控制事情發生概率,所以就需要我們在博弈論中加入最佳行動概率的因素。


第六個情景:

你們結束了大冒險,您的女友又想著說,我們來玩手心手背吧,她提議:「讓我們各自亮出手掌的一面,或正或反。如果我們都是正面,那麼我給你按摩三次,如果我們都是反面,我給你1次,剩下的情況你給我2次就可以了。」

假設您出手心的概率是X,那麼您出手背的概率就是1-X。


【為了使利益最大化,應該在對手出正面或反面的時候我們的收益都相等,不然對手總是可以改變正反面出現的概率讓我們的總收入減少,由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)
這個方程通俗的說就是在對手一直出正面你得到的利益,和你對手一直出反面得到利益是一樣的且最大。解方程得x=3/8,也就是說平均每八次出示3次正面,5次反面是我們的最優策略。而將x=3/8代入到收益表達式3*x+(-2)*(1-x)中就可得到每次的期望收入,計算結果是-1/8元。
同樣,設美女出正面的概率是y,反面的概率是1-y,列方程-3y+2(1-y)=2y+(-1)*(1-y),解得y也等於3/8,而美女每次的期望收益則是2(1-y)-3y=1/8元。
這告訴我們,在雙方都採取最優策略的情況下,平均每次美女贏1/8元。其實只要美女採取了(3/8,5/8)這個方案,不論你再採用什麼方案,都是不能改變局面的。
如果全部出正面,每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元
如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。】
為了節省分析的過程,在此引用百度百科「美女的硬幣」一節的內容。

所以您理智而優雅地說:「我們這麼心有靈犀,出現相同的概率太大啦,有利的情況當然應該讓給你了。這樣,如果我們都是正面,那麼我給你按摩三次,如果我們都是反面,我給你1次,剩下的情況你給我2次就可以了。」

第七個階段:
我不知道有多少愛情死在了第六個階段,這第七個階段,也算是數學愛情史上的「七年之癢」了。不幸的是,現實中的博弈會比這個更加痛苦,因為很多事情不是像"手心手背"這樣一錘定音,而是一個漫長的一場接著一場「動態博弈」的過程。

這讓你想起了當初如何戰勝她的眾多追求者的往事:那時候為了模擬這場追求愛情的動態博弈,還在元胞自動機構建了愛情模型進行模擬,最終尋找到了最優的演化方案,一時間豁然開朗,七竅全開。於是......(此處略去十萬字)。

所以,如果說您不知道博弈論的實際用途,只能說明您不懂愛情。

希望有所幫助。
Lonely Planet. (Lonely Planet)
2014年2月11日


答案源自一個最近很火的提問的回答:
什麼樣的故事才能稱得上是神轉折? - 陳之推的回答

這個節目玩的就是博弈論,說到博弈論大家第一反應就是囚徒困境(Prisoner"s dilemma)
先簡單介紹一下囚徒困境

兩個共謀犯罪的人被關入監獄,不能互相溝通情況。如果兩個人都不揭發對方,則由於證據不確定,每個人都坐牢一年;若一人揭發,而另一人沉默,則揭發者因為立功而立即獲釋,沉默者因不合作而入獄三年;若互相揭發,則因證據確實,二者都判刑兩年。

畫出收益矩陣如下:

負數看不慣,變換一下就成為:

如果B保持沉默:A沉默收益為2,揭發對方收益為3,顯然揭發收益更高;
如果B揭發A:A沉默收益為0,揭發對方收益為1,顯然揭發收益更高。
綜上,不管B選擇何種策略,A揭發B收益總是更高;同理,B揭發A收益總是更高,因此囚徒困境只有一個納什均衡點,就是相互供出對方,也就是上圖右下方的那個點。

看 什麼樣的故事才能稱得上是神轉折? - 陳之推的回答 的評論里有朋友說這個節目是個囚徒困境,是的,非常相似,但是有一點點區別,正是這一點點區別讓這個節目更加精彩。
同樣先畫出收益矩陣:

假設一半獎金的收益為1,根據節目規則:
兩個人都steal,雙方收益為0;
兩個人都split,雙方收益為1;
一人steal一人split,steal方收益為2(全部獎金),split方收益為0。

這個博弈與囚徒困境的區別在於:
囚徒困境中有嚴格劣勢策略,而博弈論的入門結論就是:絕對不要選嚴格劣勢策略
剔除嚴格劣勢策略後,兩人都只能選擇供出對方,從而只有一個納什均衡點。

而節目中的博弈沒有嚴格劣勢策略,只有弱劣勢策略。下面簡單分析:
如果Nick選擇steal:Ibrahim不管steal還是split收益都是0,所以兩種策略都是最佳對策
如果Nick選擇split:Ibrahim選擇steal收益為2,選擇split收益為1,所以steal為最佳對策
綜上,Ibrahim選擇steal的收益總是大於等於split,但split收益也可能等於steal,
因此選擇split只是弱劣勢策略,而不是嚴格劣勢策略,這個收益矩陣中有三個納什平衡點
根據迭代剔除steal vs. steal是最可能出現的結果,但其他兩個也是納什平衡點,而split vs. split是最不穩定,因此出現的概率也最低。

Nick聰明的地方在於,他將該博弈轉換成了另一個博弈。

新博弈如下:
Nick聲稱自己會選擇steal,並且贏了後會分享,那麼在Ibrahim看來,收益矩陣就變成了上圖:
Nick事後不分享,Ibrahim不管怎麼選收益都為0;
Nick事後分享,Ibrahim選擇steal收益為0,選擇split雙方收益為1。
因此,在新博弈中,Ibrahim的弱優勢策略就是選擇split,收益一定大於等於steal。
從節目中看,他雖然很憤怒,但是個理性人,所以不得不選擇split。

從Nick看,他並不知道Ibrahim是不是理性人,對方甚至會因為憤怒而選擇steal,雙方魚死網破。
如果他相信他的威脅生效了,那麼他的最優策略就是選擇撒謊,獨享獎金。
但實際上他並沒有把握,所以他所面對的博弈更加複雜

最終,Nick選擇了split,這是一個非常好的選擇。說的不是節目博弈的結果,而是跳出獎金博弈上升到人生博弈的結果。
他贏得了智慧和尊重,和微不足道的一半獎金。
博弈論里有非常重要的一條:
汝欲得之,必先知之


最後,思考題時間:
如果收益矩陣如下,請問Nick的威脅有效嗎,有多大效果?


我寫過一篇課程論文《博弈論視角下試論釣魚執法「錯釣困境」的解決之道》
並不是說這是實例,只是一個思路。節選一點:

在「釣魚執法」中,存在著三個群體:交通部門、舉報群體、司機群體,其中司機群體分黑車司機和私家車司機兩類。既然釣魚執法過程中存在三類群體,那麼大可以讓「舉報群體」和「司機群體」進行博弈,交通部門成為兩者博弈的遊戲規則制定者。基於「舉報群體」和「司機群體」的利益對抗關係,筆者認為「鬥雞博弈」(chicken game)更適合作為兩者博弈的遊戲規則。鬥雞博弈設想兩個人在獨木橋上火拚,每個人都有兩種戰略:繼續前進,或退下陣來。若兩人都繼續前進,則兩敗俱傷;若一方前進另一方退下來,則前進者勝利,退後者顏面盡失;若兩人都後退,兩人都失了顏面(如表2)。

讓我們可以通過表2的模式來判斷舉報者和車主在09年時的博弈關係:「舉報者」可謂A,「車主」可謂B,如果「舉報者」舉報「車主」並否認誤抓,則會有獎勵;如果「車主」反抗並證明了清白,「舉報者」無損失,由交通部門承擔損失。如果雙方出現了爭執,在「暴力執法」的情況下,「司機」沒有反抗的餘地屈打成招,「舉報者」可以獲得獎勵。根據這樣的情況可以得出09年兩者博弈的矩陣圖(見表3):

由表3可以看出,即便司機和舉報者的利益出現衝突,但是由於交通部門執法人員在利益方面的介入,使得舉報者無須承擔「誤抓」責任,而司機反抗無效,結果便是,舉報者主要隨便誘捕一名車主在絕大多數情況有獎勵,而且不同背負任何責任,因此也無須管他是不是黑車司機,這樣一來「錯釣」率一定會攀升。因此如果要把這個僵局打破,有三個條件:一是交通部門充當法官角色,不介入博弈過程;二是給予車主反抗的權利,用以制衡舉報者的行為;三是舉報者必須為「誤抓」承擔責任,以避免舉報者為所欲為。事實上,辨認黑車十分簡單,只是取證困難成為了黑車司機們的保護傘,因此舉報者是有能力知道自己是否誤抓,然而承認與否則是有最終的利益得失說了算。這要求交通部門在指定賞罰規則時需要計算好博弈者的利益得失,幫助他們規範自己的行為。

按照美國社會學家戈夫曼的擬劇理論,每一個社會群體都存在自己的角色利益,那麼交通部門的角色意志是查處黑車,減少錯釣率,舉報者的角色意志是拿到賞金,黑車司機的角色意志是非法營運賺錢,儘可能不被抓到,私家車主的角色意志是證明自己的清白。假設人們都有證實自己信譽的需要,並且可以量化為2個單位點。根據這四種角色,本文建議交通部門制定好舉報者的獎罰機制,給予司機證明自己的權利,並設計以下的博弈矩陣(見表4、表5):


博弈矩陣的規則為:非法運營罰款為2個單位的金額(即-2),舉報者無爭議舉報一名司機獲得2個單位的金額,承認誤抓罰款為1個單位的金額(即-1),一個人無法證實自己的信譽則失去2個單位點(即-2)。如果舉報者否認誤抓,同時被舉報司機表示反抗,真相無法明晰的話司機扣除3點金額(即-3),舉報者扣除2點金額(即-2),那麼雙方的利益都會得到不同程度的損失,這個局面將使得舉報者和被舉報者不得不經歷一場心理博弈。

表4顯示,舉報者所舉報的是黑車司機:黑車司機因非法營運罰款所以利益變成-2個單位,舉報者會得到2個單位的獎勵;如果黑車司機賄賂舉報者,那麼舉報者承認誤抓可以獲得1個單位的賄賂金額,黑車司機為-1;如果雙方出現爭執,交通部門則雙方都罰款,黑車司機-3,舉報者因得到司機投訴罰款所以利益變成-2;如果黑車司機反抗而舉報車示弱說自己誤抓,則黑車司機無損失,舉報者不僅因誤抓罰款失去1個單位的金額,還由於沒有證明自己的信譽失去2個單位點。這樣一來,如果黑車司機選擇反抗的話,往往會遭致舉報者的「火拚」(因為不願意丟失自己的信譽),使得自己遭受更大的損失,因此會傾向於不反抗並且賄賂舉報者使得自己的損失最小(即-1個單位點),但是由於舉報者否認誤抓得到的獎勵會多於賄賂金額,因此會放棄賄賂。這樣我們所期待的情況出現的幾率會提高很多。

表5顯示,舉報者故意誤抓私家車主:私家車主因罰款所以金額為-2,如果不反抗的話,還會因為沒有證明自己的信譽失去2個單位點,舉報者會得到2個單位的獎勵;那麼私家車主往往會「火拚」,表示反抗,使得舉報者無故丟失2個單位金額。為了減少損失,在預測私家車主會火拚的情況下,舉報者傾向於選擇承認誤抓,接受只有1個單位金額的損失。最終舉報者會發現,如果不誘捕私家車主就不會有私家車主「火拚」的風險,就不會出現利益損失,於是也就不願意誘捕私家車主。這樣我們所期待的情況出現的幾率也會提高很多。


表4表5似乎確實通過利益槓桿的調節將舉報者、黑車司機和私家車主的行為引導到應有的方向,使得最符合真實的情況得以出現。然而筆者必須承認這個模型仍是一個理想模型,只考慮了人證實自己信譽的需要(孫中界事件給予我的啟發),而且量化的值高達2個單位點,而實際上並不是每個人都想孫中界那樣有高達2個單位點的信譽需要。但是,這個博弈矩陣模型的規則能夠為解決「錯釣」困境提供這麼一個思路:通過量化人們行為趨向,調整賞罰金額,讓人們根據自己的理性計算自發地往事實真相走。

這也只是我的突發奇想,也希望大家拍磚。。


華南師範大學 謝麗萍


首先,「博弈」這個詞現在被很多人濫用,導致很多不符合博弈論基礎的事件被沒學過博弈論的人描述為XX與XX的博弈。博弈的參與人的目標一定是效用最大化或利潤最大化,否則我們無法確定其效用函數、最佳對策或納什均衡,比如對於一個非功利型的政府或者城市一級開發商來說,它只扮演著稅收收繳、建設基礎設施、公用資源分配等角色,並不追求稅收最大化或財政收入最大化,任何與它的「博弈」都不能用博弈論模型來解釋,當然現實情況下中國的地方政府還是可以看做功利型政府的。
回歸正題,博弈論對於解釋和解決現實情況的效果還是很好的,但策略預測的功能我個人認為比解釋效果要弱很多。為了避免空談,我就用土地拍賣的例子來說,因為這也是我的專業。2004年後,我國政府進行土地出讓都要進行「招拍掛」,即招標、掛牌和拍賣,使得土地使用權的出讓更加透明,以削弱政府的尋租腐敗行為。就後兩者而言,國企、民企都會站在同一個平台上舉牌,誰出價最高誰得到土地,博弈論中稱其為標準的English Auction。但招標有所不同,大致的過程是:1密封遞交標書;2統一時間公正開標;3由政府的評標委員會審閱各公司的標書,參考標價最終確定競得人。
從這裡面我們能發現,中標人的得失並不僅取決於標價,還取決於他對土地帶有很大主觀性的估計,每個參與人的估價通常來自自己的私人信息(房地產公司有專門測算地價的部門)。這些問題在博弈論中需要求解一個叫「貝葉斯納什均衡」的東西。具體過程省略,其結論是:
1 投標人較少,且不能準確評估土地價值(不識貨)的時候,買方出價可能非常低,如果投標人之間互相串通,賣方就更吃虧(土地被賤賣);
2 投標人參與投標而不中標沒有任何代價,投標人就不會積極爭取中標,會轉而採取低價多次投標的方法,希望通過投機獲得更大利益。如果投標人都這麼做,那價格還是會偏低,對賣方不利。
那出現這種情況怎麼辦?這就需要政府設計一種制度來進行預防,這在博弈論理被稱為機制設計(Incentive Design)。如果你親眼看過標書,你就會發現政府是這樣設計的:1 投標人參與投標需要提前交納一定的保證金(幾千萬到幾億,視出讓地塊而定),如果投標人沒有中標,保證金會在幾日之後退回;2 每宗地都有出讓底價,標價如果低於底價直接被評為廢標,底價在開標之日在所有投標人面前拆封揭示;3 競得人不一定是標價最高人,標價的影響因素只佔總得分40%左右,政府還要評審投標人的財務報告、擬建項目說明書、業績說明等等。在這些條件下,上述的問題就可以被很好的避免,幾億元的保證金和底價使得那些小企業不敢投機,主觀估計帶來的價格波動會在評標過程中被適當削弱。

說完這個專業性比較強的博弈論應用,下面說個更貼近大家生活的例子,就是職業生涯規劃。和電視上大部分所謂「職業規劃師」或者「成功學大師」的工作不同,博弈論把一個人的職業生涯看做「不完全信息的動態道德風險」模型。簡單來說,當你剛畢業進入一家企業時,企業雖然不知道你的全部能力,但企業會根據你的努力水平來決定你的薪水。同時另一個問題是,你有多努力是否能真正被企業完全觀察到,比如國企員工的工資是固定的,無論你努力不努力都無法改變薪資水平,結果是什麼呢,就是所有人都不努力,導致效率低下。在這種情況下,你去看什麼成功學的書是沒有任何作用的。
我們依然省略掉一些博弈模型的均衡求解,其結論是,你的策略是隨著時間變化的:在剛畢業進入企業時,你需要非常非常努力,並使得你的業績超出企業對你的預期,類似於Surprise!的感覺,這會使得企業對你能力的評價超過你真實能力的概率大大增加,並依此提高你的工資;但隨著你工作時間越來越長,企業對你能力的判斷越來越准,你就不再需要那麼拚命,即使拚命工作也是事倍功半。我們常在電視上看到,那些臨近退休的國企高管因為某些問題被紀委調查,那是因為他們深知要退休,沒有任何激勵再去為公司奉獻,所以走之前要大撈一筆,有人也稱之為60歲危機,或59歲危機。
另一方面,如果你知道自己能力很強,那你需要進入一家績效評比非常客觀透明的業務部門,避免去一些日常事務部門,而如果你知道自己只是混了個文憑,沒什麼真才實學,那策略就剛好相反,因為在企業招聘時,這兩類人的文憑是一樣的,企業無法觀察到真實水平。隨著時間推進,企業也明白區分這兩類人的重要性,所以我們會發現近幾年各類面試奇招層層篩選越來越多。

說了這麼多,我個人認為博弈論對於現實情況的解釋還是很有效果的,雖然一些結論我們會認為說的是廢話,但當你意識到這其中包含的各種信息不對稱、動態影響、預期作用等等因素後結論依然如此簡潔時,你才能體會到博弈論真正有用的地方。


給你一個人人網上面的例子:「兩位台灣同事一大早就飛回台灣投票去了,兩個人一藍一綠,兩張票完全抵消,不對選舉產生任何net effect。。我對他們說,算了吧你們還是呆在香港看結果最經濟省事。他們說這是博弈論的prisoner"s dilemma,我們飛回去的結果是nash equilibrium。。直接崩潰」


首先舉幾個雙人博弈里比較經典的例子說明吧。

1.情侶博弈。背景是一對情侶對節目有不同偏好,倆人正在考慮看芭蕾舞還是足球賽。

對於每一個參與人來說,都有(足球賽,芭蕾舞)兩個選擇。通過收益矩陣+劃線法可以得出男生和女生選擇同樣的節目收益最大。
在生活中的啟示很簡單,兩個人相處(不管是哪種情感關係)難免發生分歧和不一致,學會妥協和讓步。相處的目的是通過某些方式變親密,得到情感支持。那麼手段和方式並不是非什麼不可。爭吵有的時候是因為方式出了問題,不要捨本逐末。

2.鬥雞博弈。設定:兩隻雞的策略集合為(斗,不鬥)。收益矩陣如下:

從鬥爭結果看不是對手戰勝自己,就是自己戰勝對手。
我們可以對美蘇爭霸時期雙方的表現做一個類比。美國和蘇聯搶佔地盤的行為並非同時發生,一方採取攻勢時,另一方多處於防禦狀態。家庭生活中,夫妻發生矛盾時,雙方如果採取一致行動:冷戰或熱吵的後果總是比有一方讓步時嚴重。雙方有矛盾時,有一方冷靜避讓才會使雙方的收益最大化。退一步海闊天空來著,這也是博弈論在生活里的小應用吧。

接下來是關於囚徒困境的例子。

1.伊拉克和伊朗在面臨石油產出時有高產量和低產量兩個策略。

雙方的納什均衡為(高產量,高產量)收益總和為800.如果雙方都選擇(低產量,低產量),收益總和為1000.

市場價格是由供給和需求共同決定的,當市場需求一定時,供給減少會使均衡價格上升,這也是美國會給不種地的農民補貼,從而限制供給的原因。然而雙發在面臨決策時,因為擔心自己選擇呢低產量,對方選擇高產量時收益減少,因此選擇高產量,導致集體收益減少,個人理性不符合集體理性。

農村裡常常出現這樣的情況:今年賣蘋果賺了錢,於是明年大家都去種蘋果。一堆蘋果降價都賣不出去。這個時候要是有人不跟風種了橙子,那麼橙子就賺錢了。於是以後大家又會選擇種橙子,循環往複。最理性的選擇肯定是不要同時種一種水果,但是大家不知道準確的市場需求,有擔心種別的不賺錢,所以就盲目跟風,群體利益受損嚴重。


2.香煙廣告博弈。駱駝和萬寶路這兩個香煙公司現在面臨是否要打廣告的決策。我們假設收益情況如下表所示:

如果雙方都不做廣告,本來可以獲得總共80的收益,但做廣告後只剩下60.由於不能保證信任對方的策略,因此雙方選擇做廣告。再次驗證個體理性不滿足集體理性。

中國家電市場上的兩大巨頭國美和蘇寧近幾年鬥爭不斷,試圖通過各種各樣的促銷活動吸引消費者。對於商家來說,較高的價格意味著較高的利潤,但國美和蘇寧近年來都在拚命強調低價,不斷調低商品價格。除去技術進步造成商品價格降低等複雜因素,其實也是因為信息不對稱,缺乏信任機製造成的。


3.三鹿奶粉的囚徒困境

乳品企業向來是得奶源者得天下。在紐西蘭、澳大利亞等乳業發達的國家,基本上都是工廠化養殖奶牛,而在中國,最典型的是公司加農戶,也就是說中國的奶源大都是農戶散養奶牛,不免帶來疾病控制以及原奶質量控制的諸多隱患。

現實的結果是乳品企業針對散戶養殖提供的奶源展開了激烈的爭奪,不知道奶源有問題是不可能的。存在隱患的奶源依然成為乳企激烈爭奪的原因就在於一場囚徒式的激烈博弈。

如果你堅持原則不收問題牛奶,那麼那些有問題的原奶依然不愁銷路,競爭對手還會因此而進一步壓低價格,而你卻面臨奶源缺失無法生產的局面。加上政府在食品質量監管上的漏洞,最終的結果是你收我也收,大家一起生產問題牛奶的困境。


最後說說智豬博弈。


背景如下:

豬圈裡有一頭大豬,一頭小豬。豬圈的一頭有豬食槽,另一頭安裝著控制豬食供應的按鈕,按一下按鈕會得到10單位的豬食進槽。但是誰先按就會首先付出2單位的成本。若大豬先到槽邊,大小豬吃到食物的收益比為9:1,同時到槽邊,收益比為7:3,小豬先到槽邊,收益為6:4。

收益矩陣:

(大豬按鈕,小豬等待)是納什均衡。

經濟含義:強勢方積極行事,弱勢方搭便車。

在股市中,大戶是「大豬」,散戶是「小豬」。大戶要自己搜集信息,進行投資分析,而散戶只是選擇「跟大戶」。

在股份公司中,大股東是「大豬」,小股東是「小豬」。儘管股東承擔著監督經理的職能,但大股東和小股東從監督中得到的收益並不一樣。監督經理需要付出搜集信息和花費時間的成本。在監督成本相同的情況下,大股東從監督中得到的好處顯然多於小股東。因此,均衡狀態下大股東擔當起搜集信息、監督經理的責任,而小股東則搭大股東的便車。正是基於這種理由,大股東有選舉投票權,通過投票權行使對經理的監督。

在廣告市場上,花錢製作廣告的多數是大企業,小企業做廣告是得不償失的。小企業通常模仿大企業的產品,等待大企業通過廣告打開市場後出售廉價產品。

在現實經濟活動中,大、小企業的行為就很不一樣。大企業財大氣粗,設立研發機構,不斷開發新產品;花大本錢做廣告來擴大市場。小企業實力不濟,則沒有這種積極性。從博弈的角度講,小企業的最優選擇「仿製」(山寨),等大企業開發出市場後坐收漁翁之利,這是典型的「搭便車」行為。


博弈論絕對不是純理論的學科,關鍵是要學以致用。學習的時候我一度喜歡構造收益矩陣分析生活中的問題,幫助自己理清思路。最好笑的是乘電梯的時候我分析了為什麼3樓以下的人乘電梯總是被大家鄙視。很有趣的學科,多思考就有新發現。

可以參見二、博弈論中文教材點評選擇幾本書多看看。書里會有很多結合實際的例子幫助思考,內化之後,應用也會容易的多。


博弈論是理論上的學科我也是醉了。在我看來,這世間幾乎所有事情都是可以囊括在博弈論框架下的。

我才疏學淺,寫過一篇文章,裡面解釋了兩個現象:一是為何知乎上的大v都要註明「本人已委託XX維權」,這和寫「侵權必究」有啥區別?二是為何騙子的騙術看起來那麼低劣,是他傻還是你傻?

著作權歸作者所有。
商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
作者:任宏達
鏈接:博弈思維-I - 隨機 - 知乎專欄
來源:知乎

請問,為什麼知乎上那麼多人要註明」本人已委託XXXX(網址)為我的文章進行維權行動 「?這比註明「知識產權系本人所有,侵權必究」有什麼優勢?

如果註明「侵權必究」,實際上是這句話是不可置信的。因為(我們不妨假設)如果我侵權了,你跟我打官司,你要請律師(大概需要6塊錢),而且還不是每次告我都能告贏。還要浪費你自己的時間(全部折算後計為損失10塊錢);如果你忍氣吞聲,最多就是知識產權的損失(全部折算後損失5塊錢)。那麼,這次序列博弈的博弈過程表述如下:

知乎作者在面臨侵權時,是否會維權呢?從上面一個序列博弈中,我們發現,不會的(-10&<-5)。因此,這位知乎作者在自己的簽名處寫的「知識產權系本人所有,侵權必究」是不可置信的。最終我們不幸的看到了侵權者肆無忌憚,而知識產權沒有得到任何保護。但是,如果說,知乎作者已經提前預付給XXXX(某個維權機構)6塊錢了,並在自己的簽名處註明」本人已委託XXXX(網址)為我的文章進行維權行動 「,序列博弈就變成了如下樣子:

這時候,大家發現了什麼沒有?當侵權者再侵權時,知乎作者一定會維權的,因為他已經支付了律師費(-10&>-11)。侵權者已知自己侵權了,作者就一定會維權,他在第一步做決策時就會選擇不侵權(0&>-2)。知識產權受到了保護。所以,」本人已委託XXXX(網址)為我的文章進行維權行動 「是一個可置信的威脅,有效的打擊了侵權者的囂張氣焰。大家是不是還有類似的生活經驗?」破釜沉舟,百二秦關終屬楚「的故事,項羽為什麼要砸了自己的船,從序列博弈的角度是不是也很好解釋?有錢人為什麼要雇一些私人律師,公司為什麼要每年年初都預支律師費?

還有一些例子,比如,你在玩詐金花、索哈或德州撲克的時候,敢跟你的人一般都是持有跟你相似牌力的人;再比如,德州撲克有哪些技巧、經驗或者原則? - 李開復的回答這個文章,如果你仔細看了,會覺得李開復說的很有道理(實際上卻是有道理),但這個方法僅限於跟陌生人玩,如果是跟熟悉的人,你長期這麼做,就會更多的被人詐乎(bluff),慢慢地你就發現每一手牌賠率都是不合適的,關於賠率的概念參考理性地面對不確定性-I - 隨機 - 知乎專欄。這也是長期的一個均衡。這些都源於一個簡單的道理:跟你玩的人都不是傻子。

再說一個,電視(小)廣告/電線杆上貼的騙人的廣告為什麼都看起來那麼弱智?騙子就不能把故事再精心編纂一下么?這實際上是騙子經過了「向前看」looking forward的思慮後最終選擇的結果,是一個均衡。試想,一個「重金求子」可能騙不了你,但一個經過精心編排的廣告,各種細節都無懈可擊的廣告確實可以騙過更多的人。然而,如果你是騙子,你把故事講的完備是有成本的,它會吸引太多的人來打聽,你不得不把故事編下去,而對於聰明人,你編故事是很難無破綻的,這時候,你實際上平均付出的勞動要更多。一個弱智的廣告確實只有弱智信,然而你後期基本上不用很走心就可以騙過他們,收益會更高的。為什麼劣幣會驅逐良幣,為什麼一個二手市場上最後全都是爛貨?為什麼你開一家餐館,智商(在全體人群中)40%以上的人來吃你盈利1塊,智商40%以下的人來吃你虧損1塊,最終你會虧損(明明期望上你是盈利的啊)?


看了耶魯大學的《博弈論》這門課,其實回答了我以前生活中的一些疑問。講一個我覺得挺意外的。先說結論:


當你作為一個父母、老師,希望孩子達到自己的要求,比如做作業,背誦課文等等。請不要通過懲罰手段以圖達到目的。這是無效的!請通過增加檢查頻率來達成!
(以上結論純屬將下述博弈水平展開至生活,不對有效性負責!)

以下為證明:(引用博弈論課程中關於納稅的例子)
參與博弈人:
納稅人和查稅人

採用的策略:
納稅人選擇報稅或者隱瞞不報。
查稅人選擇查稅或者不查稅。

收益分別為:
納稅人 :
報稅:則不論查稅人是否查稅,收益為0。
隱瞞:隱瞞成功收益為4(瞞天過海了,哈哈),被查稅者檢查出來要罰款,此時收益為-10(no zhuo no die)。
查稅人:
不查稅:但是對方沒有隱瞞,收益為4(不檢查但你乖乖上報,爽)。若對方隱瞞,收益為0(被偷稅漏稅了,沒錢收)。
查稅:但是對方沒有隱瞞,收益為2(檢查了和不檢查一個樣,收益比不檢查低點)。若對方瞞報了,收益為4(想偷稅,乖乖給我把錢上繳了)。

將此博弈列入矩陣表,簡單如下表:

通過一系列運算,暫且不表。(詳細計算請看博弈論視頻)

得出結論:
納稅人選擇2/3概率報稅,1/3概率隱瞞。
查稅人選擇2/7概率查稅,5/7概率偷懶。

如果我們上調了罰款的金額,將-10改為-20。此博弈會出現什麼情況呢?

通過一系列運算,暫且不表。(自己看視頻去~)
得出結論:
納稅人選擇2/3概率報稅,1/3概率隱瞞。
查稅人選擇1/6概率查稅,5/6概率偷懶。

將兩個結論進行比較,看到問題關鍵沒有?居然納稅人選擇的策略沒有改變!!!你的小孩、學生該偷懶還是偷懶,該不背誦還是不背誦!!!以前那些被罰抄1000遍的直接哭暈在廁所。


終極結論:增加懲罰力度,不會讓納稅人提高報稅的概率,是達不到減少偷稅漏稅的目的。只有增加查稅人的檢查頻率,才能正真減少偷稅漏稅。


我建議你去看看《自私的基因》,特別是最後幾章,尤為精彩。你就會明白博弈論是在所有生物進化,演化中扮演著關鍵角色。兩個物種之間,同物種的每個個體之間,兩性之間,無時無刻不在進行著複雜而微妙的博弈。整個自然界,包括人類社會的每一個角落,都可以看到博弈論的影子。


具體來說很複雜,比教科書的抽象說明複雜得多。


以鬥地主策略說明(不僅涉及博弈論,還涉及概率、邏輯推理和心理學):


1. 什麼情況下應該要地主?


一副牌總共有四個2,兩個王,我們叫大牌。


可能出現的情況有:

1)無大牌。這個時候明顯不能要。

2)有1張大牌。如果是2,不要。如果是大王,牌型整齊兩手出完可以要。總體建議不要。

3)有2張大牌。兩個2,不要。一2一小王,建議不要。一2一大王,牌型整齊可要。

4)有3張大牌。一個2兩個王,兩個2一個小王,兩個2一個大王,三個2。總體可要。

5)有4張大牌。兩個2兩個王,三個2一小王,三個2一大王。總體可要。

6)有5張大牌。三個2兩個王,四個2一小王,四個2一大王。要。

7)有6張大牌。四個2兩個王。要。


一副好牌是什麼意思?平常,我們看到大牌就高興,包括王、2、A、K多這樣的牌。牌力大,這是牌好的第一層意思。


牌好的第二層意思,需要考慮牌的整體結構,即牌的整齊度。這在實際情況中是被很多人忽視的。有的人經常拿雙王兩個2沒有打贏,往往因為其餘的牌太散,也就是牌的整齊度不好。


綜上,拿到牌要不要地主有兩個維度的考慮:一是牌力大不大,二是牌的整齊度好不好。


不要賭底牌,底牌出現想要牌的概率很小,小於10%。


2. 地主出牌方法:


1)拿上牌後,分析自己的牌,除開三帶一後,剩下的單牌在10點及以下,則發單。如果自己大對子比較多,能收回對子,便發對。如有幾個三帶一就先發三帶一。


2)地主要盡量不要把自己的弱點暴露在對手的面前,也就是如果沒有大的對子,首發就盡量不要打對子。人家打對10左右你就不要了,那弱點一下就給暴露了。


3)地主要學會忍讓,如果不管是哪家的牌你都要打死,那麼你的牌再大也是要輸的,如自己發單,別人打大單,但自己有大對子那麼就沒有必要拆開2去打,因為對方肯定有對子投起來的。


4)地主要算準下家的單牌過到幾、對子過到幾。(通過發單時算、還可通過三帶所帶的牌來算)。


5) 地主走一張單,地主下家直接就走一個2,要直接打掉。


3. 地主上家出牌方法:


1)地主發單,頂大單,上手則改打中對;地主發對子,同伴出小對子則卡住地主的小對子,卡住對8以下的,可出對7、8,讓同伴接過去;若同伴出到對10左右則千萬不能接同伴的牌,在同伴打不起時在接打地主,上手後出大單。


2)同伴上手後,發小單過來,則要頂大單,如果大牌是對子就應該拆開對子來頂地主,上手後繼續發中對,但如果前面已經知道同伴沒有大對子了,則可以在頂牌時稍微頂小點,頂到10左右,讓同伴去接地主的單牌。


3)看著牌很可能打不贏的時候,可以採用特殊的方法。如有一個A、2、加上幾張爛牌,頂牌A,地主不要,這個時候就打一個2,這樣如果地主不是雙王,他必然會用王打你,這樣就讓地主少過了一張牌,給同伴創造了更好的機會,如果地主是雙王,他牌不好他也可能把雙王給拆掉,(本來他可以炸出來的)這樣,就被你給騙到了,這種情況能逼地主不炸就為贏了。


4)地主上家要算好地主是單牌差勁還是對子差勁,專門打地主的弱點。如果地主單牌過完了,便發單,分死他。


5)地主上家一定要記住自己的任務:頂牌,卡主地主的單牌和小對,讓他出不了


6)如果牌很好,可不頂牌。但至少要有80%以上把握才能這樣放。


4. 地主下家出牌方法:


1)地主發單,過小單;地主發對,過小對;地主出大單,選擇性的拆2。


2)接打同伴的中大單和對子,上手後有單牌一定要出單,單牌很大也可出對子,無單了出對子。


3)報單雙時,如果地主過的單牌很少(地主上家頂住了牌沒有讓地主過小單),就報大單,否則報雙。


5. 算牌


1)算炸彈

例:自己無2,出A見小王,則極可能有2222。


2)算大牌

例1:自己地主大+22先手出A下家出小,則必有一家22成對。

例2:自己地主大+2先手出單下家出2,則極可能上家有22。


3)記牌

任何人都必須記住的:王,2,自己的缺牌,10,7。


6. 合作


1)單不放10,雙要過6。

上家頂地主,盡量單牌不要小於10。對子出到66最好,一來不讓地主放小對,二來可以知道關於7的重要信息。


2)不壓隊友。

隊友牌好讓隊友出,不可逞一時意氣。


3)地主剩一張時。

若能不放單就走掉,固然最好,若不能走則要求密切配合了。最基本的路數是,若上家走則走,若不能走則以最大的牌依次頂地主,然後放對讓下家接;下家接上後,若能走則走,若不能走,則放單;上家再重複剛才的路數。


4)地主剩兩張時。

任何情況下,除非已算出地主所剩為兩張單牌,否則不要出對。一直出單,直到地主出一張為止,若地主始終不出,那就一直出單,把對子全部拆成單張出,地主出一張後,再照上面的打法進行。


三方信息開始時是比較對稱的,每個人都只知道自己的牌。但是遊戲進行過程中,高手可以通過自己的缺牌、已出牌、上下家打法,據此推理分析得知一般人不知道的重要信息,由此制定優勢策略,增加獲勝幾率。


最後,三個人坐的位次很重要,千萬不要讓個豬一樣的隊友坐地主上家。


博弈論可以用來解釋排隊這個現象的出現。因為在單位時間內我們的需求往往超過了所能提供的資源,於是,我們需要找到一種方式來解決這個矛盾。舉個例子,現在銀行只能提供一個窗口供顧客來辦理所有業務,但同一時間卻有大量顧客來辦理業務(假設銀行辦理業務的速度比較慢),那麼我們要怎樣確定誰有權利先去辦理業務呢?(請先忘記你大腦中所謂的道德觀念或規則)有人說,肯定是先來後到啊。問題是,為什麼一定要先來後到呢?憑什麼要先來後到?現在假如沒有道德觀念和規則的的束縛,有個先來的人正在辦理業務,後來的一個人趕來,他也急著辦理,這個時候他有兩種選擇:第一,他就在原地等候先來的那個人辦完;第二:他去和第一個人爭搶,比如用暴力,兩人用暴力解決,看誰有能力一直佔領這個窗口。如果採用第一種方法的話,這個時候的結果是:他必須付出一定的時間等候,但第一個人卻可以比較順利並且快速地辦完。第二種辦法:他去和在他前面的那個人打一架,這個時候的結果是,最終一定會有一個人贏一個人輸,輸的那個人只能乖乖的在一旁等著,但是,他們兩人必須要付出一段時間用來打架來決定誰來辦理業務,而且可能他們兩人還必須受點皮肉傷。假設他們兩個每次都會碰到,並且都有這兩種方法來讓他們選擇,他們每一次都要重複進行這種博弈,然後都會有相對應的結果。在進行多次博弈的過程中,他們漸漸發現,不行啊這樣,靠打架來解決效率太低了,結果對雙方都不太好。於是,有一天,他們之中有一個人提議,要不我們不要打架了好不好,我們每一次誰先到誰就先辦理業務好不好,另一個人想了想說,好吧,那就這樣吧。於是,當這種方法重複多次之後就演變成為一種為雙方所接受的常態化的解決問題的機制,這種情景擴大到多數人也是這樣。其實,其實政治的出現也可以這樣來解釋因為雙方都沒有能力在單次博弈中打敗對方,必須經過這樣的多次重複博弈,這樣就隱藏這合作的可能性。當然,我這個例子與博弈論所需要的理論假設環境並不是完全吻合。有人也許會說,排隊這樣一個如此簡單的事需要這麼複雜的解釋嗎? 沒錯,科學就是這樣,不斷地把簡單問題複雜化,把複雜問題簡單化。我這樣只是提供一種看待排隊現象的視角而已。


推薦閱讀:

精通博弈論有什麼好處?
納什均衡在國際政治博弈上有哪些應用?

TAG:博弈論 |