好書一起讀(55):博弈論
一、學習態度
博弈論對我們普通書友,而不是專業的研究人員來說:
1)想學深入非常困難。
2)即使學深入了,對大部分工作、生活問題也沒有幫助。
所以,了解一些博弈論的思路和工具,在享受邏輯的美感的同時,讓自己的思路更開闊,是我個人推薦的學習態度。本篇參考書籍:《策略思維》《博弈論的詭計》。
二、基本工具
博弈論的基本工具有兩種,一是決策樹,二是收益表。
1)決策樹適用於依次行動的博弈,基本方法是向前展望、向後推理。
2)收益表適用於同時行動的博弈,基本方法是尋找優勢策略和均衡。
三、決策樹
立足當下,提出全部「我目前可選擇的辦法」,並基於每種我可選擇的辦法,提出全部「對方可能的應對」,再基於每種對方可能的應對,提出全部「我可能的應對」……以此類推到最後,為每個最終結果賦予收益值,根據這個收益值,向前反推「在最後一步時,我/對方一定會採取的方案」,因為「一定會採取」,則在最後一步進行前,收益值實際已經被確定,根據這可以反推「在倒數第二步時,對/我方一定會採取的方案」……以此類推到第一步,得到「我目前可選擇的辦法」中收益最大的,即應該採取的決策。
這就是向前展望,向後推理。
舉例:假設如圖局面,紅先
第一步,紅方有進將、平將、進兵、向右平兵走法(為簡單,不考慮向左平兵)。
如果紅方進將,黑方只有平將一種走法,然後紅方可以平兵或進兵,如果平兵,黑棋被將殺,記為紅方收益為1,如果進兵,將導致和棋,記為紅方收益為0。
如果紅方平將,黑方直接被將殺,記為紅方收益為1。
如果紅方進兵將軍,黑方有進將或平將兩種走法,這兩種走法都將和棋,記為紅方收益為0。
如果紅方平兵將軍,黑方有吃兵或平將兩種走法,前者將導致和棋,後者將導致紅勝(紅方進將即將殺,不再展開),記為紅方收益為0或1。
根據以上分析畫決策樹如上圖,因為在第一種走法的最後一步,紅方一定選擇平兵將殺(因為1大於0),因此第一種走法的收益為1。第三種走法黑方無論怎麼選擇,都將是和棋,因此第三種走法的收益為0。第四種走法黑方一定選擇吃兵(因為紅方的0就是黑方的0,紅方的1就是黑方的-1,0大於-1),因此第四種走法的收益為0。
化簡決策樹如下:
可以看出,紅方進將或平將將導致勝利,而進兵或平兵將導致和棋,因此紅方第一步應該走將。以上說明了決策樹的典型應用:將整棵樹完全展開到最後,推斷每個分支最後一步行動者的必然選擇,由此將整棵樹化簡一層,這樣一直化簡下去,直到得出第一步的最佳選擇。在理論上,任何棋類都可以用這種方法算出必勝策略(假如有),只是目前及在可以預見的將來的電腦計算能力無法實現。但「井字棋」這種簡單棋類,用決策樹可以簡單地分析出從第一步到最後一步每步的最佳策略,該棋規則極為簡單:在3*3的棋盤上,雙方交替落子,先在直線/斜線上連成三子的一方獲勝。感興趣的書友可以嘗試用決策樹推斷先行一方是否有必勝策略。
另外,決策樹除了在雙方交替進行的博弈中適用外,在不存在「對方」的個體決策中也可以使用,例如本文開頭的關於對「博弈論」的學習態度的分析:
如上,書友可以有「深入學習博弈論」「了解博弈論」「根本不學」三種可選分支,如果嘗試深度學習,有10%概率學懂,學懂之後,有10%概率對現實生活有指導意義,如果選擇僅僅了解,有90%概率了解成功,有10%概率了解失敗。
向前展望:學懂博弈論並成功用之指導生活無疑最好,收益100,了解點兒博弈論並開闊了思路的收益只有5,但如果深入學習之後沒有用處,白費時間,收益-10,如果粗淺了解失敗,花了點兒時間,收益-1,根本不學沒有收穫也沒有損失,收益0。
向後推理:深入學習並學懂後,10%可能收益100,90%可能收益-10,因此深入學習並學懂的數學期望為1,以此類推,計算出第一步的三個選擇中,深入學習的期望收益為-8.9,了解的期望收益為4.4,不學的期望收益為0,比較而言,最佳選擇應該是了解。這也正是本文的態度。
在現實中感到迷茫的時候,不妨給自己畫畫這樣的決策樹,列出所有可能的選擇,及其可能的結果的概率和收益值,計算出每種選擇的期望收益之後進行比較,從中選擇最佳解。
四、收益表
決策樹適用於依次行動的博弈,而收益表適用於同時行動的博弈。
為什麼決策樹不適用於同時行動的博弈?例如諸葛亮和曹操關於赤壁戰後曹操逃跑路線選擇的分析,因為兩人都非常聰明,則兩人會這樣分析:
曹操知道常識,烽煙起處,必有軍馬,因此選擇沒有烽煙的路。
諸葛亮知道曹操知道常識,因此反而在沒有烽煙的路上設伏。
而曹操知道「諸葛亮知道曹操知道常識在沒有烽煙路上設伏」,因此反而選擇有烽煙的路。
而諸葛亮知道「曹操知道諸葛亮知道……」,因此反而在有烽煙的路上設伏。(題外話:這是實際情況,關羽在華容道等到了曹操)
而曹操知道「諸葛亮知道曹操知道……」,因此反而走沒有烽煙的路。
而諸葛亮知道「曹操知道諸葛亮知道……」,因此反而在沒有烽煙的路上設伏。
……以此無限推理下去,雙方永遠無法得出決策,所以說「依次行動」的推理方式在這裡是行不通的,同時行動的最佳策略選擇,應該藉助於收益表。
說到同時行動的收益表,最先舉的例子永遠只有一個,那就是囚徒困境。
警察抓到了兩個嫌疑犯,對他們分別說:你可以選擇招供,也可以選擇否認。如果你和你的同夥都招供了,你倆將每人獲刑五年;如果你倆都否認,你倆將每人獲刑一年;如果一人招供一人否認,則招供者立刻釋放,而否認者獲刑十年。
根據警察指定的規則,可以畫收益表如下:
這個收益表的用法:每個含有數字的格子代表一種雙方決策組合的結果,左邊的數字代表左邊的決策者的收益,右邊的數字代表上邊的決策者的收益,例如「0,-10」這個格子,代表當嫌疑犯甲否認,而嫌疑犯乙招供時,嫌疑犯甲的收益為-10(獲刑十年),而嫌疑犯乙的收益為0(立即釋放)。
考慮嫌疑犯甲的決策時,應該只關注每個數字格子中右邊的數字(-5,-10,0,-1),並將同一橫排的-5與-10比較,這表示「當對方選擇招供時,我怎麼做更有利」,因為-5大於-10,所以當嫌疑犯乙招供時,嫌疑犯甲應該招供,接下來,將同一橫排的0與-1比較,這表示「當對方選擇否認時,我怎麼做更有利」,因為0大於-1,所以當嫌疑犯乙否認時,嫌疑犯甲應該招供。
因為無論嫌疑犯乙招供還是否認,嫌疑犯甲都應該選擇招供,所以說嫌疑犯甲有一個優勢策略,即招供。因為嫌疑犯乙與嫌疑犯甲面對的情況是完全一樣的,顯然嫌疑犯乙的優勢策略也是招供(如果不信,可以考察每個數字格子左邊的數字,並將同一豎排的數字們做比較,顯然-5大於-10,0大於-1)。所謂優勢策略,就是無論對方怎樣行動,我採用這種策略都比採用其他策略結果更好。因此,甲一定會招供,而乙也一定會招供。
這時就形成了均衡,所謂均衡是指在一種選擇組合下,雙方都沒有動力改變選擇。考察一個組合是不是均衡,應該考察雙方如果改變了選擇,結果會如何,對甲來說,將-5,-5格子右邊的數字-5,與同一橫行其他格子右邊的數字-10(這代表甲如果改變選擇他會怎樣)比較,因為-5大於-10,所以甲不應改變選擇,同樣,考察乙,將-5,-5格子左邊的數字-5,與同一豎列其他格子左邊的數字-10比較之後,也會得出不應改變選擇的結論。雙方都認為自己不該改變選擇,這就是均衡。
兩個嫌疑犯的選擇至此理清了,他倆都將招供,並都獲刑五年,但我們將視線移向右下角的格子,會發現他倆本來可以有更好的結果——兩人都否認,並各獲刑一年。一年比五年要短,為什麼不這樣做呢?假設兩人事先串通好了都否認,在面對警察時,嫌疑犯甲會想:既然對方會否認,那麼我如果招供,可以立刻釋放,如果否認,則要坐牢一年,我還是招供比較好。而嫌疑犯乙也會這樣想。所以最終兩人還是雙雙招供。所謂困境就是:「明知合作更有利,但還是有足夠的動力背叛,並一起走向更糟的結局」。
這種困境在現實中也常見,即如果人人都講規則(這規則可能是法律,或道德,或某種領域、項目中的規則),世界將非常美好,但如果人人都講規則,只有一個人作弊,這個人將收穫很大利益,而其他人受損失,如果人人都作弊,世界將混亂無序。
這就導致了「好人難做」「善良就是傻瓜」的困境:「如果別人遵守規則,我作弊會佔很大便宜;如果別人作弊,我還遵守規則,我該多傻!」這樣就導致了人人作弊,世風日下,舉世皆濁的悲哀情景(劣幣驅逐良幣)。但世界終究沒有黑暗到沒一絲光明,這是因為人們在囚徒困境中痛苦地思考得出了解決方案:單次囚徒困境的困局確實無法破解,但多次博弈中,可以引入「道德」「誠信」的衡量,對上一次博弈中作弊了的人,下一次根本不給他參與博弈的機會。引入了「懲罰機制」之後,博弈者有了「作弊是殺雞取卵」的認識,知道長期來看遵守規則才是最佳選擇,這才讓世界依然保持著秩序。
這其實是通過「懲罰機制」,改變了博弈的收益,假如「再也不帶你玩」對你的損失是-1000,則上一個表格中的數值變化為:
五、典型的同時行動博弈
同時行動的博弈,除了囚徒困境外,還有一些典型的博弈類型。
獵鹿博弈:假如有兩個獵人甲和乙,有兩種獵物鹿和兔子,鹿需要兩人合作抓,一隻鹿能供兩人吃10天,如果兩人分頭抓兔子,抓到兔子可以自己吃3天。
如上,雙方都沒有優勢策略,但有兩個均衡:都獵兔和都獵鹿。不難分析,在都獵兔的情況下,沒有人有動力轉而去獵鹿(那將一無所獲);而在都獵鹿的情況下,沒有人有動力轉而去獵兔(那將得不償失)。但同樣是均衡,顯然都獵鹿比都獵兔對兩人都更好,這叫做帕累托優勢。雙方的合作將使每個人都獲益,這叫做帕累托改善。這個模型說明了合作比不合作更有優勢。
智豬博弈:豬圈裡有一大一小兩頭豬,豬圈一頭有食槽,另一頭有按鈕,按一下就有10個單位豬食進槽,但按按鈕者會付出2個單位的辛苦,若大豬先到槽邊,大小豬各吃到9份與1份食物,同時到槽邊,大小豬各吃到7份與3份食物,小豬先到槽邊,大小豬吃到6份與4份食物。
如上,大豬沒有優勢策略,但小豬有一個優勢策略即等待。在小豬一定會等待的情況下,大豬按鈕的收穫比等待更大,因此結果將是大豬按鈕,小豬等待,達到均衡。
這個模型說明了團隊里「搭順風車者」的理論依據:原地休息,收益最大,何樂不為?
警察小偷博弈:有兩條街:東街和西街,警察能選擇巡邏其中一條,小偷能選擇偷竊其中一條,如果二人在同一條街,則小偷被捕,如果二人在不同街,則小偷成功偷盜。
如上,雙方都沒有優勢策略,且策略組合中沒有均衡,雙方都應該採取混合策略,即按1:1的比率隨機採用兩種方案中的一個(隨機的意義在於讓對方無法預測,否則如果被對方預測了,對方將針對採取行動,你註定得0,對方註定得1)。警察隨機巡邏東街或西街,小偷隨機偷東街或西街,這是雙方的最優解,這稱為混合策略均衡。經計算,雙方收益的期望值各為0.5。
混合策略均衡時策略的使用比率不一定都是1:1,例如如果東街住戶變得有錢:
混合比率的計算方法是:策略的採用比率,與該策略的收益波動幅度成反比。因為小偷偷東街的收益波動幅度為2,而偷西街的收益波動幅度為1,則小偷偷東街與偷西街的比率應該為0.5:1,即用三分之一的概率偷東街,三分之二的概率偷西街(如果你奇怪為什麼東街變富裕了,偷東街反而變少了,答案是如果小偷以超過三分之一的概率偷東街,警察將以超過二分之一的概率巡邏東街,小偷得不償失)。而警察的收益波動幅度都是1,因此仍然用二分之一的概率巡邏東街,二分之一的概率巡邏西街。經計算,警察收益的期望值仍為0.5,而小偷收益的期望值提高到0.66,這是東街居民變富裕給小偷帶來的福利。
這個例子也適用於前面說的華容道的例子,在「你知道我知道你知道……」無窮無盡的情況下,正確的破解方法是雙方各隨機選擇一條道路,是好是歹各安天命(題外話:反正派去的是關羽,曹操倒是無論怎麼選擇都能平安過關)。
再一個例子,例如劇院失火,有一大一小兩個安全出口,大的是小的寬度的二倍,怎樣選擇?正確思路是以2:1的概率隨機選擇一扇門(怎樣隨機?看一眼手錶秒針,指向0-19秒則走小門,20-59秒則走大門),人人都這樣想,最終將有三分之二人走大門,三分之一人走小門,逃生效率最高。
鬥雞博弈:兩隻鬥雞在小巷相遇,無法同時通過,誰後退誰丟臉,另一方光榮,但如果都不後退,將兩敗俱傷:
雙方都沒有優勢策略,但有兩個均衡:即一方前進,而另一方後退。這時,前進一方沒有理由改變行動(1 > -1),後退一方同樣沒有理由改變行動(-1 > -2)。
在現實中,這種現象變得有趣,大多數人出於氣憤,不肯接受「對方前進,自己後退」的均衡,寧願自己受損失(從-1變成-2),也要讓對方受到更大的損失(從1變成-2),這看似並不理智,但自有其道理(見下文)。
六、其他典型博弈
槍手博弈:三個互相痛恨的槍手甲乙丙決鬥,三人同時開槍,每輪每人只能開一槍,甲命中率八成,乙六成,丙四成。
甲會射擊乙,因為如果乙活著,比丙活著對他威脅更大,同理乙會射擊甲,丙也會射擊甲,這樣甲生存概率為24%(乙失手率乘以丙失手率),乙生存概率為20%(甲失手率),丙(最弱的人)生存概率為100%(沒人打他)。
這就是古老的「出頭的椽子先爛」「高築牆廣積糧緩稱王」的道理,想活下去,就不要讓人知道你的實力有多強大,除非你的實力強大到他們知道也無妨。
分蛋糕博弈:有一塊冰激凌蛋糕甲乙兩人分,甲提出方案,乙可以同意或拒絕,如果乙拒絕,改為由乙分甲無條件同意,但由乙分的時候,蛋糕將融化為原來的4成。
採用「向前展望向後推理」,如果到乙分的時候,乙一定把蛋糕全給自己,這樣乙得四成,甲得零。甲想讓乙在甲提方案的時候就同意,甲應該給乙分四成,自己得六成。這樣乙沒有動力反對(理性人:只有慾望利己,沒有慾望損人)。
路徑依賴:將5隻猴子ABCDE放入籠子並放一隻香蕉,猴子碰到香蕉就會引發熱水傾瀉,所有猴子被燙,它們得了教訓之後,從籠子中取走一隻猴子,放入一隻新猴子F,新猴子想碰香蕉,受到老猴子們的毆打,也得知了「香蕉不能碰」,之後再拿走一隻元老猴子(保留F),放入一隻新猴子G,使G也習得規矩,直到元老猴子ABCDE全被移除,五隻從沒被熱水燙過的新猴子FGHIJ依然沒有一隻敢於碰香蕉,哪怕觸發熱水的機制已經被移除,再更換猴子,規矩將被繼續保留。
這就是「傳統」的慣性,例如我們現在的鍵盤布局,明明並無效率,但將永遠流傳。
人質困境:長板坡上張翼德據水斷橋,如果百萬曹軍一擁而上,三將軍齏粉矣,為什麼張飛能夠倖免?因為曹軍知道誰先上誰死。
現實中,一車人面對歹徒,無人敢於出頭,與此道理相同。
臟臉博弈:三個小孩子一個老師,老師說:你們三人中有人臉上有泥巴,三個小孩子互相看了一眼,沒反應,又互相看了一眼,還是沒反應,又互相看了一眼,三個人都做出了擦臉的動作。為什麼?
假如三個小孩子中只有一人臉上有泥巴,老師說話之後,他看到另外兩人臉是乾淨的,將意識到臉上有泥巴的是自己,會用手擦臉。但老師說話之後三人都沒反應,說明三人中至少有兩人臉上有泥巴,在互相看了一眼之後,三個人都知道了這一事實,而且也都知道另外兩人也知道這一事實。在他們互相看第二眼的時候,如果有人看到「一張凈臉一張臟臉」,他會意識到自己是臟臉(因為至少兩人臟),而去擦臉,但看了第二眼後還是沒人擦臉,說明每個人都看到了兩張臟臉。至此,三個人都意識到了自己是臟臉,用手擦臉。
但回過頭看,每個人早就看過別人臉上有泥巴,老師說的「你們三人中有人臉上有泥巴」引入了什麼新信息呢?它引入的信息是:「每個人都知道我們三人中有人臉上有泥巴」。這叫做「公共知識」,即「你知道,我也知道,而且你知道我知道,我也知道你知道」的知識。
有了「公共知識」的概念,把上面的邏輯理一下:
老師說話之後,每個小孩子都知道了「至少一人臟」,這對他們來說是廢話,但他們另外知道一件事,即「他倆也知道『至少一人臟』」。
沒人有所反應,這時每個小孩子都知道了「不止一張臟臉」,這事實上也是廢話(因為他們每人都看到了兩張臟臉),但他們得到了新信息「他倆也知道『不止一張臟臉』」。
還是沒人反應,這時每個小孩子都知道了「沒人看見一凈一臟」(因為如果有人這樣看見,他又知道不止一張臟臉,就會意識到自己臉臟而擦臉),既然「每人都看見兩張臟臉」,就推斷出「我是臟臉」,於是伸手擦臉。
這就是「公共知識」的力量,它不僅讓你知道某事,並且讓你知道:這事已盡人皆知。這樣,你能從別人的行為,推斷出更多信息。
七、打破僵局的方法
上面的同時行動的策略選擇,一個基礎是對對方的價值觀和行為的推測:「如果我這樣做,對他來說A策略比B策略優,他會選擇A」。如果任由對方這樣推算下去,結果對你不利,你可以試圖改變對方對你的預測,來改變對方的行為。
這包括無條件行動、威脅、許諾。
無條件行動——「無論如何,我都會這麼做。」
威脅——「如果你這樣做,我會那樣做,使你收益減少。」
許諾——「如果你這樣做,我會那樣做,使你收益增加。」
最重要的是,你表明自己的態度之後,要有辦法讓對手相信你的發言,而不是讓他認為你在欺騙他。
例如,在囚徒困境中,你信誓旦旦地說,我一定會否認,請你也否認。但對方思考之後,認為他如果信了你,否認了犯罪,結果你坦白了,他就特別吃虧(入獄十年)。這樣他不會信任你。你的態度就白白表達了。
怎樣讓自己可信?《策略思維》給出了八種方法:建立和利用一種信譽,寫下合同,切斷溝通,破釜沉舟,讓後果超出你的控制,小步前進,通過團隊合作建立可信度,僱用談判代理人。這八種方法分為三類思路是:
1)提高自己背叛承諾的成本
2)剝奪自己背叛承諾的能力
3)利用別人幫自己遵守承諾
在進行了有可信度的無條件行動、威脅、許諾的聲明後,你將可以改變對手用來進行決策的判斷依據。例如,當獵鹿博弈穩定在雙方都獵兔的均衡時,獵人甲許諾:
如上,這讓乙免受「甲不合作,我顆粒無收」的風險,得以安心轉向獵鹿,實現雙贏。只要你願意轉而獵鹿,我一定也轉而獵鹿。
例如,在鬥雞博弈中,在均衡局面下後退的甲強硬宣布:
強行將局面推進到雙方都前進的局面,迫使乙後退(在甲一定前進的情況下,乙的優勢策略是後退),獲得利益。無論如何,我都要前進了!
如果你希望對手改變策略,就改變他看到的收益表吧。
八、思考題
1)經典的「強盜分金」問題:有5個強盜搶到了100枚金幣,規定由1號強盜提出分配方案,如果他的方案被全部人中大於百分之五十人同意,則按他的方案分配,否則殺掉他,改為由2號強盜提方案,以此類推。這5個強盜都是極為理性又極為殘忍的人,最終結果會是怎樣的?
2)怎樣使用第七條「打破僵局的方法」破解囚徒困境?
3)這是我在知乎上看到的一個讓我五體投地的國際象棋題目,雖然和這篇關係不大,也藉機分享一下吧,要求:白先兩步殺黑。能做出來嗎?(圖片出處見水印)
思考題答案在下期《好書一起讀》中給出。推薦閱讀:
※讀書隨筆‖《生與死的故事》:將我砍倒,天空就會倒塌
※娛樂致死
※地球的另一邊只不過是和我們同樣的人的家
※好書一起讀(214):初識營銷
TAG:阅读分享 |