博弈論——納什均衡、囚徒困境

06-12

這個周，我們說說「博弈論」

還是之前的套路，我們會舉兩個例子，說下「納什均衡」和「囚徒困境」

...

第一個例子

A公司和B公司在人工智慧領域，都有自己獨有的技術壁壘，由於這個領域目前成熟應用還相對較少，兩個公司的負責人商量共同投入，培育市場。

如果各投1個億，大舉宣傳推廣，預計可以給各自帶來2億收入，減去投入的1個億，還能各賺1個億；

如果只有一家投入，宣傳效果就會差很多，可能投入1個億，賺5000萬，相當於賠了5000萬，但是沒有投入的那方酒可以搭上宣傳效果的便車，輕鬆賺到2000萬；

如果兩家都不投入，就不賺不賠。

...

你覺得最終的結果會是什麼？

沒錯，你猜對了，A和B公司，都沒有投入。

為什麼呢？明明是大家都投入1個億是最優策略，為什麼最後都選擇了「不投入」這種「損人不利己」的策略呢？

納什均衡

納什均衡就是一種博弈的穩定結果，誰單方改變策略，誰就會損失。

雖然看上去兩家各投1個億是最優的策略，也就是經濟學上所謂的「帕累托全局最優」，但你會發現who care? 我們大多只在乎一件事：如果我投了而他沒投，我就死了。這個風險承受不起。博弈到最後，我不投入，你不投入，大家都不投入。

...

那要怎麼做？

其實很簡單，改變一下制度：比如簽署違約條款：未投入者，賠償對方5000萬。

這時，「共同投入」就成為新的「納什均衡」，而且是一個「好」的均衡。

稍稍改變一下規則，就能促成一個「好」的「納什均衡」，有了這個視角，你回過頭再去看身邊的事情，也可以發現，在不同的「制度設計」下的那些「好的均衡」和「壞的均衡」。

比如「產銷分離」，目的是技術做好產品，銷售開拓市場，但在這個制度設計下，產品做出來銷售賣不出去，銷售拿到的商機又和產品不匹配，博弈到最後，做技術的怪銷售不懂產品，做銷售的怪技術不懂市場，這就是一個「壞的均衡」。怎麼辦？「產銷一體化」來試圖解決這個問題。技術團隊根據銷售拿到的商機和市場信息來打磨完善產品，最終產品做的好，銷售也賣的好，最終形成一個「好的均衡」。

小結一下

納什均衡，就是一種博弈的穩定結果，誰單方改變策略，誰就會損失。

自私，可能會導致「好的納什均衡」，也可能會導致「壞的納什均衡」，關鍵是「制度設計」。

...

第二個例子

A和B是犯罪同夥，被隔離審訊。

如果A和B都坦白罪行，會都被判刑8年；

如果一人坦白，一人不坦白，坦白的人直接釋放，不坦白的重判15年；

如果兩人都不坦白呢，則證據不足，都只判1年。

這，就是著名的「囚徒困境」。

...

雖然「都不坦白」是最優策略，但「都不坦白」是經不起考驗的最優策略：我如果單方選擇背叛，將立即獲釋，誘惑太大；而且就算我守口如瓶，萬一他背叛了呢？我會被判15年，風險太高。

「都坦白」呢？那兩人都獲刑8年。這時，如果一名囚徒單方決定守口如瓶，他的8年刑期將立刻變為15年，而另一人則被釋放。這一點好處都沒有。所以，「都坦白」，是囚徒困境中唯一穩定的「納什均衡」。

那，這背後的博弈論原理是什麼呢？

囚徒困境

一個典型的囚徒困境，其實就是滿足兩個條件的博弈：

1、背叛誘惑 > 合作報酬

合作報酬是判刑1年，背叛誘惑卻是立即釋放。

2、受騙支付 > 背叛懲罰

背叛懲罰是判刑8年，受騙支付卻是判刑15年。

這就是「囚徒困境」的基本原理。

...

那，要怎麼「破」？

1、讓「合作報酬 > 背叛誘惑」

我們看看電影里常見的橋段：

你很講義氣，死不招供，然後就會有人給你帶話：大哥說了，你家裡的事情不用擔心，老人、嫂子、孩子，我們都會照顧好。你出來那一天，還會有一大筆dollar...這就是提高「合作報酬」；

一個坦白了的人剛被釋放出來，坐上自己的汽車，汽車發動的一瞬間，bang！！！就算把你釋放出來，也一樣沒有好果子吃，這就是降低「背叛誘惑」；

2、讓「背叛懲罰 > 受騙支付」

我們還是看看電影裡面的橋段：

電影里的古惑仔們，大多都很將義氣，崇尚「忠義」，不講義氣會被整個江湖唾棄，這種文化會在一定程度上，增加「背板懲罰」；

什麼？你被人出賣了？大哥除了會給你錢，幫你贍養家人之外，你的仇人就是大哥的仇人。不管他走到天涯海角，你放心，這仇我幫你報了！這，就是降低「受騙支付」。

小結一下

「囚徒困境」就是「背叛誘惑 > 合作報酬」，「受騙支付 > 背叛懲罰」。

怎麼破？

第一，提高合作報酬，降低背叛誘惑；

第二，提高背叛懲罰，降低受騙支付。

你，學會了么？

...

好了，今天就說到這。

明天，我們說說：智豬博弈、公地悲劇。

本文核心觀點內容出自
得到APP《劉潤·5分鐘商學院》
我曾經所說的，可能都是錯的
小鑫說點事兒
2017.11.27