【概覽系列】《策略思維》——即時博弈裡面的囚徒困境與無限重複下的優勢策略
電話鈴聲響了,你接起來。
但是,「這該死的運營商!」網路斷開了,電話連接中斷,你想也沒想就直接重撥過去。
「對不起,您撥打的電話正在通話中,請稍後再撥!sorry,the number you have dialed is busy……」
你忍不住罵出一聲「shit!」。
第一次你接起電話,這是一個回合制事件;第二次你撥號的時候,這時候「打電話」這件事情,變成了你們兩人的即時制事件。
在回合制事件之中,對方或者你先選擇打電話,然後另一方接起來。但是在即時制的情況下,兩人都面臨兩種選擇——撥過去或者是等待對方撥過來。
這種時候總是會出現那種詭異的「神同步」:當你想打過去的時候,對方也想著要打過來;當你想著等對方打過來的時候,對方也在等待……
在即時制的事件之中,我們不得不在毫不知曉對方決定的情況下採取行動,等到彼此發現對方做了什麼,再想做什麼改變已經太遲了。
這種即時博弈,最為出名的就是「囚徒困境」,所有的即時博弈模型,近乎都是從這一原型之下推導而出。
一、囚徒困境我們先簡單介紹一個標準的囚徒困境模型。
警察抓住兩個囚犯,現在要單獨審問兩個囚犯。並且因為某些法則,如果兩個囚犯拒絕認罪,那麼警方只能把兩人各關兩年。
如果一人坦白,另一方死不認罪的話,那麼坦白的人將獲得嘉許,當場釋放。而嘴硬到底的那一人,則會被判刑五年。
如果兩人都坦白的話,兩人都將判刑三年。
我們將兩個囚犯分別簡化成A跟B,畫出博弈論在分析即時博弈常用的博弈矩陣。如下:
其中,每個格子裡面左下角是A的結果,右上角是B的結果。
二、優勢策略通過上面那張表單,我們可以看到,對A而言,認罪有兩個結果:-3和0。而同時,不認罪的兩個結果分別對應的是-5跟-1。
其中-3優於-5,0優於-1。
在這種情況下,我們將結果總是比較好的那一列所對應的策略,稱之為優勢策略。
我們簡單理解一下這個優勢策略的含義:不管對方怎麼選擇,優勢策略的結果都要好過於其他策略。在上例之中,對A而言,B認罪的話,自己認罪得到-3,自己不認罪得到的是-5,認罪好過於抵賴;B如果不認罪,自己認罪得到的是0,不認罪得到的是-1,還是認罪得到的結果更好。
而另外的處於明顯劣勢地位的策略,稱之為劣勢策略。
我們划出一根線,消去那些所謂的劣勢策略,得到這麼一張圖:
此時我們看到即時博弈裡面有三個框之中都出現了刪除的實線,最後只留下唯一一個框:兩人同時認罪的框。
也就是說,這兩個囚徒在追求自己最佳策略的時候,往往會得到兩人雙雙入獄判刑的結局,這就是博弈論裡面最為基礎的囚徒困境。
三、納什均衡回到最開始我們提出的打電話的例子,我們假設電話打通雙方收益都是1,打電話打不通兩方的收益都是0。
畫出博弈矩陣圖:
有意思,你仔細觀察,發現無論是對A還是對B,都沒有一個優勢策略:(0,1)的組合,跟(1,0)的組合比起來,顯然是毫無優勢。
這種情況下,我們沒有辦法消去所謂的「劣勢策略」,整個矩陣還是四個情況擺在我們的眼前。
但是從兩個人的整體上來看,兩個(1,1)相對起(0,0)就是「雙方的優勢策略組合」,這兩個結果下誰改變都對自己沒好處。比如說A選擇撥打,B選擇等待,A此時改變自己的選擇,從1到0,沒好處,B從等待變成撥打,也會導致從1到0,也沒好處。
這兩種雙方的優勢策略組合可以稱之為是納什均衡:(撥打,等待)和(等待,撥打),就是這一博弈裡面的納什均衡。
好了,基本的概念性玩意兒到此為止。。(不能說看過一期概覽連博弈論裡面的一些基礎定義都不清楚啊,很不想寫這種乏味的概念陳述)
四、現實限制下的囚徒困境:懲罰在前文之中的囚徒困境裡面,那只是一個極度簡化的模型,現實裡面的情況比起模型要複雜許多。
起碼我們看過那麼多的香港電影、TVB劇,基本上沒見過這麼老實合作的「犯罪嫌疑人」,他們往往拒不認罪,為什麼?
因為「懲罰」的存在。
前面我們提出優勢策略的時候,0(無罪釋放)相對於-1(關一年)是優勢策略,但是這只是理想情況下,考慮到現實——萬一放出來會被打,那無罪釋放還是一個優勢策略?
A此時的思考方式就成了,放出去一定會被認為是招了,那麼自己的其他同夥一定會懲罰自己,那麼此時,招供就不是一個優勢策略。
牢獄的懲罰和出去之後同伴的打擊報復,都是懲罰。如果同伴之間的懲罰來的更為嚴重的時候,不招供才是這種情況下的優勢策略。
這也就出現了我們在電影裡面經常碰上的情況,罪犯們往往寧願蹲監獄都不大願意招供,犯罪團伙的懲罰機制,有力的制止了其成員在被警察抓住之後選擇「招供」的傾向性。
五、無限重複的囚徒困境如果無限重複,用囚徒的例子已經不合適了。(牢底坐穿嗎?)
還記得《自私的基因》概覽么?放蕩和羞怯的雌性個體,忠貞與薄情的雄性個體。
不過這裡不用那個例子,為了簡化,我們用一個銀行家的例子。為了簡化篇幅,直接上圖:
如同上面的囚徒困境,合作是會被每個人刪除掉的劣勢策略。
但是如果這個遊戲不是一輪位置,而是無限重複的時候,會是怎麼樣的局面?這個「重複博弈」更為複雜,但這個複雜性里孕育著希望。
這個時候,A跟B並不是敵人,雖然他們還是追求每個人的最大收益,但是對方不可能永遠是傻瓜——選擇合作,而自己選擇背叛。
誰都清楚,無限的背叛下去,雙方都討不到好。
那麼這就引入了一個新的辭彙——信任。
我們會從彼此過去的行為中,判斷對方是否值得信任,確定自己在這一輪裡面打出什麼樣的策略,同時我們在事實上也監管著對方的行為。
我們可以信任、背叛這樣循環,可以每十次信任打出一次背叛,可以……
哪種綜合策略可以獲得最好的收益?
六、針鋒相對策略阿克塞爾羅德(一個政治科學家)為此舉辦了一個實驗:每個人提交自己的策略,把這些策略輸入計算機,然後計算機讓它們自動演化,在若干次循環之後計算每個策略的得分。
最後得分最高的是這麼一個策略:針鋒相對策略,又叫以牙還牙策略。(來自於心理學家和博弈學家阿納托爾)
這個策略在第一回合會採取合作行動,之後每一步都會重複對手上一局的策略。
這一場比賽可以讓我們明白一個事情:在重複的囚徒困境裡面,善意和寬容是得到一個好結果的必須要素。
不過在這裡,事後的研究卻也認為,針鋒相對策略並非是一個非常完美的策略,之所以在計算機的模擬之下能夠獲得最後的勝利,跟計算機的「從不犯錯」有很大的關係。
這個策略有個致命的疏忽:誤會。
設想一下,在現實裡面使用針鋒相對策略的時候,誤會對方行為一次?(那麼兩個針鋒相對者會無窮無盡的重複選擇背叛下去)
針鋒相對策略缺少的是一個宣布「到此為止」的方法。
具體在現實之中,作者也提出了一個比較複雜的策略,這個策略從合作開始,總共四條:
1、第一印象——第一輪就背叛的對方絕對不可接受,直接進入針鋒相對策略;
2、短期——任何三輪當中出現兩次背叛不可接受,轉向針鋒相對策略;
3、中期——過去二十輪之中出現兩次背叛不可接受,轉向針鋒相對策略;
4、長期——過去一百輪當中出現五次背叛也是不可接受的,轉向以牙還牙策略。
末、小結總體來說今天這一篇文章還是比較多的摻雜了理論和概念,不過非常抱歉,這也是不得已而為之。
無論是囚徒困境、納什均衡,還是無限重複的囚徒困境,這些是我們用知識去解釋現實裡面不得不涉及到的一些博弈論基礎。
本周,將給大家帶來明理系列第四期——現實世界裡面的博弈縮影。
不管是在《自私的基因》裡面出現的進化抉擇傾向,還是當下熱門的「消費升級」,甚至還有「房價問題」,這些都可以用前面提到的那幾個博弈論的基礎概念進行解釋和預測。
讀書不是為了讀死書,而是為了用來構建我們的知識體系和預測機制。
明天,將給大家帶來這一期概覽系列的最後一篇——博弈之下的自由市場失靈。
在《國富論》之後,人們對自由市場經濟裡面那個「看不見的手」充滿了盲目的信心,人們認為每個理性人在追求個人經濟最大化的時候,同時也會讓整個社會變的更好。
儘管一次次經濟危機的出現讓人們知道,這隻看不見的手並非上帝他老人家的,但是我們依舊對其充滿信心。
但是博弈之下人們的取捨,最終卻總是會帶來一些「並不是對所有人更好」的結局。
想要知道具體是怎麼一些情況,還有為什麼?那就期待明天的推送吧!
你的閱讀時間就是最好的讚美。
倘若你意猶未盡,還請點擊上方藍色公眾號名字:「你的文具盒」——
關注我們,概覽群書,長見識;修身明理,知是非。
推薦閱讀:
※諸葛亮的三分策略是不是註定不成功的?為什麼?
※如果你不得不冒一點風險,通常是越早冒險越好
※靠譜的人生指南:萬花筒策略
※哪些遊戲策略可以應用於科學研究?