標籤:

怎樣在囚徒博弈中控制對手?(知乎 Live)

「囚徒困境」是博弈論中的經典問題,這個模型告訴我們一個深刻的道理:個人最佳選擇(背叛)並非團體的最佳選擇(合作)。在與之相關的研究中,「重複的囚徒困境」問題被許多不同領域的科學家們廣泛關注,因為相關研究可能為我們理解社會合作的形成提供重要的線索。在重複博弈中,我們可以選擇各種不同的策略,如拒不合作、一報還一報、輸去贏留等,這些策略會對「合作」的形成產生不同的影響。在本周日(2017 年 5 月 21 日北京時間 21:00),我將為各位朋友帶來一場標題為「怎樣在囚徒博弈中控制對手?」的 Live,這也是知乎 Live 引入退款機制後我所舉辦的第一場 Live。

2012 年,著名的物理學家 Freeman Dyson 及其合作者 William H. Press 提出了一種新的博弈策略,即所謂「零行列式策略」。在這種博弈的過程中,博弈的參與者根據上次博弈的結果,按照一定的概率選擇不同的策略(合作或者背叛),通過某種特殊的概率選擇,博弈中的一方可以甚至可以「操縱」最終博弈的結果,如下圖所示:

上圖來源:Dong, Hao, Rong Zhi-Hai, and Zhou Tao. "Zero-determinant strategy: An underway revolution in game theory." Chinese Physics B 23.7 (2014): 078905.

(a)在左圖中,博弈者 X 採用零行列式策略,可以成功地使得 Y 的收益固定為一個恆定值,正如我們在標題中所說的「控制對手」,此時 X 本人的收益卻反而並不確定,他的收益由 Y 在博弈中的策略選擇所決定,但不管 Y 怎樣選擇,他無法改變自己在這次博弈中的收益。

(b)在右圖中,博弈者 X 採用零行列式策略中的「剝削」策略,成功地使得收益曲線在對角線的下方,換句話說,X 的收益此時將總會比 Y 更高(或者相等)。這種策略給我們很多啟示,如圖所示,當兩人的收入差距越大時,整體收益之和最大化,這類似於「讓一部分先富起來」的想法。

假設被剝削的一方發現了自己被剝削的事實,他們也採用類似的方法去反抗剝削,那麼會出現怎樣的結果?如果兩人都能很好地貫徹這種策略,最終 X 和 Y 的收益應該是相同的,但這種結局卻是更少收益的一種平均主義。有沒有辦法可以促進合作的產生和集體利益的最大化呢?如果我們考慮「慷慨」地向對手提供幫助,讓對手的收益總比自己更多,並且只有當雙方密切合作時,才可以讓整體獲得最大的收益,在這樣的策略下大家有可能會更自發地選擇去合作。

直觀地想像起來,與「剝削」相比,「慷慨」更容易引起合作,然而有趣的是,科學家們發現,「剝削」卻能像化學反應中的「催化劑」一樣,讓系統變得不穩定,最終反而讓合作行為在種群中湧現。例如在周濤老師的《時間尺度的多樣性促進零行列式策略在網路系統中湧現》中就提到這樣一個有意思的結論:

考慮獲得高收益的個體更傾向於維持當前行為而減緩策略演化速度……由於個體收益與時間尺度之間的反饋作用,無標度網路中大度節點更傾向於採取剝削策略,促使合作行為在異質的無標度網路中更容易湧現。

總之,從上面的例子我們可以看到,「零行列式」策略無比強大,可以實現對對手的「剝削」,即在博弈時,無論對方如何反抗,我們總能做到比對方更勝一籌;又或者反過來,我們選擇「慷慨」策略,讓對手的收益總比自己更多;抑或是可以通過自己的策略選擇將對手的收益控制為一個固定值。在本次知乎 Live 中,我將主要圍繞囚徒困境的重複博弈以及與「零行列式」策略展開介紹。

本次 Live 介紹的內容主要基於周濤老師組的一些工作。在本次 Live 的講解中,主體部分參考了榮智海老師在2015年一次報告的內容(網址: labcomplex.org/wp-content/uploads/2015/04/2015.04.04.rong_.zd_.pdf)。本次 Live 的內容主要包括以下內容:

  • 囚徒困境:合作與背叛
  • 重複的囚徒困境與合作的進化
  • 零行列式博弈的基本圖像
  • 零行列式博弈相關的數學推導

附上此前幾次 Live 的入口,也歡迎各位新老朋友報名參加。另開放 2016 年我的所有 Live 的 PPT 材料(鏈接: pan.baidu.com/s/1nuCeIv 密碼: xtfs),歡迎各位朋友批評指正。

數據驅動的集體行為研究

  • 複雜系統的簡化模型(1):無處不在的「隨機行走」
  • 複雜系統的簡化模型(2):用「伊辛模型」理解複雜系統
  • 複雜系統的簡化模型(3):「複雜網路」視角下的日常生活
  • 複雜系統的簡化模型(4):沙堆模型:臨界與智能
  • 複雜系統的簡化模型(5):元胞自動機與「混沌邊緣」
  • 複雜系統的簡化模型(6):理解網路的一種新視角
  • 複雜系統的簡化模型(7):熵:時間、信息和生命
  • 複雜系統的簡化模型(8):集體行為的數學模型
  • 複雜系統的簡化模型(9):重整化:從尺度變換到特徵提取
  • 複雜系統的簡化模型(10):洞察突變發生前的預警信號
  • 複雜系統的簡化模型(11):觀念擴散和傳播的統計模型
  • 複雜系統的簡化模型(12):「反饋」與複雜系統的動力學
  • 複雜系統的簡化模型(13):怎樣在囚徒博弈中控制對手?

學術視角重讀凱文·凱利《失控》

解讀精彩豐富的《混沌》現象

題圖來源:Prisoner』s Dilemma

推薦閱讀:

基對 一方科幻No.1mDay
單個電荷運動產生的磁場問題?
人頭落地那一瞬間,大腦還有意識嗎?
學生物真的這麼沒有前景嗎?
你難以想像為了讓霍金說話,科技和他本人付出了多大的努力

TAG:科学 | 经济 |