怎樣在囚徒博弈中控制對手？（知乎 Live）

01-29

「囚徒困境」是博弈論中的經典問題，這個模型告訴我們一個深刻的道理：個人最佳選擇（背叛）並非團體的最佳選擇（合作）。在與之相關的研究中，「重複的囚徒困境」問題被許多不同領域的科學家們廣泛關注，因為相關研究可能為我們理解社會合作的形成提供重要的線索。在重複博弈中，我們可以選擇各種不同的策略，如拒不合作、一報還一報、輸去贏留等，這些策略會對「合作」的形成產生不同的影響。在本周日（2017 年 5 月 21 日北京時間 21:00），我將為各位朋友帶來一場標題為「怎樣在囚徒博弈中控制對手？」的 Live，這也是知乎 Live 引入退款機制後我所舉辦的第一場 Live。

2012 年，著名的物理學家 Freeman Dyson 及其合作者 William H. Press 提出了一種新的博弈策略，即所謂「零行列式策略」。在這種博弈的過程中，博弈的參與者根據上次博弈的結果，按照一定的概率選擇不同的策略（合作或者背叛），通過某種特殊的概率選擇，博弈中的一方可以甚至可以「操縱」最終博弈的結果，如下圖所示：

上圖來源：Dong, Hao, Rong Zhi-Hai, and Zhou Tao. "Zero-determinant strategy: An underway revolution in game theory." Chinese Physics B 23.7 (2014): 078905.

（a）在左圖中，博弈者 X 採用零行列式策略，可以成功地使得 Y 的收益固定為一個恆定值，正如我們在標題中所說的「控制對手」，此時 X 本人的收益卻反而並不確定，他的收益由 Y 在博弈中的策略選擇所決定，但不管 Y 怎樣選擇，他無法改變自己在這次博弈中的收益。

（b）在右圖中，博弈者 X 採用零行列式策略中的「剝削」策略，成功地使得收益曲線在對角線的下方，換句話說，X 的收益此時將總會比 Y 更高（或者相等）。這種策略給我們很多啟示，如圖所示，當兩人的收入差距越大時，整體收益之和最大化，這類似於「讓一部分先富起來」的想法。

假設被剝削的一方發現了自己被剝削的事實，他們也採用類似的方法去反抗剝削，那麼會出現怎樣的結果？如果兩人都能很好地貫徹這種策略，最終 X 和 Y 的收益應該是相同的，但這種結局卻是更少收益的一種平均主義。有沒有辦法可以促進合作的產生和集體利益的最大化呢？如果我們考慮「慷慨」地向對手提供幫助，讓對手的收益總比自己更多，並且只有當雙方密切合作時，才可以讓整體獲得最大的收益，在這樣的策略下大家有可能會更自發地選擇去合作。

直觀地想像起來，與「剝削」相比，「慷慨」更容易引起合作，然而有趣的是，科學家們發現，「剝削」卻能像化學反應中的「催化劑」一樣，讓系統變得不穩定，最終反而讓合作行為在種群中湧現。例如在周濤老師的《時間尺度的多樣性促進零行列式策略在網路系統中湧現》中就提到這樣一個有意思的結論：

考慮獲得高收益的個體更傾向於維持當前行為而減緩策略演化速度……由於個體收益與時間尺度之間的反饋作用，無標度網路中大度節點更傾向於採取剝削策略，促使合作行為在異質的無標度網路中更容易湧現。

總之，從上面的例子我們可以看到，「零行列式」策略無比強大，可以實現對對手的「剝削」，即在博弈時，無論對方如何反抗，我們總能做到比對方更勝一籌；又或者反過來，我們選擇「慷慨」策略，讓對手的收益總比自己更多；抑或是可以通過自己的策略選擇將對手的收益控制為一個固定值。在本次知乎 Live 中，我將主要圍繞囚徒困境的重複博弈以及與「零行列式」策略展開介紹。

本次 Live 介紹的內容主要基於周濤老師組的一些工作。在本次 Live 的講解中，主體部分參考了榮智海老師在2015年一次報告的內容（網址： labcomplex.org/wp-content/uploads/2015/04/2015.04.04.rong_.zd_.pdf）。本次 Live 的內容主要包括以下內容：

囚徒困境：合作與背叛
重複的囚徒困境與合作的進化
零行列式博弈的基本圖像
零行列式博弈相關的數學推導

附上此前幾次 Live 的入口，也歡迎各位新老朋友報名參加。另開放 2016 年我的所有 Live 的 PPT 材料（鏈接: https://pan.baidu.com/s/1nuCeIvR 密碼: xtfs），歡迎各位朋友批評指正。

數據驅動的集體行為研究

複雜系統的簡化模型（1）：無處不在的「隨機行走」
複雜系統的簡化模型（2）：用「伊辛模型」理解複雜系統
複雜系統的簡化模型（3）：「複雜網路」視角下的日常生活
複雜系統的簡化模型（4）：沙堆模型：臨界與智能
複雜系統的簡化模型（5）：元胞自動機與「混沌邊緣」
複雜系統的簡化模型（6）：理解網路的一種新視角
複雜系統的簡化模型（7）：熵：時間、信息和生命
複雜系統的簡化模型（8）：集體行為的數學模型
複雜系統的簡化模型（9）：重整化：從尺度變換到特徵提取
複雜系統的簡化模型（10）：洞察突變發生前的預警信號
複雜系統的簡化模型（11）：觀念擴散和傳播的統計模型
複雜系統的簡化模型（12）：「反饋」與複雜系統的動力學
複雜系統的簡化模型（13）：怎樣在囚徒博弈中控制對手？

學術視角重讀凱文·凱利《失控》

解讀精彩豐富的《混沌》現象

題圖來源：Prisoner』s Dilemma