從自私走向合作（1）

06-19

--「囚徒困境」博弈的啟示榕城老應1。問題的產生

我在這裡講：從自私自利的觀點出發，用博弈理論來研究他們怎麼能夠走向合作。有人轉身就走：「小兒科！合作比單幹強，取長補短，我上小學時就懂。」

「要是兩人都是賊一樣精，惦記著佔便宜要比起老實巴交地合作來得合算，還能合作嗎？」

我的朋友看到這就煩。用自私的博弈來處理人際關係？想想都覺得臟。另一位朋友不無善意地說：「從學術上研究博弈是很崇高優雅的。用在戰爭情有可原。對於經濟也是合適的。把它用在人際關係？嘖嘖嘖，不說也罷。須知人們有一些原則觀念是無價的，不能以利害得失來衡量的！」

我怯怯地問一句：「你默完子曰，划了十字，念過阿彌陀佛，事事忍讓，對方還是咄咄逼人，總把善意的你當作二百五，你怎麼辦？」

你總要在幾種應對之中選一吧？這就是博弈所考慮的。再說，這無價的善念是怎麼來的？人之初性本善？讀書明理，老人傳下來的？然而從進化的角度，不論是自發於心還是受教於師，這些道德觀念能夠經歷千年流傳下來，一定是有其讓人有受益的道理，不然早就被生活磨難中淘汰掉了。這些道理就必須在博弈中贏出。

說博弈的目的就是損人利己，這其實有點誤解，博弈理論並非只研究你死我活的「零和博弈」。40年代馮·諾依曼（Von Neumann）奠基之作就包含了「零和博弈」和「合作博弈」，50年代納什（Nash)便擴展到非零和博弈，奠定了「非合作博弈」的基礎。非合作博弈講的是：參加博弈的人沒的商量各行其是，在選擇策略中不是追求勝過對方，而是考慮在別人也不犯傻的情況下怎麼讓自己得到最大的好處。當博弈不是「常和」時，利己未必要損人。

我這裡想用博弈理論教導真正精於算計的小人認同傳統道德。順便探討一下自然界的合作之謎。

×-×-×-×-×很牛很高尚吧？你且坐下聽我講博弈論怎麼處理這個問題。先說一個故事。

兩個強盜Bob和Al持槍搶劫，還來不及做案時就被蹲在那兒的警察逮著了。回到局裡，辦案的被局長罵得狗血淋頭：「你傻呀！還沒作案抓什麼？他們要都不認，最多算非法持槍判個一年。」辦案的苦著臉回去，將強盜隔離關在兩處，提溜Bob出來說：「老實招了，給你一個機會。要是Al抵賴，你去做污點證人，立功了就放你出去，他判十五年。要是Al也招了，立功不成也從寬，那就判你們十年。」轉頭也對Al說類似的話。你說Bob和Al會怎麼做？

兩個強盜「坦白從寬，抗拒從嚴」政策是學過，也明白警察沒有搶劫證據只能判他們一年。他們只有「招」與「不招」兩條路可走。Bob想：「要是Al慫了去招，我不招是十五年，不如也招了才十年。要是Al頑抗不招，我就是不招還得判一年，不如招了立功還能抵罪釋放。所以無論Al招不招，我溜溜地招了都比不招頑抗到底來得合算。」這個「招」的選擇在博弈論上叫「嚴格優勢策略」，無論什麼情況都不虧。Bob思慮一番決心不能吃虧，自然選擇了招供。Al也不傻，同樣的考慮也選擇了招供。他們都不想吃虧，結果都判了十年，錯失了相信對方合作一下大家都不招，只判一年更好的結果。

這個故事大約被是研究最多和最有名的博弈，正式的名稱叫「囚徒困境（Prisoner"s dilemma）」。那是Merrill Flood和Melvin Dresher在蘭德研究合作與衝突時構造的一個模型，普林斯頓數學家Albert W. Tucker1950年在斯坦福大學給一群心理學家說明選擇的難題時舉它作為例子。這個例子寫起來不到一頁紙，卻成為在二十世紀下半葉在社會科學中影響最大的一頁，而且在哲學，倫理學，生物學，社會學，政治學，經濟學，特別是博弈論各種課題文獻中反覆提起津津樂道。

明知合作能夠雙贏，但背叛能佔便宜得到更大收益不僅誘惑著當事人，而且還誘惑著你想合作的對方。無論出自貪婪還是出自自保都很難不走向對抗。這個難題並不是要犯了罪入獄時才會碰到。你和同事同做項目，人事關係，中美海洋戰略，台海雙邊關係，公司間價格大戰，群狼覓食，螞蟻抗敵都會遇到相同的局面。

在社會經濟，國家政治，人際關係，動植物間，甚至在微生物，細胞水平中，個體的得益不僅取決於自己的選擇而且還受制於對方選擇的情況幾乎無處不在，其間的個體除了自利自保之外別無更高的境界。個體有沒有智能這並不重要，作出錯誤選擇的本能已在生存壓力下被自然選擇淘汰。現在活著的倖存者在生存競爭博弈中收益是較高的，其行為策略可以很好地用非合作博弈來分析。所以我們下面從極其精明人們博弈得出來的結果，也適合於從國家到細胞所有的情況。

在很多的情況合作都比對抗有著更好的收益。在這些情況中「囚徒困境」是最讓人為難的局面，利益的誘惑讓人們背叛了合作，從可能的雙贏走向雙輸。如果我們能夠在這個局面找出一條合作之路來，那沒有誘惑不那麼為難的局面就更不在話下了。從五十年代開始，九十年代轉熱直到現在，合作是怎樣產生的，又是如何進化的，一直是熱門的研究課題。

×-×-×-×-×

好了，先介紹一下這個博弈的基本概念，以方便以後深入的討論。我不想照教科書念，盡量用日常語言將博弈論核心思想和論證邏輯揭露出來，讓你能輕鬆地長學問。

你和某人一起面臨著「合作」和「背叛」兩種選擇。雙方都選「合作」，大家都有好處，各得R分（Reward for mutual cooperation）。你選「合作」對方「背叛」，對方佔了你的便宜，他得T分（Temptation to defect），你得S分（Sucker"s payoff）。反之亦然。大家都不想吃虧，都要「背叛」，各自得了P分（Punishment for mutual defection）。這個局面可以列出一個表格如下：

某人

你

	合作	背叛
合作	R，R	S，T
背叛	T，S	P，P

這個局面叫著一個「博弈(Game)」。「你」和「某人」叫「局中人(Player)」或者「博弈方」。可能的選擇「合作」和「背叛」叫做「策略(Stategy)」。表格中的數值左邊是局中人（你）選擇相應那一行策略及對方選擇相應那一列策略時的得益，右邊是對方（某人）的得益，整個表格稱為「支付矩陣(Payoff Matrix)」。從博弈的觀點來看，策略的名字並不重要。支付矩陣中的具體數值對定性結果也不重要。重要的是他們之間相對的大小。當數值大小T > R > P > S時，這個博弈就叫做「囚徒困境」。博弈論研究的是局中人只考慮自己的得益時怎麼選擇自己的策略。用這個方法，前面Bob和Al的局面及公司價格大戰的支付矩陣分別表示如下。

Bob

	抵賴	招供
抵賴	-1，-1	-15，0
招供	0，-15	-10，-10

公司B

公司 A

	高價	降價
高價	5，5	1，6
降價	6，1	3，3

他們都是囚徒困境博弈。在價格大戰中，雙方都維持高價都能得5萬利潤，這個「高價」就是一般化模型中的「合作」策略，R=5。一方降價，採用的是「背叛」策略搶了高價要「合作」方的市場，這個T=6, S=1, P=3。

如果博弈各方具體選擇的策略組合使得博弈處在這樣的狀況：誰單方面的改變自己的策略都對自己沒有好處，那麼這個策略組合就稱為「納什均衡（Nash Equilibrium）」。這是非合作博弈的核心概念。一個有限策略的博弈不一定有嚴格優勢策略，但至少有一個納什均衡。一旦進入納什均衡狀態，從利益角度就難以單方面改變了。納什就憑著這個概念和存在性的證明奠定了非合作博弈的基礎，因此得了諾貝爾獎。

用前面故事裡Bob的相同思路可以證明：囚徒困境雙方都會明智地選擇「背叛」這個不需要玩概率的「純策略」。而這一對策略就是「納什均衡」，並且是唯一的。雖然要是大家都選「合作」，都會更好些（R > P)。但誰要是一廂情願相信對方會合作，結果被背叛了就會落入更慘的下場。

悲劇呀！囚徒困境博弈的納什均衡不就是告訴你：自私自利沒有好結果，但誰也身不由己地陷進去！

這困境就對亞當·斯密的「看不見的手」的原理提出問題了。這位經濟學大佬在《國富論》中說：「通過追求個人的自身利益，他常常會比其實際上想做的那樣更有效地促進社會利益。」而囚徒困境中我們看到的卻是：從利己出發的決定，結果是損人不利己。要都是這樣的話，就會動搖了西方經濟學的基石。

但是自然界自私的生物合作現象的確是廣泛地存在，這又該怎麼解釋？

×-×-×-×-×有人說：「我明白！你上面的例子是一鎚子買賣，小人也是難免有的。要還常來常往，就可能放棄眼前好處著眼於長遠利益。」

也對，這要用到重複博弈的模型。重複博弈講的是將相同的博弈重複地來玩，用於一直面對相同局面的情況。

讓我們用逆推歸納法來推理：考察最後一次的博弈，比如說第一萬次。無論前面怎麼樣，這最後一次不必為將來打算了，這也就跟一鎚子買賣一樣，所以大家都自私地選擇「背叛」。然後考察倒數第二，第九千九百九十九次。因為最後一次策略已定，那不管怎麼委屈自己也換不來回報了，所以還是能合算就多合算點，結果也是「背叛」。一直照此倒推到第一次，結果全是一溜的做小人不要合作的嘴臉。

博弈論的有限次重複博弈的一個定理就是用這個思路來證明的。有限次囚徒困境的重複博弈仍然因為自私而陷入無法合作的局面。

「唉！千萬不要和自私的人交往，一點虧都不肯吃，這樣逆推的算計，再多的交往也白搭。」

我的朋友不耐煩了：「早說了，這裡用不著這麼算計。君子喻於義，小人喻於利！能合作嗎？」

但人際關係和博弈考慮的都不是一廂情願就可以解決的問題。你怎麼知道對方是君子還是小人？如果是小人，你喻之於義能解決問題嗎？還有低等生物在囚徒困境的環境中也能合作，難道它們都喻於義嗎？

這合作現象仍然成謎，博弈論還有什麼招呢？