從囚徒困境到博弈論

06-05

（2003年9月10日）今天我要講的是博弈論（也叫對策論），這本來是一門很深的學問，在學校里至少要講一個學期，甚至還有專門的博士課程。但在這裡我不可能講這麼多，我只能做一個簡單的概括，把它的基本概念、研究方法和一般規律給大家介紹出來。從囚犯難題說起我們先從一個常見的案例說起。這個故事是這樣的：有一個富人在家中被謀殺，他的財產被盜。警方在偵訊過程中抓到兩名嫌疑犯：甲和乙，並在他們家中搜出了被盜的財物。但甲、乙都否認殺人，聲稱他們進入被害人家中時那個人已經死去。所以警方肯定他們至少犯下了盜竊罪，但對他們是否殺死了被害人並沒有把握。於是警方在把他們隔離的情況下分別對他們表示：因為偷東西已經有確鑿證據，這將被判刑2年；如果拒不承認殺人而被另一方檢舉，將被判刑20年，而檢舉的一方可以受獎無罪釋放；如果雙方都坦白殺人，將各被判刑 10年。這樣，甲乙可能面臨的判決如下：

通過分析可以看出，最後的結果是甲乙都會承認殺人。因為對本人來說，不管對方承認不承認，自己承認總比不承認好。如果對方不承認，自己承認相比不承認等於從判刑2年改為無罪釋放；如果對方承認，自己承認相比不承認相當於從判刑20年減到了10年。這樣，對甲乙雙方來說，最佳的選擇都是承認殺人。這個結果與他們是否真的殺了人無關，即使他們沒有殺人，也會承認殺人。由於特定的選擇條件，本來對雙方最有利的結局（都不承認殺人，各被判刑2年）不會出現，出現的是對雙方都不利的結果，這就是所謂的「囚犯困境」。我們想想看，「文革」時期坦白從寬、抗拒從嚴的政策使一大批人承認了自己從沒有犯過的「罪行」，原因就在於此。「囚徒困境」具有非常深刻的含義，它說明了為什麼短視地追求自己利益將導致對大家都不利的結局。現實中類似的例子還很多，比如為了圖一時的方便，大家都不按交通規則行事，結果導致交通癱瘓；再比如前些年很多單位拿國家的錢爭相發獎金，結果導致了全社會的通貨膨脹。不同的是，在囚徒困境模型里只涉及兩個人，如果這種情況重複出現，兩個人很容易從失敗中吸取教訓，從選擇承認殺人改為不承認，這樣，處境就可以改善。而生活中很多類似囚徒困境的情況涉及到成千上萬的單位或個人，要想讓他們一致地改進策略就非常困難。在囚徒困境中，雙方都承認殺人是一個穩定的結果，因為任何一方一旦單獨離開這個選擇，只會使自己的處境變得更壞。在多次重複的情況下，雙方可能通過吸取教訓改變策略（都不承認罪行），使雙方都能受益。然而這又是一個比較脆弱的均衡，因為任何一方一旦突然改變策略，承認罪行，又可以立刻得利。但這種利益也不會長久，到了下一次，對方必然也承認罪行，從而回到最初對雙方都不利的狀況。所以，除非雙方都能著眼於長遠利益，並克服僥倖的心理，他們才可能走出困境。博弈論的基本概念和分析方法「囚徒困境」其實是博弈論里一個特定的例子。博弈論又叫對策論，它研究兩人或多人對局時，各方如何決定自己的策略，以求得最佳結果。在博弈中各方都有幾種可供選擇的著法，各方雖然知道每種對策所導致的後果，但並不知道對方將選擇何種著法。它是對利益對立條件下人的選擇規律性的客觀研究，它不偏袒任何一方，它既要考慮如何進攻，又要考慮如何防禦。博奕論中的對局（game），定義為有一定人數參加（不是變換著的）、每人有一定數目的策略（strategy）。各方的策略給定後，稱為一個局（play）。對所有發生的局都有一個支付數量（payoff），就稱為對策。下面我們再舉一個例子來說明博弈論的分析方法。設甲、乙二人參加一種遊戲，甲有兩種選擇：A1或A2；乙也有兩種選擇：B1或B2。遊戲規則規定：如果甲選擇 A1，乙選擇B1，則乙付給甲1元；如果甲選擇A1，乙選擇B2，甲付給乙1元；如果甲選擇A2，乙選擇B1，乙付給甲2元；如果甲選擇A2，乙選擇 B2，甲付給乙2元。我們可以把遊戲規則用一個方陣來表示：

這個方陣我們稱為甲的支付矩陣，矩陣中的正數表示甲的所得、乙的支付，而負數表示甲的支付、乙的所得。類似地，可以想像，乙也有一個支付矩陣，其中的數字正好跟甲的支付矩陣反號。這樣，我們看甲乙二人會如何選擇。對乙來說，最有利的選擇是B2，這樣他肯定贏錢，至少能得到1元。如果選B1，他不僅不可能贏錢，反而必須付錢。對甲來說，最有利的結果是A2B1，但他知道，乙不可能選B1，所以他只能選A1，這樣能把損失降到最低。所以，最後的結果是A1B2，甲付給乙1元。對這個結果，雙方都沒有改進的餘地，如果改變策略只能使自己的處境變得更糟，因而都不願意改變策略，我們稱之為納什均衡。在例中，對任何一個局，一方的收入等於另一方的付出，參與各方損益之和為零，稱為零和對局。容易看出，零和對局的特點一方的支付矩陣為另一方支付矩陣的反號。我們知道，經濟活動中的商品交換不是零和對局。參與交換的人都能從中得益，所以他們才有參與的積極性。股票市場也不是零和對局。一個正常的股票市場，從總量上看，投資者賺的錢一定大於賠的錢，這是因為股票市場能促進資源優化配置，為社會創造了財富。前面支付矩陣得到的結果－1（A1B2）還有一個特點，它是所在行中的最小值，又是所在列中的最大值，我們稱之為鞍點。當支付矩陣有鞍點時，雙方將穩定在這個點上，不再移動。此策略稱為博奕對局的穩定解，簡稱解。較複雜的博弈方式：混合策略對於沒有鞍點的對局，雙方將採取碰運氣的方式混合使用各種策略。下面舉一個例子：

在這個矩陣中，找不一個點，在所在行中為最小，同時在所在列中為最大，所以它沒有鞍點。這個對局沒有一個穩定的解。設想一下，如果甲選擇A1，乙將選擇B1；如果乙選擇B1，甲又會變為A2；如果甲變為A2，乙又會跑到B2；如果乙到了B2，甲又會選擇A1……如此往復，永遠找不到一個穩定的解。對這樣的對局，雙方無法推測對方的策略是什麼，因此只能碰運氣，混合使用各種策略。值得注意的是，混合策略也有均衡解，即按概率分配每種策略，使得結局為最優。這種情況可以引用一個案例來說明（本例為講座後收集補充）。我們來看一個犯罪者與警察的支付矩陣（假定犯罪者在警察休息時一定作案成功，在警察巡邏時作案一定會被抓住）：

這個矩陣的數字含義表示：警察巡邏，犯罪者不作案，雙方都沒有收益也沒有損失；警察巡邏，犯罪者作案，警察因抓到罪犯受到表彰，得到效用2單位，罪犯被判刑喪失效用2單位；警察休息，犯罪者不作案，警察休息的很愉快得到效用2單位，犯罪者沒有收益也沒有損失；警察休息，犯罪者作案，警察因失職被處分而喪失效用1單位，罪犯犯罪成功獲得效用1單位。這個博弈是沒有納什均衡的。但是，如果警察知道犯罪者以p的概率選擇作案（不作案概率就為1-p），他該怎樣採取自己的行動？對警察而言，巡邏的預期效用為0×（1-p）+2p= 2p，休息的預期效用為2×（1-p）-1×p=2-3p。顯然，當2p>2-3p即p>0.4的時候,警察最好選擇巡邏；反之2p< 2-3p即p<0.4的時候，警察寧願選擇休息。假設警察應以q的概率巡邏（休息的概率就為1-q），那麼犯罪者最好的行動是什麼？他作案的預期效用是-2×q+1×（1-q）=1-3q，不作案的預期效用為0×q+0×（1-q）=0。顯然，當1-3q>0即q<0.33時，他的理性選擇是作案，反之不作案。在這個博弈中，警察以0.33的概率巡邏0.67的概率休息，犯罪者以0.4的概率作案0.6的概率不作案構成一個混合納什均衡。博弈均衡的一般規律為了總結求解零和對局的一般規律，我們再來看一個更複雜的例子。以下為甲的支付矩陣（乙的支付矩陣與此反號）：

在對局中，甲有4種選擇，乙有5種選擇，現在來看二人如何選擇自己的策略。甲作選擇時，會這麼考慮：如果自己選A1，對方為了最大限度降低損失，必然選B5。同理，如果自己選A2，對方必然選B3；如果自己選A3，對方必然選 B1；如果自己選A4，對方必然選B5。比較四個可能出現的結果（表中斜體字）：0、4、2、1，對甲最有利的是4，所以甲會選擇A2。乙作選擇時，將這麼考慮：如果自己選B1，對方為了最大限度受益，必然選A1。同理，如果自己選B2，對方必然選A4；如果自己選B3，對方必然選A2；如果自己選B4，對方必然選A1；如果自己選B5，對方必然選A3。比較五個可能出現的結果（表中粗體字）：9、6、4、8、8，對乙最有利的是4，所以乙會選擇B3。最後的結果是A2B3——乙向甲支付4，這是一個穩定解（也是納什均衡），無論甲或乙都不會離開這個策略，因為離開將對自己不利。支付值4有一個特點，它是各行的最小值中最大者，同時又是各列中最大值中的最小者，這就是鞍點。由此可以得出求解二人零和對局的一般方法：尋找支付矩陣各行中最小值中的最大者（Maximin），同時尋找各列中最大值中的最小者（Minimax），如果兩者重合，重合點就是對局的鞍點，此時我們稱之為純策略的均衡解。根據支付矩陣橫行的Maximin＝豎列的Minimax求解零和對局的規律，我們再來回顧前面第一個對局中的求解過程。在例中，甲選擇的每一個策略中都有一個損失最大的。他會比較所有策略中損失最大的結果中選損失最小的。其他策略可能有得益，但是也可能損失更大。如果對方是聰明的，就不會製造空子。所以甲將在橫行中選擇策略A1（如果選擇策略A2他可能損失2，現在頂多損失1），這是選擇最小值中的最大者，即 Maximin。乙選擇策略的原則也類似，他將找出同一支付矩陣各列中的最小者，然後比較這些最小值，找出最大的，即Minimax（也是對他自己的支付矩陣中的 Minimax）如果此結果與甲所選的結果重合，則該對局有解。穩定解所對應的支付值為對局的值。在上例中即為－1（A1B2）。博弈矩陣中Minimax＝Maximin代表最優均衡解的概念有著深刻而普遍的經濟學含義。市場均衡中需求和供給的交點即意味著Minimax of demand set（需求方最大值中的最小者）＝Maximin of supply set（供給方最小值中的最大者）。我們可以通過供求曲線的相交來說明這個道理。如圖：

D 為某商品的需求線，它代表商品的價格越低，願意購買的人就越多。例如，當價格為16時，購買者為4；價格為13時，購買者為8；價格為10時，購買者為 11……在這裡，可以把需求線看作一個連續變動的過程，當價格一點一點降低時，購買者在一點一點增加。需求線上的每一個點，既代表一個價格，又代表一個消費者的購買量，該價格是該消費者對該商品的最高出價，一旦售價高於此價格，消費者將放棄購買。所以，需求線代表著一組最高出價的集合，此集合中的元素從高到低排列，就構成了向右下傾斜的需求線。需求線上的每一個點表示最高出價（該點左邊的點的集合）集合中的最低價，也就是Minimax．再看供給線S，它代表商品的價格越高，願意出售的人就越多。例如，當價格為5時，出售者為6；價格為8時，出售者為9，當價格為10時，出售者為11…… 在這裡，同樣可以把供給線看作一個連續變動的過程，它意味著當價格一點點上升時，出售者會一點點增加。供給線上每一個點都代表一個出售者的最低售價，如果價格低於這個水平，出售者將放棄出售。所以，供給線代表一組最低售價的集合，此集合中的元素從低到高排列，就構成了向右上爬升的供給線。供給線上的每一個點表示最低要價（該點左邊的點的集合）集合中的最高價，也就是Maximin.通過市場交易，最後需求線和供給線的交點將形成均衡點，此時有11（個）人願意以10（元）的價格購買此商品，同時又有11（個）人願意以10（元）的價格出售此商品，市場將完全出清。均衡價格10既是每個購買者最高出價中的最低價，又是每個出售者最低要價中的最高價，這就是我們前面所說的Minimax ＝Maximin。此時，市場處於穩定狀態，且消費者剩餘和生產者剩餘達到最大，為最優均衡解。博弈論和信息經濟學的簡單應用下面來談博弈論和信息經濟學的一些簡單案例。有一個居民區，由於沒有安裝街燈，因此帶來了很多不便。於是管理部門準備通過集資來解決這個問題。但在管理者向居民們收費的時候，卻出現了問題：因為各個家庭的收入不同，具體情況也不一樣：有的上夜班，有的不上夜班，有的家庭老人婦女多，有的都是青壯少年……這樣，他們對街燈的需求不相同，管理者也就無法向他們收取統一的費用。我們可以想像，其實每個家庭對街燈給自己帶來的好處都有一個評價。據此，管理者可以讓他們自願進行出資報價，如果報價之和大於修建街燈的費用，則街燈可以設置，餘款按比例退回出資本人，這樣最為公平合理。但是問題在於，由於有搭便車的思想，各個家庭在報價的時候報出的數字往往少於其真實評價。例如，我本來覺得設置路燈對我的好處能值100元，但我只報60元，我希望自己少出點錢，別人多出錢，而我一樣能享受到街燈的好處。這個想法是比較「聰明」，但如果人人都跟我一樣想，街燈就可能因為經費不足無法修建起來。這種情況經常發生。如何讓大家都說真話呢？研究者提出這樣的辦法：管理者首先要向居民申明，如果報價之和超出修建街燈的費用，餘款按出資比例退回，多報多退，少報少退，這樣很大程度上可以減輕大家按真實估價報價的顧慮。但即便這樣，仍然可能出現報價不足的情況。這時候要採用多次博弈的方法：在保密條件下重複報價，第一次不行報第二次，第二次不行報第三次……這樣的重複報價對己無損，且因為各家各戶都希望街燈能修建起來，所以他們會願意參與重複報價，並逐漸提高出價，直到湊夠修建費用或達到他們的真實評價為止。經驗表明，上述方法在公共決策問題上能夠有效發揮作用，但也有少數情況不能達到目的（例如上面的例子中如果修建街燈的費用超出了居民的預期收益，則無法籌集足夠的修建經費）。這就是對策論和信息經濟學在現實生活中的一例具體運用。還有一種關於對策論的研究是對拍賣的研究。一般來說，拍賣有四種方式：英國式、荷蘭式、最高價封標拍賣和第二價格封標拍賣。英國式拍賣是我們最為常見的：由拍賣師從低到高公開叫價，潛在的買主如果認為價格可以接受，就舉牌應價。通過買主的競爭，到最後只剩下一個應價者的時候，買賣雙方就按此時的叫價成交。這種拍賣一般都設定最低價，如果連最低價也無人應價，拍賣就中止，並不進行交易。這種拍賣適用於藝術品、土地等時效性不是很強的商品。另一種公開叫價的拍賣還有荷蘭式拍賣：它由拍賣師從一個相當高的價位開始叫價，從高到低，一旦有第一位賣主接受叫價，就按照這個價格成交。荷蘭式拍賣適用於時效性比較強的商品。如鮮花和活魚這樣的商品，不及時脫手不行，因此常採用荷蘭式拍賣。最高價封標拍賣採用書面投標的形式，先由買家分別保密報價，然後公布投標結果，由出價最高的買家購得商品。第二價格封標拍賣跟上面的最高價封標拍賣類似，不同的是：前者是按最高出價成交，而後者是按次高價成交。舉例說：四個人競購一個拍賣品，甲乙丙丁分別秘密出價6、7、8、9，開標後，出價最高的丁將按次高的出價8購得拍賣品，這就是第二價格封標拍賣。這種方式非常有利於杜絕僥倖心理，保證買方以對商品的真實估價參加競拍。上述四種拍賣方式各有不同的適用場合。之所以發展出形式眾多的拍賣方式，也是出於鼓勵傳遞真實信息的需要，以達到準確估價，價高者得的目的。而有趣的是，根據對策論和信息經濟學的研究：在競購者行為理性和數目眾多等條件下，上述四種拍賣方式導致的拍賣人的預期收入都是相等的。或者說，四種拍賣的效率都是相同的。補充總結最後我們來回顧一下囚犯難題所體現的深刻意義。囚徒困境的特點，是博弈雙方互不信任，採取損人利己的策略，最後導致對雙方都不利的結局。這個例子可以很好地說明道德的特點和它產生的過程。道德的特點是人人遵守、人人受益，但它可能需要犧牲個人的短期利益。曾經有學者指出，人和動物的區別，不是使用工具或使用語言，而是人有道德，知道通過抑制短期利益獲取長期利益。最初，人跟動物一樣，是在野蠻爭鬥的「叢林規則」中生存。後來，通過重複博弈和長期學習，人們意識到道德的重要性，把道德秩序建立起來，才使人真正從動物世界中分離出來。這一過程了經歷很長的時間。道德的建立非常困難，而它的破壞卻很容易。因為在大家都遵守道德的時候，個別人不講道德反而能獲益。例如在馬路上，大部分車輛都按順序行駛，一旦個別車輛加塞插隊，它就能比別人走得快。此時如果守規矩的車覺得吃了虧，也會跟著不守規矩。大家都不守規矩，都加塞排隊，就等於道德完全失效。結果如何？不僅沒有人能走得快，反而會使交通陷於癱瘓，大家都走不了。所以缺乏道德的狀態也不會一直持續下去，新的道德秩序終究會建立起來。道德就是在反覆試錯和淘汰的過程中不斷發展的。專門的研究還表明，在社會發展的長久歷程中，道德狀態並不完善，往往是大部分人能遵守道德，小部分人道德敗壞，但在一定限度內，社會的穩定和發展不會遭到破壞。這說明道德秩序是一個連續性變數。這是一個非常重要的結論。它告訴我們：道德水平的提高不是一蹴而就的，良好的道德風尚要靠每個人的行動一點一點去積累。特別在整個社會風氣惡劣的時候，我們不能光抱怨別人，而應該從自己做起，從身邊做起，奉行良好的道德規則。這樣，每多一個講道德的人，我們的社會就會朝好的方向轉變一步。
推薦閱讀：

※多空博弈體系
※3人聚餐後，想玩一個遊戲來決定誰買單，這個遊戲公平嗎？
※博弈論里的囚徒困境怎麼解決？
※這種情況還算囚徒困境嗎？
※囚徒們的信仰是什麼？

TAG:博弈論 | 囚徒困境 | 困境 |