博弈論研究

06-05

博弈論研究的是什麼？　　　　　　1994年10月11日，瑞典皇家科學院宣布，由於納什博士對非合作博弈理論中的均衡問題進行了開創性分析，與哈爾薩尼教授（ P rofessor JohnC．Harsanyi）和澤爾滕教授（ P rofessorDr． Reinhard Selten）分享了該年度的諾貝爾經濟學獎，獎金93萬美元。　　　　　　博弈論研究人們的策略互動行為。博弈論認為：一、人是理性的，即人人都會在約束條件下最大化自身的利益；二、人們在交往合作中有衝突，行為互相影響，而且信息不對稱。博弈論研究人們的行為，在直接相互作用時的決策，以及決策的均衡問題。換句話說，博弈論研究如何使得人們在市場經濟中，自願做出大家都遵守和實施的有效制度安排，以增進社會的福利的機制。　　　　　　博弈論是深刻理解經濟行為和社會問題的基礎。現在人們說的博弈論，一般指非合作博弈論。它的特徵是：人們行為相互作用時，當事人不能達成一個有約束力的協議。或者說，行為人之間的合約對於簽約人沒有實質性約束力。例如，現實中的非合作博弈問題的例子是，石油卡特爾歐佩克的產量協議，對於其成員國就沒有約束力。你心裡想什麼我不知道，我也不想讓你知道我心裡想什麼。因此，協議經常不能堅持到底，總有一國先行增產降價以謀求自己更高的利潤。　　　　　　納什在1950年和1951年發表了兩篇關於非合作博弈的論文，《 n人博弈中的均衡點》和《非合作博弈》，定義了「納什均衡」概念，與 T ucker於1950年定義的「囚徒困境」一起，奠定了當代非合作博弈論的基石。納什獲得諾貝爾經濟學獎，就是基於這兩篇論文。　　　　　　在納什的基礎上，後來的澤爾滕精鍊了納什均衡概念，定義了完全信息動態博弈的「子博弈完備納什均衡」（1965），以及進一步刻畫不完全信息動態博弈的「完備貝葉斯納什均衡」（1975）。而哈爾薩尼則發展了刻畫不完全信息靜態博弈的「貝葉斯納什均衡」（1967－1968）。總之，他倆進一步將納什均衡動態化，加入了接近實際的不完全信息條件。他們的工作為後人繼續發展博弈論，提供了基本思路和模型，因此他們也與納什同時獲得了諾貝爾經濟學獎。　　　　　　較為正式地說，納什均衡是一種策略組合，給定對手的策略，每個參與人選擇自己的最優策略。也就是說，納什均衡是一種僵局，其他參與人的策略一定，沒有任何人有積極性偏離這種均衡的局面。經濟學中的完全競爭均衡，就是納什均衡，因為買賣雙方都是按照既定的價格進行交易量的選擇，結果導致了零利潤。　　　　　　把上述思想應用於現實經濟、政治等境況，可以得出許多有益的結果，加深我們對於人們的社會行為的認識。　　　　　　博弈論的經典案例：「囚徒困境」　　　　　　　　　　「囚徒困境」說的是兩個囚犯的故事。這兩個囚徒一起做壞事，結果被警察發現抓了起來，分別關在兩個獨立的不能互通信息的牢房裡進行審訊。在這種情形下，兩個囚犯都可以做出自己的選擇：或者供出他的同夥（即與警察合作，從而背叛他的同夥），或者保持沉默（也就是與他的同夥合作，而不是與警察合作）。　　　　　　　　　　這兩個囚犯都知道，如果他倆都能保持沉默的話，就都會被釋放，因為只要他們拒不承認，警方無法給他們定罪。但警方也明白這一點，所以他們就給了這兩個囚犯一點兒刺激：如果他們中的一個人背叛，即告發他的同夥，那麼他就可以被無罪釋放，同時還可以得到一筆獎金。而他的同夥就會被按照最重的罪來判決，並且為了加重懲罰，還要對他施以罰款，作為對告發者的獎賞。當然，如果這兩個囚犯互相背叛的話，兩個人都會被按照最重的罪來判決，誰也不會得到獎賞。　　　　　　　　　　那麼，這兩個囚犯該怎麼辦呢？是選擇互相合作還是互相背叛？從表面上看，他們應該互相合作，保持沉默，因為這樣他們倆都能得到最好的結果：自由。但他們不得不仔細考慮對方可能採取什麼選擇。 A犯不是個傻子，他馬上意識到，他根本無法相信他的同夥不會向警方提供對他不利的證據，然後帶著一筆豐厚的獎賞出獄而去，讓他獨自坐牢。這種想法的誘惑力實在太大了。但他也意識到，他的同夥也不是傻子，也會這樣來設想他。　　　　　　　　　　所以， A犯的結論是，唯一理性的選擇就是背叛同夥，把一切都告訴警方，因為如果他的同夥笨得只會保持沉默，那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了，那麼， A犯反正也得服刑，起碼他不必在這之上再被罰款。所以其結果就是，這兩個囚犯按照不顧一切的邏輯得到了最糟糕的報應：坐牢。　　　　　　　　　　當然，在現實世界裡，信任與合作很少達到如此兩難的境地。談判、人際關係、強制性的合同和其他許多因素左右了當事人的決定。但囚徒的兩難境地確實抓住了不信任和需要相互防範背叛這種真實的一面。讓我們看看冷戰時期兩個超級大國將自己鎖定在一場40年的軍備競賽中，其結果對雙方都毫無益處。還有各國的貿易保護主義的永恆傾向也很能說明問題。　　　　　　　　　　比如貿易自由與壁壘，這個問題對於剛剛加入 W TO的中國而言尤為重要。任何一個國家在國際貿易中都面臨著保持貿易自由與實行貿易保護主義的兩難選擇。貿易自由與壁壘問題，也是一個「納什均衡」，這個均衡是貿易雙方採取不合作博弈的策略，結果使雙方因貿易戰受到損害。 X國試圖對 Y國進行進口貿易限制，比如提高關稅，則 Y國必然會進行反擊，也提高關稅，結果誰也沒有撈到好處。反之，如 X和 Y能達成合作性均衡，即從互惠互利的原則出發，雙方都減少關稅限制，結果大家都從貿易自由中獲得了最大利益，而且全球貿易的總收益也增加了。　　　　　　　　　　博弈論已成為整個社會科學的一個方法　　　　　　　　　　我們可以看出，在上述博弈論及其應用中，沒有「美麗的心靈」式的先驗的道德的餘地。博弈論強調用互惠策略（一報還一報），促進行為人之間的合作，形成基於個體理性（利己動機）的集體理性結局（正的外部性或者利他行為），形成社會的道德共識。簡單說就是：你對我好，我就對你好；你對我不好，我也對你不好。我對你好，是為了你能繼續對我好。我對你不好，不是睚眥必報的互相損害，而是要將對方重新拉回合作的軌道。實現的機制是，通過對惡劣行為的懲罰，驅使行為人合作。因為從多次博弈和演進的角度看，合作比不合作的收益大於成本，不合作比合作的收益小於成本。這就是博弈論應用於經濟制度設計的原理之一，也可以看做是可供選擇的人類社會道德共識演進的機制。　　　　　　　　　　在分析改革過程中各階層或者群體利益消長和繼續改革的態度時，博弈論為我們提供了一個簡潔深刻的工具。改革必須有人付出成本（包括風險），而改革結果的收益是大家共享。有人認識到這一點，就不願努力改革，生怕別人搭便車。這樣的人多了，就會出現人人希望改革，很少人投身改革的局面，都維持在舊體制下度日。如此，怕別人搭便車，結果人人沒有車搭，大家都步行。這種思考方式，也可以用來分析公共物品的供給中的機會主義問題。　　　　　　　　　　我們還可以將這裡的思想引申到商品（包括股票）定價過程和制度。市場的功能是縮小人與人之間的距離，使得個人很容易在議價過程中轉向眾多的潛在交易夥伴。價格的制定，以非人格定價為好。非人格定價，是指市場價格對任何人都一樣。明碼標價就是一種非人格定價。這表面看起來像是賣方定價，但是在法治較好的競爭性市場中，買者可以選擇多個賣方，以用腳投票的方式間接定價。股票市場的合法投機套利活動，可能促進非人格定價的形成，減少因人而異的人格定價行為，從而使機會主義行為減少，降低內生交易成本。這符合我們大多數股民的共同利益，揭明了我們為什麼要在股市交易中戒除腐敗和違法活動的基本道理。　　　　　博弈論在過去二三十年中，是經濟學理論中發展得最為成功的一部分，博弈論已成為整個社會科學的一個方法。有人說，如果未來社會科學還有純理論的話，那就是博弈論。　　　　　　　　　　博弈論提供了一種系統的方法，使人們在其命運取決於他人的行為時制定出相應的戰　　　　　　　　　　略。特別是當許多相互依賴的因素共存，沒有任何決策能獨立於其它許多決策之外時，博弈論更是有用。　　　　　　　　　　當然，博弈論畢竟是數學，更確切地說是運籌學的一個分支，談經論道自然少不了數學語言，外行人看來只是一大堆數學公式。好在博弈論關心的是日常經濟生活問題，所以不能不食人間煙火。其實這一理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語，聽上去有點玄奧，實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局，常常寓深刻道理於遊戲之中。所以，多從我們的日常生活中的凡人小事入手，以我們身邊的故事做例子，娓娓道來，並不乏味。　　　　　　　　學習管理學或經濟學的人一定都了解一些博弈論方面的知識。在博弈論中有一個經典案例——囚徒困境，非常耐人回味。　　　　　　　　----「囚徒困境」說的是兩個囚犯的故事。這兩個囚徒一起做壞事，結果被警察發現抓了起來，分別關在兩個獨立的不能互通信息的牢房裡進行審訊。在這種情形下，兩個囚犯都可以做出自己的選擇：或者供出他的同夥（即與警察合作，從而背叛他的同夥），或者保持沉默（也就是與他的同夥合作，而不是與警察合作）。這兩個囚犯都知道，如果他倆都能保持沉默的話，就都會被釋放，因為只要他們拒不承認，警方無法給他們定罪。但警方也明白這一點，所以他們就給了這兩個囚犯一點兒刺激：如果他們中的一個人背叛，即告發他的同夥，那麼他就可以被無罪釋放，同時還可以得到一筆獎金。而他的同夥就會被按照最重的罪來判決，並且為了加重懲罰，還要對他施以罰款，作為對告發者的獎賞。當然，如果這兩個囚犯互相背叛的話，兩個人都會被按照最重的罪來判決，誰也不會得到獎賞。　　　　　　　　----那麼，這兩個囚犯該怎麼辦呢？是選擇互相合作還是互相背叛？從表面上看，他們應該互相合作，保持沉默，因為這樣他們倆都能得到最好的結果：自由。但他們不得不仔細考慮對方可能採取什麼選擇。A犯不是個傻子，他馬上意識到，他根本無法相信他的同夥不會向警方提供對他不利的證據，然後帶著一筆豐厚的獎賞出獄而去，讓他獨自坐牢。這種想法的誘惑力實在太大了。但他也意識到，他的同夥也不是傻子，也會這樣來設想他。所以A犯的結論是，唯一理性的選擇就是背叛同夥，把一切都告訴警方，因為如果他的同夥笨得只會保持沉默，那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了，那麼，A犯反正也得服刑，起碼他不必在這之上再被罰款。所以其結果就是，這兩個囚犯按照不顧一切的邏輯得到了最糟糕的報應：坐牢。　　　　　　　　----當然，在現實世界裡，信任與合作很少達到如此兩難的境地。談判、人際關係、強制性的合同和其他許多因素左右了當事人的決定。但囚徒的兩難境地確實抓住了不信任和需要相互防範背叛這種真實的一面。讓我們看看冷戰時期兩個超級大國將自己鎖定在一場40年的軍備競賽中，其結果對雙方都毫無益處。還有各國的貿易保護主義的永恆傾向。　　　　　　　　----但是，無論在自然界還是在人類社會，「合作」都是一種隨處可見的現象。那麼，問題就出現了：到底是何種機制促使生物體或者人類進行相互合作呢？　　　　　　　　----這個問題的答案大部分歸功於美國密西根大學一位叫做羅伯特·愛克斯羅德的人。愛克斯羅德是一個政治科學家，對合作的問題久有研究興趣。為了進行關於合作的研究，他組織了一場計算機競賽。這個競賽的思路非常簡單：任何想參加這個計算機競賽的人都扮演「囚徒困境」案例中一個囚犯的角色。他們把自己的策略編入計算機程序，然後他們的程序會被成雙成對地融入不同的組合。分好組以後，參與者就開始玩「囚徒困境」的遊戲。他們每個人都要在合作與背叛之間做出選擇。　　　　　　　　----但這裡與「囚徒困境」案例中有個不同之處：他們不只玩一遍這個遊戲，而是一遍一遍地玩上200次。這就是博弈論專家所謂的「重複的囚徒困境」，它更逼真地反映了具有經常而長期性的人際關係。而且，這種重複的遊戲允許程序在做出合作或背叛的抉擇時參考對手程序前幾次的選擇。如果兩個程序只玩過一個回合，則背叛顯然就是唯一理性的選擇。但如果兩個程序已經交手過多次，則雙方就建立了各自的歷史檔案，用以記錄與對手的交往情況。同時，它們各自也通過多次的交手樹立了或好或差的聲譽。雖然如此，對方的程序下一步將會如何舉動卻仍然極難確定。實際上，這也是該競賽的組織者愛克斯羅德希望從這個競賽中了解的事情之一。一個程序總是不管對手作何種舉動都採取合作的態度嗎？或者，它能總是採取背叛行動嗎？它是否應該對對手的舉動回之以更為複雜的舉措？如果是，那會是怎麼樣的舉措呢？　　　　　　　　----事實上，競賽的第一個回合交上來的14個程序中包含了各種複雜的策略。但使愛克斯羅德和其他人深為吃驚的是，競賽的桂冠屬於其中最簡單的策略：一報還一報（TIT FOR TAT）。這是多倫多大學心理學家阿納托·拉帕波特提交上來的策略。一報還一報的策略是這樣的：它總是以合作開局，但從此以後就採取以其人之道還治其人之身的策略。也就是說，一報還一報的策略實行了胡蘿蔔加大棒的原則。它永遠不先背叛對方，從這個意義上來說它是「善意的」。它會在下一輪中對對手的前一次合作給予回報（哪怕以前這個對手曾經背叛過它），從這個意義上來說它是「寬容的」。但它會採取背叛的行動來懲罰對手前一次的背叛，從這個意義上來說它又是「強硬的」。而且，它的策略極為簡單，對手程序一望便知其用意何在，從這個意義來說它又是「簡單明了的」。　　　　　　　　----當然，因為只有為數不多程序參與了競賽，一報還一報策略的勝利也許只是一種僥倖。但是，在上交的14個程序中，有8個是「善意的」，它們永遠不會首先背叛。而且這些善意的程序都輕易就贏了6個非善意的程序。為了決出一個結果來，愛克斯羅德又舉行了第二輪競賽，特別邀請了更多的人，看看能否從一報還一報策略那兒將桂冠奪過來。這次有62個程序參加了競賽，結果是一報還一報又一次奪魁。競賽的結論是無可爭議的。好人，或更確切地說，具備以下特點的人，將總會是贏家。　　　---- 1．善意的； 2．寬容的； 3．強硬的； 4．簡單明了的。　　　　　　　　----一報還一報策略的勝利對人類和其他生物的合作行為的形成所具有的深刻含義是顯而易見的。愛克斯羅德在《合作進化》一書中指出，一報還一報策略能導致社會各個領域的合作，包括在最無指望的環境中的合作。他最喜歡舉的例子就是第一次世界大戰中自發產生的「自己活，也讓他人活」的原則。當時前線戰壕里的軍隊約束自己不開槍殺傷人，只要對方也這麼做。使這個原則能夠實行的原因是，雙方軍隊都已陷入困境數月，這給了他們相互適應的機會。　　　　　　　　----一報還一報的相互作用使得自然界即使沒有智能也能產生合作關係。這樣的例子很多：真菌從地下的石頭中汲取養分，為海藻提供了食物，而海藻反過來又為真菌提供了光合作用；金蟻合歡樹為一種螞蟻提供了食物，而這種螞蟻反過來又保護了該樹；無花果樹的花是黃蜂的食物，而黃蜂反過來又為無花果樹傳授花粉，將樹種撒向四處。　　　　　　　　----更廣泛地說，共同演化會使一報還一報的合作風格在這個充滿背信棄義劣行的世界上蔚然成風。假設少數採取一報還一報策略的個人在這個世界上通過突變而產生了。那麼，只要這些個體能互相遇見，足夠在今後的相逢中形成利害關係，他們就會開始形成小型的合作關係。一旦發生了這種情況，他們就能遠勝於他們周圍的那些背後藏刀的類型。這樣，參與合作的人數就會增多。很快，一報還一報式的合作就會最終佔上風。而一旦建立了這種機制，相互合作的個體就能生存下去。如果不太合作的類型想侵犯和利用他們的善意，一報還一報政策強硬的一面就會狠狠地懲罰他們，讓他們無法擴散影響。　　　　　　　　----現在，對博弈論的研究是如此地廣泛，以致於有些人說最新的經濟學和管理科學都已經利用博弈論的理論和工具重寫過了。博弈論中有很多有趣而富於哲理的案例，一報還一報就是其中的一個。它那種善意、寬容、強硬、簡單明了的合作策略無論對個人還是對組織的行為方式都有很大的指導意義。　　　　博弈論是對策論的一個應用或延伸，最早來源於數學，比較著名的人物是獲得諾貝爾經濟學獎的數學家——納什，《美麗心靈》就是根據他的生平改編的，一生曲折而又坎坷！下面簡要講述一下這位傳奇人物的生平：　　　　　　　　他的教授在他的推薦信中寫道：「此人是天才」，這是教授所寫的最短的推薦信！　　　　　　　　愛因斯坦說只有自己在頭腦非常清晰的時候才能理解納什的內容，甚至希望他去學一些物理　　　　　　　　他甚至完成了證明論文「上帝是存在的」　　　　　　　　他患上了妄想性的精神分裂症，倍受摧殘式的醫療，包括化療、電療、各種藥物、囚禁式的看管等等　　　　　　　　他一生孤獨，沒有朋友、親人，他與人類幾乎格格不入　　　　　　　　他的唯一兒子也是天才，也是數學家，也，同樣是精神分裂者，現在仍然在折磨之中　　　　　　　　94年為了表彰他的《對策論》對經濟學幾十年深刻影響，諾貝爾評委會沒受任何其他影響，毅然授予他諾貝爾經濟學獎！　　　　　　　　納什佝僂著身軀，白髮蒼蒼走進咖啡廳，所有的教授默默的走來，將他們的鋼筆放在納什面前的桌子上，這是學者對學者最尊敬的禮節，納什說：「我那時真的頭一次感覺到不被人當怪物來看待的感覺，被當作一個人，真好」，是的，他成了一個被大家接受的人，一個受人尊敬的人。　　　　　　　　但是他的心靈是天真而又善良的，即使是受盡心靈的折磨　　　　　　　　令人心碎的影片——《美麗的心靈》也獲得美國74屆奧斯卡8項提名和4項大獎，同年他74歲。　　　　　　　　生物種群中的騙子、傻瓜和小氣鬼　　　　　　　　生物種群中的騙子、傻瓜和小氣鬼　　　　專欄作家東方更夫撰文說，生物學家運用經濟學的博弈論，證明了一個到了，即不求報答絕對利他的種群，即使一開始存在，但是隨著博弈的多次進行，也將走向滅絕。　　　　假定某個組織中的所有成員都不能自己抓自己頭上的虱子。假定B頭上有一隻虱子，A為它剔除掉。不久以後，A頭上也有了虱子，A當然去找B，希望B也為它除掉，作為回報。結果，B嗤之以鼻，掉頭就走。B是個騙子。　　　　假設一個生物種群中的個體採取兩個策略——傻瓜策略和騙子策略中的任何一種。傻瓜可以為任何人梳理頭上的虱子，而不問對象是誰，只要對方有需要。騙子只接受傻瓜的利他行為，但卻不為別人服務。在這兩種策略的博弈中，傻瓜基因很快就要被擠掉。如果生物種群中騙子所佔的比例達到90%時，因為只有很少的人為別人梳理頭部而導致寄生蟲的大量繁殖，如果我們考慮的只限於很少的人為別人梳理頭部而導致寄生蟲的大量繁殖，如果我們考慮的只限於這兩種策略，那就沒什麼東西能夠阻止傻瓜的滅絕，而且整個生物種群大概也難逃覆滅的厄運。　　　　現在讓我們假設還有第三種稱為小氣鬼的策略。小氣鬼願意為沒有打過交道的個體抓虱子，而且為它抓過的個體，它更不忘報答。可是，哪一個騙了它，它就要牢記在心，以後再不肯為這個騙子服務。生物學家證明，小氣鬼策略是一種生物進化上穩定的策略，小氣鬼優越於騙子或傻瓜，因為小氣鬼占多數的種群中，騙子或傻瓜都難以逞強。同樣，在騙子佔大多數的生物種群中，小氣鬼或傻瓜也難以逞強。　　　　生物學家道金斯對三種策略的博弈進行了計算機模擬。開始模擬時，傻瓜佔大多數，小氣鬼佔少數，騙子也屬於少數，與小氣鬼的比例相仿。騙子對傻瓜進行無情的剝削先在傻瓜種群中引發了劇烈的崩潰。騙子的激增隨著最後一個傻瓜的死去而達到高峰。這時，騙子還要應付小氣鬼。在傻瓜激劇減少時，小氣鬼在日益取得優勢的騙子的打擊下也緩慢地減少，但仍能勉強地維持下去。在最後一個傻瓜死去之後，騙子不再能夠跟以前一樣那麼隨心所欲地進行剝削。小氣鬼在抗拒騙子剝削的情況下開始緩慢地增加，並逐漸取得穩步上升的勢頭。接著小氣鬼突然激增，騙子從此處於劣勢並逐漸接近滅絕的邊緣。由於處於少數派的有利地位同時因受到小氣鬼懷恨的機會相對地減少，騙子這時得以苟延殘喘。不過，騙子的覆滅是不可挽回的。它們最終慢慢地相繼死去，留下小氣鬼獨佔整個種群。　　　　根據以上模型，只要一個騙子，利他主義的「傻瓜」的存在，將帶來組織內騙子的繁榮和組織的覆滅。小氣鬼策略是組織的穩定策略，它的含意「互惠」，是相互報答和感恩，因此也可以說是互惠利他或互惠自私，就象市場中的那種情況一樣。假如大家把相互清除寄生蟲作為「憲法」固定下來，那麼，可以說，這個組織就有一個道德共識。　　　　編者視點：「傻子」在這個世界一定是無法生存的，因為「傻子」代表「利他」，而「利他」必須「損己」，在一個資源稀缺的世界，任何「利他」行為都是以「損己」為代價的，可以說「利他」的機會成本就是「損己」，而「損己」的極致便是讓出你的生存空間給別人。所以，最後的結局，一定是「利他」的「傻子」逐漸地消失，而「騙子」在「傻子」消失之後由於沒有了其生存的依託也將自然地走向消失。最後這個世界的生物種群就構成了一個由「小氣鬼」所組成的「食物鏈」——現實存在的世界。當然，「傻子」和「騙子」並非完全消失，即便「小氣鬼」有時也會偶爾地充當一回「傻子」和「騙子」，比如說，有人對你說「你應該『利他』」，那麼你一定是碰到了一位「騙子」，他無非是想占你的便宜而已，如果你信了他的話，你也就充當了一回「傻子」。但由於小氣鬼把握的原則是「互惠」，他給出的「無償」機會只有一次，不會有第二次，這就迫使其對手也不得不採取同樣的交易規則，否則，交易就會中斷，不可能延續。於是，這社會（或市場）就出現了走向公正、有序的轉機。　　　　　　　合作的進化　　　　　　　　北京天則經濟研究所第139次雙周學術討論會由吳堅忠博士作主題發言，研討了美國學者艾克斯羅德提出的《合作的進化》問題，艾克斯羅德通過對多人多次重複博弈的對策研究，指出在博弈中產生合作的必要條件和獲勝策略的主要特徵。當策略群體是按各種策略的得分進行淘汰和進化時，艾克斯羅德發現，群體以一種不可逆轉的方式向合作的方向進化，也就是說，群體的合作性隨進化過程越來越大。與會學者在主題發言之後展開了熱烈的討論。以下是這次學術討論會的綜合觀點。　　　　　　　　　　　　　　　　　一、博弈中最優策略的產生　　　　　　　　艾克斯羅德在開始研究合作之前，設定了兩個前提：一、每個人都是自私的；二、沒有權威干預個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什麼要合作；第二、人什麼時候是合作的，什麼時候又是不合作的；第三、如何使別人與你合作。　　　　　　　　　　　　社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。　　　　　　　　　　　　A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。　　　　　　　　　　　　顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。　　　　　　　　　　　　對策學界用這個矩陣來描述個體理性與群體理性的衝突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對於A來說，當對方選C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的優超策略時，得出的解是穩定的，但不是帕累托最優的，這個結果體現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最優解。　　　　　　　　　　　　如果博弈進行多次，只要對策者知道博弈次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次博弈中，對策者沒有一次會合作。　　　　　　　　　　　　如果博弈在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各得3分，但如果持續地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什麼策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。　　　　　　　　　　　　艾克斯羅德做了一個實驗，邀請多人來參加遊戲，得分規則與前面的矩陣相同，什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然後用單循環賽的方式將參賽程序兩兩博弈，以找出什麼樣的策略得分最高。　　　　　　　　　　　　第一輪遊戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的「一報還一報「(tit for tat)。這個程序的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發現，得分排在前面的程序有三個特點：第一，從不首先背叛，即「善良的「；第二，對於對方的背叛行為一定要報復，不能總是合作，即「可激怒的「；第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即「寬容性「。　　　　　　　　　　　　為了進一步驗證上述結論，艾氏決定邀請更多的人再做一次遊戲，並把第一次的結果公開發表。第二次徵集到了62個程序，加上他自己的隨機程序，又進行了一次競賽。結果，第一名的仍是「一報還一報「。艾氏總結這次遊戲的結論是：第一，「一報還一報「仍是最優策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是「不善良的「，後15名中，只有1個總是合作的是「善良的「。可激怒性和寬容性也得到了證明。此外，好的策略還必須具有的一個特點是「清晰性「，能讓對方在三、五步對局內辨識出來，太複雜的對策不見得好。「一報還一報「就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。　　　　　　　二、合作的進行過程及規律　　　　　　　　「一報還一報「的策略在靜態的群體中得到了很好的分數，那麼，在一個動態的進化的群體中，這種合作者能否產生、發展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產生合作？為了回答這些疑問，艾氏用生態學的原理來分析合作的進化過程。　　　　　　　　　　　　假設對策者所組成的策略群體是一代一代進化下去的，進化的規則包括：一，試錯。人們在對待周圍環境時，起初不知道該怎麼做，於是就試試這個，試試那個，哪個結果好就照哪個去做。第二，遺傳。一個人如果合作性好，他的後代的合作基因就多。第三，學習。比賽過程就是對策者相互學習的過程，「一報還一報「的策略好，有的人就願意學。按這樣的思路，艾氏設計了一個實驗，假設63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所佔比例就越高，而且是他的得分的正函數。這樣，群體的結構就會在進化過程中改變，由此可以看出群體是向什麼方向進化的。　　　　　　　　　　　　實驗結果很有趣。「一報還一報「原來在群體中佔1/63，經過1000代的進化，結構穩定下來時，它佔了24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個「不善良的「哈靈頓程序，它的對策方案是，首先合作，當發現對方一直在合作，它就突然來個不合作，如果對方立刻報復它，它就恢複合作，如果對方仍然合作，它就繼續背叛。這個程序一開始發展很快，但等到除了「一報還一報「之外的其它程序開始消失時，它就開始下降了。因此，以合作係數來測量，群體是越來越合作的。　　　　　　　　　　　　進化實驗揭示了一個哲理：一個策略的成功應該以對方的成功為基礎。「一報還一報「在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎是很牢固的，因為它讓對方得到了高分。哈靈頓程序就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎上的，而失敗者總是要被淘汰的，當失敗者被淘汰之後，這個好占別人便宜的成功者也要被淘汰。　　　　　　　　　　　　那麼，在一個極端自私者所組成的不合作者的群體中，「一報還一報「能否生存呢？艾氏發現，在得分矩陣和未來的折現係數一定的情況下，可以算出，只要群體的5%或更多成員是「一報還一報「的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最後蔓延到整個群體。反之，無論不合作者在一個合作者占多數的群體中有多大比例，不合作者都是不可能自下而上的。這就說明，社會向合作進化的棘輪是不可逆轉的，群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論，突破了「囚犯困境「的研究困境。　　　　　　　　　　　　在研究中發現，合作的必要條件是：第一、關係要持續，一次性的或有限次的博弈中，對策者是沒有合作動機的；第二、對對方的行為要做出回報，一個永遠合作的對策者是不會有人跟他合作的。　　　　　　　　　　　　那麼，如何提高合作性呢？首先，要建立持久的關係，即使是愛情也需要建立婚姻契約以維持雙方的合作。第二、要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就沒法回報他了。第三、要維持聲譽，說要報復就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。第四、能夠分步完成的對局不要一次完成，以維持長久關係，比如，貿易、談判都要分步進行，以促使對方採取合作態度。第五、不要嫉妒人家的成功，「一報還一報「正是這樣的典範。第六、不要首先背叛，以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報，對合作也要作出回報。第八、不要耍小聰明，占人家便宜。　　　　　　　　　　　　艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關係持續，互相回報的條件，也有可能合作。比如，第一次世界大戰期間，德英兩軍在戰壕戰中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的糧車給養，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。第二、預見性也不是合作的前提，艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是，當有預見性的人類了解了合作的規律之後，合作進化的過程就會加快。這時，預見性是有用的，學習也是有用的。　　　　　　　　　　　　當遊戲中考慮到隨機干擾，即對策者由於誤會而開始互相背叛的情形時，吳堅忠博士經研究發現，以修正的「一報還一報「，即以一定的概率不報復對方的背叛，和「悔過的一報還一報「，即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強，「悔過的一報還一報「效果越好，「寬大的一報還一報「效果越差。　　　　　　　　　　　　　　　　　三、艾克斯羅德的貢獻與局限性　　　　　　　　艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境，達成合作，將這項研究帶到了一個全新境界，他在數學上的證明無疑是十分雄辯和令人信服的，而且，他在計算機模擬中得出的一些結論是非常驚人的發現，比如，總分最高的人在每次博弈中都沒有拿到最高分。　　　　　　　　　　　　艾氏所發現的「一報還一報「策略，從社會學的角度可以看作是一種「互惠式利他「，這種行為的動機是個人私利，但它的結果是雙方獲利，並通過互惠式利他有可能覆蓋了範圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，哥倫布登上美洲大陸時，與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為，比如無償損贈，也通過某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。　　　　　　　　　　　　囚徒困境擴展為多人博弈時，就體現了一個更廣泛的問題──「社會悖論「，或「資源悖論「。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點兒時，就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通阻塞，都可以在社會悖論中得以解釋，在這些問題中，關鍵是通過研究，制定遊戲規則來控制每個人的行為。　　　　　　　　　　　　艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應，「投桃報李「、「人不犯我，我不犯人「都體現了「tit for tat「的思想。但這些東西並不是最優的，因為「一報還一報「在充滿了隨機性的現實社會生活里是有缺陷的。對此，孔子在幾千年前就說出了「以德報德，以直報怨「這樣精彩的修正策略，所謂「直「，就是公正，以公正來回報對方的背叛，是一種修正了的「一報還一報「，修正的是報復的程度，本來會讓你損失5分，現在只讓你損失3分，從而以一種公正審判來結束代代相續的報復，形成文明。　　　　　　　　　　　　但是，艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先，《合作的進化》一書暗含著一個重要的假定，即，個體之間的博弈是完全無差異的。現實的博弈中，對策者之間絕對的平等是不可能達到的。一方面，對策者在實際的實力上有差異，雙方互相背叛時，可能不是各得1分，而是強者得5分，弱者得0分，這樣，弱者的報復就毫無意義。另一方面，即使對局雙方確實旗鼓相當，但某一方可能懷有賭徒心理，認定自己更強大，採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形，而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此，程序還可以在此基礎上進一步改進。　　　　　　　　　　　　其次，艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術，合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史，以便作出反應，這些都暗含著「預期「行為。在應付複雜的對策環境時，信任可能是對局雙方達成合作的必不可少的環節。但是，預期與信任如何在計算機的程序中體現出來，仍是需要研究的。　　　　　　　　　　　　最後，重複博弈在現實中是很難完全實現的。一次性博弈的大量存在，引發了很多不合作的行為，而且，對策的一方在遭到對方背叛之後，往往沒有機會也沒有還手之力去進行報復。比如，資本積累階段的違約行為，國家之間的核威懾。在這些情況下，社會要使交易能夠進行，並且防止不合作行為，必須通過法制手段，以法律的懲罰代替個人之間的「一報還一報「，規範社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。　　　　　　　　當一個個體在條件給定的條件下，實現了他的最大化目標，他就達到了個體均衡。而因為人們的決策目標各不一樣，約束條件也各不相同，所以他們作出各種不同的選擇。這些選擇相互影響、相互作用，最終將匯成一個動態化的經濟圖景。這個圖景就是每個經濟個體與環境相博弈的結果。如果在一個經濟狀態下，每個人都不願改變自己的均衡狀態，那麼這種狀態就是博弈論中所謂的「納什均衡」，也可稱做「全局博弈均衡」。　　　　　　　　這幅場景不過是非合作博弈導致的非理想狀態而已。要達致全局理想的狀態，唯有合作一途。至於具體的運用，這要具體問題具體分析。合作的手段和方式可能千變萬化，但尋求雙贏的信念要存乎心間。不能因為困難而放棄心中的信念。
推薦閱讀：

※神煞研究
※董必武思想研究會網站開通
※【洛佩茲研究①】橫跨古典與現代的藝術大師洛佩茲經典作品大覽（油版雕和素描珍藏版）
※燕山南北長城地帶史前聚落形態的初步研究
※八字研究?????????[六]

TAG:博弈論 | 研究 |