約翰.納什與納什平衡理論
一位有著傳奇人生的數學天才,諾貝爾經濟學獎獲得者。1928年6月13日出生於西弗吉尼亞布盧菲爾德。像所有的天才兒童一樣,兒時的納什是一個性格孤僻,成天著迷於做各種實驗的孩子。他的父親是一位電子工程師,總是能解答納什提出的各種問題。納什最喜歡的一件禮物《康普頓插圖百科全書》也是來自父親。他的妹妹瑪莎回憶起小時候的事情時說:「當我和我的朋友外出的時候,總是要擔起帶上哥哥的任務。不過我覺得這並不能讓我那古怪的哥哥變得容易相處些。」 他的老師並沒有留意到他的學生的出眾之處,相反,老師們並不喜歡納什的不合群和反覆無常的性格以及對權威的不尊重。在納什的青年時代,他總是成為人們嘲弄和取笑的對象,因為他對集體活動不感興趣,拙於社交。他奇怪的舉動讓他飽嘗了眾人的白眼。 隨著年齡的增長,這位「無所不知的人」——別人這樣稱呼納什——越來越高大和強壯。他的談吐尖銳,受到周圍人的崇敬。毫無疑問,他認為自己是個比別人都高明的天才,並對他認為不如他的人不屑一顧。 納什在卡內基理工學院(如今的卡內基大學)就學的時候,一位教授將納什稱為「高斯第二」,以此來形容這個學生的數學才能。納什來到卡內基理工學院是為了成為一個工程師,但最後他卻在這所學校成為了一個數學家。 他的同學認為他是個社交能力極端不發達的人。孤僻、怪異、有距離感。但是沒有人敢於和納什發生正面衝突。大家不但害怕他的壞脾氣,也害怕他的強壯。和他超乎常人的智力類似,納什有著良好的身體素質。1947年3月,納什遭遇了一生中首次重大失敗。他參加了當的威廉·洛厄爾·帕特南數學競賽。這是一個為大學在校學生舉辦的數學比賽,也被認為是讓自己的名字在數學界出現的好機會。但是納什輸掉了這場競賽,他沒能進入前5名。對於一個將來的數學家來說,這是一個徹底的失敗。1948年,納什從數學系畢業,並得到了去哈佛、普林斯頓、芝加哥和密歇根深造的機會。納什本人嚮往哈佛。但是由於在帕特南數學競賽中的失敗(至少納什一直這麼認為),哈佛提供給納什的獎學金是各所大學中最少的。最後,憑著推薦信中一句「這個學生是個天才」,納什來到了普林斯頓大學。 普林斯頓的環境非常適合納什。這個1933年成立大學城的小鎮中聚集了眾多著名的科學大師:羅伯特·奧本海默、愛因斯坦、馮·諾伊曼、諾曼·斯蒂恩羅德……1948年,納什來到了這個滿是哥特式建築的小鎮,來到數學系的紅磚大樓中攻讀博士學位。當時數學系的主任是俄國移民萊夫謝茨,他在一次事故中失去了雙手和前臂。 萊夫謝茨鼓勵學生進行獨立思考。而當時人們對納什的評價是:「天空都不足以容納他的獨立性」。在這所學校中,學生唯一必須出席的課程是每天下午三點鐘的下午茶。在那裡,教授和學生們討論數學,說著有關數學的笑話,談論各種最新的數學研究成果,並通過這樣的方式來評價每個學生的能力。要獲得這所學校的學位並不容易:或是成功,或者被淘汰。 在這樣一個鼓勵思考和異想天開被認為是天才的象徵的環境中,納什的精神開始了自由的舞蹈。他對所有的學科都感興趣,並利用下午茶的時間充分展示自己:誰都無法忽視他的存在。他甚至曾經造訪過愛因斯坦,向他講述自己對於重力的看法。在一個小時的討論之後,愛因斯坦對納什說:「年輕人,你應該來學一點物理。」 最耀眼的數學家納什沒有遵從他的建議。他認為只有學習數學才能令他重新發現自己。1949年納什開始研究被當時數學界人士認為是丑姑娘的對策理論。對策理論的創始人是美國數學家約翰·馮·諾伊曼,1944年,諾伊曼和摩根斯頓共同撰寫《對策理論與經濟行為》的出版標誌著現代系統對策理論的誕生。在諾伊曼和摩根斯頓眼裡,經濟是一種完全科學性的行為,需要數學理論對它進行規範。 納什的行事原則是,正確地提出問題,然後找到唯一的解決之道。他的第一項科學研究,即是在現代經濟學中具有里程碑意義的對策論數學。1950年,納什發表了他的「非合作對策」博士論文,提出了諾伊曼的合作對策論相對立的觀點。納什在論文中引入了著名的「納什平衡」理論,對有混合利益的競爭者之間的對抗進行了數學分析。納什向諾伊曼提出他的理論,但是被簡單地認為是「對已完善定理的新譯法」。但諾伊曼這一回卻是大錯特錯,納什的非合作對策論,不但奠定了對策論的數學基礎,而且在後來得到了商業策略家的廣泛應用。 1950年,納什進入蘭德研究所工作,這是中央情報局設在聖莫尼卡的一個戰略研究機構,僱傭數學家推行冷戰時代的對策理論。在軍事目的與科學行為相混合的蘭德研究所,納什獨特的才華和行為並沒有引起上層的足夠重視。這年秋天,納什回到了普林斯頓,決心將全部的精力放在純粹的數學研究上。納什需要證明自己的天才,同時他不想讓對策理論在人們眼裡變得無足輕重。於是他證明了一個幾乎無法證明的幾何定理。獲得了同事的一致尊敬。隨後幾年中,納什繼續留在普林斯頓和蘭德研究所工作。 但納什對科學的最大貢獻產生於他1932年在麻省理工學院工作期間,一位同事刺激他說:「既然你如此聰明,為什麼解決不了變數問題?」6年後,納什就把這個問題解決了,他甚至掌握了一些關於水面被打破、原子運動和地震活動的方程式的重要結果。納什因此被《財富》周刊評為最耀眼的新生數學家。 在這些年,納什的個人生活一直很平靜。1954年,納什失去了他在蘭德的工作,因為警察在一次公元里搜捕同性戀的行動中發現並逮捕了他,那時納什與幾位「特殊朋友」保持著聯繫。但納什並不只是同性戀,而是雙性戀者。他與一位叫埃莉諾·施蒂爾的美麗女子的關係顯示了納什性格中這黑暗殘酷的一面。 埃莉諾愛上了這位麻繩理工學院富有魅力的光彩奪目的老師,但納什看不起這位姑娘。他罵她白痴,並經常讓她感到自己低人一等。埃莉諾懷孕後,以為納什會跟她結婚,但她的希望最後落空了。當他們的兒子約翰·戴維·施蒂爾出生後,納什對這個孩子有過一陣著迷,但拒絕讓他姓自己的姓,並堅決不付分娩的費用。回到家後,納什對這母子倆不理不睬,埃莉諾別無他法,只得離開。但納什與埃莉諾時而甜蜜,時而冷漠的關係還是持續了4年。 對於女人來說,納什的魅力不可抵擋。與埃莉諾的關係結束後,納什開始與一位叫艾麗西亞.拉爾德的女學生約會。他們之間的愛是性別和才智上的互相吸引。兩人於1957年結婚,這時候艾麗西亞盼望著生個孩子,而納什則開始為諾貝爾經濟學獎而努力。 然而,就在納什30歲,即將成為麻繩理工學院高級教授的時候,他的腦子出現了可怕的問題,經醫生診斷,納什得了妄想型精神分裂症。一天早晨,納什拿著一份《紐約時報》走進辦公室,對著空氣說,報紙頭版左邊的文章里包含著一條來自另一個星球的數字信息,只有他能破解。而在家裡,納什不斷地威脅艾麗西亞。最終納什的家人和朋友決定將他送進醫院治療,但是他們盡量避免傷害納什腦子的療法。 納什的病情在好轉與複發之間反反覆復。艾麗西亞試盡了各種方法,而納什也在深愛他的妻子的鼓勵下,頑強地與疾病做鬥爭。這位天才生命的後來幾十年就在醫院、醫藥、孤獨和數學研究中度過。即使是處於病魔的重壓之下,納什仍然被他那令人興奮的數字理論所驅使者。在這段艱難的時期,納什的名字開始頻頻出現於各個地方:關於經濟和生物演變的論文,科學政治理論和數學發現,碩果累累。絕對是通過意志的力量,他才一如既往地繼續著他的工作,並於1994年獲得了諾貝爾獎。
納什均衡
納什均衡名稱來源及簡介:納什均衡,Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個重要術語,以約翰·納什命名。約翰·納什1948年作為年輕數學博士生進入普林斯頓大學。其研究成果見於題為《非合作博弈》(1950)的博士論文。該博士論文導致了《n人博弈中的均衡點》(1950)和題為《非合作博弈》(1951)兩篇論文的發表。納什在上述論文中,介紹了合作博弈與非合作博弈的區別。他對非合作博弈的最重要貢獻是闡明了包含任意人數局中人和任意偏好的一種通用解概念,也就是不限於兩人零和博弈。該解概念後來被稱為納什均衡。納什均衡定義:假設有n個局中人參與博弈,給定其他人策略的條件下,每個局中人選擇自己的最優策略(個人最優策略可能依賴於也可能不依賴於他人的戰略),從而使自己效用最大化。所有局中人策略構成一個策略組合(Strategy Profile)。納什均衡指的是這樣一種戰略組合,這種策略組合由所有參與人最優策略組成。即在給定別人策略的情況下,沒有人有足夠理由打破這種均衡。納什均衡經典案例:囚徒困境(1950年,數學家塔克任斯坦福大學客座教授,在給一些心理學家作講演時,講到兩個囚犯的故事。) 假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個博弈的支付矩陣。表2.2 囚徒困境博弈—————————————————————————— ┃ B ┃ B ┃————————┃————————┃————————┃ ┃ 坦白 ┃ 抵賴 ┃————————┃————————┃————————┃A 坦白 ┃ –8, –8 ┃ 0, –10 ┃————————┃————————┃————————┃A 抵賴 ┃ –10, 0 ┃ –1, –1 ┃————————┃————————┃————————┃關於案例,顯然最好的策略是雙方都抵賴,結果是大家都只被判1年。但是由於兩人處於隔離的情況,首先應該是從心理學的角度來看,當事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當·斯密的理論,假設每個人都是「理性的經濟人」,都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程:假如他坦白,我抵賴,得坐10年監獄,坦白最多才8年;他要是抵賴,我就可以被釋放,而他會坐10年牢。綜合以上幾種情況考慮,不管他坦白與否,對我而言都是坦白了划算。兩個人都會動這樣的腦筋,最終,兩個人都選擇了坦白,結果都被判8年刑期。 基於經濟學中Rational agent的前提假設,兩個囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被釋放就不會出現。這樣兩人都選擇坦白的策略以及因此被判8年的結局,納什均衡」首先對亞當·斯密的「看不見的手」的原理提出挑戰:按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。但是我們可以從「納什均衡」中引出「看不見的手」原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。 記載納什生平的書有:《普林斯頓的幽靈》(又譯為《美麗心靈》)西爾維婭.娜薩 博弈論(Game Theory),有時也稱為對策論,或者賽局理論,應用數學的一個分支, 目前在生物學,經濟學,國際關係,計算機科學, 政治學,軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(遊戲或者博弈(Game))間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。 博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。 表面上不同的相互作用可能表現出相似的激勵結構(incentive structure),所以他們是同一個遊戲的特例。其中一個有名有趣的應用例子是囚徒困境悖論(Prisoner"s dilemma)。 具有競爭或對抗性質的行為成為博弈行為。在這類行為中,參加鬥爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益,各方必須考慮對手的各種可能的行動方案,并力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋,打牌等。博弈論就是研究博弈行為中鬥爭各方是否存在著最合理的行為方案,以及如何找到這個合理的行為方案的數學理論和方法。
生物學家使用博弈理論來理解和預測進化論的某些結果。例如,John Maynard Smith 和George R. Price 在1973年發表於Nature上的論文中提出的「evolutionarily stable strategy」的這個概念就是使用了博弈理論。還可以參見進化博弈理論(evolutionary game theory)和行為生態學(behavioral ecology)。 博弈論也應用於數學的其他分支,如概率,統計和線性規劃等。 [編輯] 博弈論簡史對於博弈論的研究,開始於策墨洛(Zermelo,1913),波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928),後來由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)首次對其系統化和形式化(參照Myerson, 1991)。隨後約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎。 當代博弈論的「三大家」和「四君子」 "三大家" 包括約翰·福布斯·納什、約翰·C·海薩尼,以及萊因哈德·澤爾騰。這三人同時因為他們對博弈論的突出貢獻而獲得1994年的瑞典銀行經濟學獎(也稱諾貝爾經濟學獎。 "四君子" 包括羅伯特·J·奧曼、肯·賓摩爾、戴維·克瑞普斯,以及阿里爾·魯賓斯坦。 [編輯] 博弈論分類博弈的分類根據不同的基準也有不同的分類。一般認為,博弈主要可以分為合作博弈和非合作博弈。它們的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。 從行為的時間序列性,博弈論進一步分為兩類:靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動;動態博弈是指在博弈中,參與人的行動有先後順序,且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬於靜態博弈;而棋牌類遊戲等決策或行動有先後次序的,屬於動態博弈 按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈就是不完全信息博弈。 目前經濟學家們現在所談的博弈論一般是指非合作博弈,由於合作博弈論比非合作博弈論複雜,在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。與上述四種博弈相對應的均衡概念為:納什均衡(Nash equilibrium),子博弈精鍊納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精鍊貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
博弈論還又很多分類,比如:以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈;以表現形式也可以分為一般型(戰略型)或者展開型,等等。 [編輯] 博弈論的意義博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣,都是從複雜的現象中抽象出基本的元素,對這些元素構成的數學模型進行分析,而後逐步引入對其形勢產影響的其他因素,從而分析其結果。 基於不同抽象水平,形成三種博弈表述方式,標準型、擴展型和特徵函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經濟學、政治學、社會學等等,被各門社會科學所應用。 [編輯] 博弈論與納什平衡博弈論(game theory)對人的基本假定是:人是理性的(rational,或者說自私的),理性的人是指他在具體策略選擇時的目的是使自己的利益最大化,博弈論研究的是理性的人之間如何進行策略選擇的。 納什(John Nash)編製的博弈論經典故事"囚徒的困境",說明了非合作博弈及其均衡解的成立,故稱"納什平衡"。 所有的博弈問題都會遇到三個要素。在囚徒的故事中,兩個囚徒是當事人(players)又稱參與者;當事人所做的選擇策略 (strategies)是承認了殺人事實,最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人,另外一個抵賴,不承認殺人,那麼承認者將會得到減刑處理,而抵賴者將會得到最嚴厲的死刑判決,在納什故事中兩個人都承認了犯罪事實,所以兩個囚徒得到的是中間的結果。 類似的: 我們也能從「自私的基因」等理論中看到「納什平衡」的體現。 在互聯網這個原始叢林中:最優策略是如何產生的呢? [編輯] 博弈中最優策略的產生艾克斯羅德(Robert Axelrod)在開始研究合作之前,設定了兩個前提:一、每個人都是自私的;二、沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進行決策。在此前提下,合作要研究的問題是:第一、人為什麼要合作;第二、人什麼時候是合作的,什麼時候又是不合作的;第三、如何使別人與你合作。 社會實踐中有很多合作的問題。比如國家之間的關稅報復,對他國產品提高關稅有利於保護本國的經濟,但是國家之間互提關稅,產品價格就提高了,喪失了競爭力,損害了國際貿易的互補優勢。在對策中,由於雙方各自追求自己利益的最大化,導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。
A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。 顯然,對群體來說最好的結果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。 對策學界用這個矩陣來描述個體理性與群體理性的衝突:每個人在追求個體利益最大化時,就使群體利益受損,這就是囚徒困境。在矩陣中,對於A來說,當對方選 C,他選D得5分,選C只得3分;當對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇,即A,B都選D時,結果是各得1分。這個結構在矩陣中並非最優。困境就在於,每個人採取各自的優超策略時,得出的解是穩定的,但不是帕累托最優的,這個結果體現了個體理性與群體理性的矛盾。在數學上,這個一次性決策的矩陣沒有最優解。 如果博弈進行多次,只要對策者知道博弈次數,他們在最後一次肯定採取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,因此,在次數已知的多次博弈中,對策者沒有一次會合作。 如果博弈在多人間進行,而且次數未知,對策者就會意識到,當持續地採取合作並達成默契時,對策者就能持續地各得3分,但如果持續地不合作的話,每個人就永遠得1分。這樣,合作的動機就顯現出來。多次對局下,未來的收益應比現在的收益多一個折現率W,W越大,表示未來的收益越重要。在多人對策持續進行下去,且W比較大,即未來充分重要時,最優的策略是與別人採取的策略有關的。假設某人的策略是,第一次合作,以後只要對方不合作一次,他就永不合作。對這種對策者,當然合作下去是上策。假如有的人不管對方採取什麼策略,他總是合作,那麼總是對他採取不合作的策略得分最多。對於總是不合作的人,也只能採取不合作的策略。 艾克斯羅德做了一個實驗,邀請多人來參加遊戲,得分規則與前面的矩陣相同,什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序,然後用單循環賽的方式將參賽程序兩兩博弈,以找出什麼樣的策略得分最高。 第一輪遊戲有14個程序參加,再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是,第一次對局採用合作的策略,以後每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發現,得分排在前面的程序有三個特點:第一,從不首先背叛,即"善良的";第二,對於對方的背叛行為一定要報復,不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復,以後人家只要改為合作,你也要合作,即"寬容性"。 為了進一步驗證上述結論,艾氏決定邀請更多的人再做一次遊戲,並把第一次的結果公開發表。第二次徵集到了62個程序,加上他自己的隨機程序,又進行了一次競賽。結果,第一名的仍是"一報還一報"。艾氏總結這次遊戲的結論是:第一,"一報還一報"仍是最優策略。第二,前面提到的三個特點仍然有效,因為63人中的前15名里,只有第8名的哈靈頓程序是"不善良的",後15名中,只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點是"清晰性",能讓對方在三、五步對局內辨識出來,太複雜的對策不見得好。"一報還一報"就有很好的清晰性,讓對方很快發現規律,從而不得不採取合作的態度。 [編輯] 合作的進行過程及規律"一報還一報"的策略在靜態的群體中得到了很好的分數,那麼,在一個動態的進化的群體中,這種合作者能否產生、發展、生存下去呢?群體是會向合作的方向進化,還是向不合作的方向進化?如果大家開始都不合作,能否在進化過程中產生合作?為了回答這些疑問,艾氏用生態學的原理來分析合作的進化過程。 假設對策者所組成的策略群體是一代一代進化下去的,進化的規則包括:一,試錯。人們在對待周圍環境時,起初不知道該怎麼做,於是就試試這個,試試那個,哪個結果好就照哪個去做。第二,遺傳。一個人如果合作性好,他的後代的合作基因就多。第三,學習。比賽過程就是對策者相互學習的過程,"一報還一報"的策略好,有的人就願意學。按這樣的思路,艾氏設計了一個實驗,假設63個對策者中,誰在第一輪中的得分高,他在第二輪的群體中所佔比例就越高,而且是他的得分的正函數。這樣,群體的結構就會在進化過程中改變,由此可以看出群體是向什麼方向進化的。
實驗結果很有趣。"一報還一報"原來在群體中佔1/63,經過1000代的進化,結構穩定下來時,它佔了24%。另外,有一些程序在進化過程中消失了。其中有一個值得研究的程序,即原來前15名中唯一的那個"不善良的"哈靈頓程序,它的對策方案是,首先合作,當發現對方一直在合作,它就突然來個不合作,如果對方立刻報復它,它就恢複合作,如果對方仍然合作,它就繼續背叛。這個程序一開始發展很快,但等到除了"一報還一報"之外的其它程序開始消失時,它就開始下降了。因此,以合作係數來測量,群體是越來越合作的。 進化實驗揭示了一個哲理:一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時,得分不可能超過對方,最多打個平手,但它的總分最高。它賴以生存的基礎是很牢固的,因為它讓對方得到了高分。哈靈頓程序就不是這樣,它得到高分時,對方必然得到低分。它的成功是建立在別人失敗的基礎上的,而失敗者總是要被淘汰的,當失敗者被淘汰之後,這個好占別人便宜的成功者也要被淘汰。 那麼,在一個極端自私者所組成的不合作者的群體中,"一報還一報"能否生存呢?艾氏發現,在得分矩陣和未來的折現係數一定的情況下,可以算出,只要群體的 5%或更多成員是"一報還一報"的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個合作的群體就會越來越大,最後蔓延到整個群體。反之,無論不合作者在一個合作者占多數的群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進化的棘輪是不可逆轉的,群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論,突破了"囚犯困境"的研究困境。 在研究中發現,合作的必要條件是:第一、關係要持續,一次性的或有限次的博弈中,對策者是沒有合作動機的;第二、對對方的行為要做出回報,一個永遠合作的對策者是不會有人跟他合作的。 那麼,如何提高合作性呢?首先,要建立持久的關係,即使是愛情也需要建立婚姻契約以維持雙方的合作。(火車站的小販為什麼要騙人?為什麼工作中要形成小組制度?換防的時候一方總是要小小地進攻一下的,在中越前線就是這樣)第二、要增強識別對方行動的能力,如果不清楚對方是合作還是不合作,就沒法回報他了。第三、要維持聲譽,說要報復就一定要做到,人家才知道你是不好欺負的,才不敢不與你合作。第四、能夠分步完成的對局不要一次完成,以維持長久關係,比如,貿易、談判都要分步進行,以促使對方採取合作態度。第五、不要嫉妒人家的成功,"一報還一報"正是這樣的典範。第六、不要首先背叛,以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報,對合作也要作出回報。第八、不要耍小聰明,占人家便宜。 艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件,即使是敵人,只要滿足了關係持續,互相回報的條件,也有可能合作。比如,第一次世界大戰期間,德英兩軍在戰壕戰中遇上了三個月的雨季,雙方在這三個月中達成了默契,互相不攻擊對方的糧車給養,到大反攻時再你死我活地打。這個例子說明,友誼不是合作的前提。第二、預見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是,當有預見性的人類了解了合作的規律之後,合作進化的過程就會加快。這時,預見性是有用的,學習也是有用的。 當遊戲中考慮到隨機干擾,即對策者由於誤會而開始互相背叛的情形時,吳堅忠博士經研究發現,以修正的"一報還一報",即以一定的概率不報復對方的背叛,和 "悔過的一報還一報",即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強,"悔過的一報還一報"效果越好,"寬大的一報還一報"效果越差。 [編輯] 艾克斯羅德的貢獻與局限性艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境,達成合作,將這項研究帶到了一個全新境界,他在數學上的證明無疑是十分雄辯和令人信服的,而且,他在計算機模擬中得出的一些結論是非常驚人的發現,比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項羽的戰爭) 艾氏所發現的"一報還一報"策略,從社會學的角度可以看作是一種"互惠式利他",這種行為的動機是個人私利,但它的結果是雙方獲利,並通過互惠式利他有可能復蓋了範圍最廣的社會生活,人們通過送禮及回報,形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時,與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式,比如社會聲譽的獲得,得到了回報。研究這種行為,將對我們理解社會生活有很重要的意義。 囚徒困境擴展為多人博弈時,就體現了一個更廣泛的問題──"社會悖論",或"資源悖論"。人類共有的資源是有限的,當每個人都試圖從有限的資源中多拿一點兒時,就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通阻塞,都可以在社會悖論中得以解釋,在這些問題中,關鍵是通過研究,制定遊戲規則來控制每個人的行為。
艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應,"投桃報李"、"人不犯我,我不犯人"都體現了"tit for tat"的思想。但這些東西並不是最優的,因為"一報還一報"在充滿了隨機性的現實社會生活里是有缺陷的。對此,孔子在幾千年前就說出了"以德報德,以直報怨"這樣精彩的修正策略,所謂"直",就是公正,以公正來回報對方的背叛,是一種修正了的"一報還一報",修正的是報復的程度,本來會讓你損失5分,現在只讓你損失3分,從而以一種公正審判來結束代代相續的報復,形成文明。 但是,艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先,《合作的進化》一書暗含著一個重要的假定,即,個體之間的博弈是完全無差異的。現實的博弈中,對策者之間絕對的平等是不可能達到的。一方面,對策者在實際的實力上有差異,雙方互相背叛時,可能不是各得1分,而是強者得5分,弱者得0分,這樣,弱者的報復就毫無意義。另一方面,即使對局雙方確實旗鼓相當,但某一方可能懷有賭徒心理,認定自己更強大,採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形,而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此,程序還可以在此基礎上進一步改進。 其次,艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術,合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史,以便作出反應,這些都暗含著"預期"行為。在應付複雜的對策環境時,信任可能是對局雙方達成合作的必不可少的環節。但是,預期與信任如何在計算機的程序中體現出來,仍是需要研究的。 最後,重複博弈在現實中是很難完全實現的。一次性博弈的大量存在,引發了很多不合作的行為,而且,對策的一方在遭到對方背叛之後,往往沒有機會也沒有還手之力去進行報復。比如,資本積累階段的違約行為,國家之間的核威懾。在這些情況下,社會要使交易能夠進行,並且防止不合作行為,必須通過法制手段,以法律的懲罰代替個人之間的"一報還一報",規範社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。 |
推薦閱讀:
※營養素補充劑不能盲目吃 平衡膳食最安全有效
※瑜伽四式:保持身心的平衡和穩定
※如何改善馬平衡
※腸道中菌群平衡是什麼意思? 菌群紊亂怎麼辦?