論日常生活中的「納什均衡」
06-06
「囚徒困境」是非合作博弈的均衡即「納什均衡」的最經典的例子。從這個例子,我們能知道「納什均衡」的精要所在。本文從「囚徒困境」案例出發,總結出「納什均衡」的原理,並由此去探尋日常生活中的非合作博弈。 1950年和1951年納什的兩篇關於非合作博弈的重要論文,徹底改變了人們對競爭和市場的看法。他證明了非合作博弈極其均衡解,並證明了均衡解的存在性,即著名的「納什均衡」,從而揭示了博弈均衡與經濟均衡的內在聯繫奠定了現代非合作博弈論的基石。 要了解納什均衡,首先要知道什麼是非合作博弈問題。「囚徒困境」是該問題最經典的例子,我們也從該例為切入點進行探討: 首先,一個完整的博弈應當包括五個方面的內容:第一,博弈的參加者,即博弈過程中獨立決策、獨立承擔後果的個人和組織;第二,博弈信息,即博弈者所掌握的對選擇策略有幫助的情報資料;第三,博弈方可選擇的全部行為或策略的集合;第四,博弈的次序,即博弈參加者做出策略選擇的先後;第五,博弈方的收益,即各博弈方做出決策選擇後的所得和所失。 「囚徒困境」:兩個嫌疑犯(A和B)作案後被警察抓住,隔離審訊;警方的政策是「坦白從寬,抗拒從嚴」,如果兩人都坦白則各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判1O年;如果都不坦白則因證據不足各判1年。 在這個例子里,博弈的參加者就是兩個嫌疑犯A和B,他們每個人都有兩個策略即坦白和不坦白,判刑的年數就是他們的支付。可能出現的四種情況:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的結果。在此,兩個嫌疑犯A和B面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判1年。但由於兩人處於隔離情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到最好的解決辦法——釋放,但前提是同夥抵賴,顯然要比自己抵賴要坐1O年牢好得多。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐1O年牢。太不划算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判8年,總比被判10年好。結果,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(各被判1年刑)就不會出現。這樣兩人都選擇坦白的策略以及因此被判8年的結局被稱為「納什均衡」,也叫非合作均衡因為,每一方在選擇策略時都沒有「共謀」(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構成。沒有人會主動改變有著廣泛而深刻的意義。個人理性與集體理性的衝突,各人追求利己行為而導致的最終結局是一個「納什均衡」,也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。只有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監禁結果。「納什均衡」首先對亞當·斯密的「看不見的手」的原理提出挑戰。按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。不妨讓我們重溫一下這位經濟學聖人在《國富論》中的名言:「通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。」從「納什均衡」我們引出了「看不見的手」的原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,「納什均衡」提出的悖論實際上動搖了西方經濟學的基石。因此,從「納什均衡」中我們還可以悟出一條真理:合作是有利的「利己策略」。但它必須符合以下黃金律:按照你願意別人對你的方式來對別人,但只有他們也按同樣方式行事才行。也就是中國人說的「己所不欲勿施於人」。但前提是人所不欲勿施於我。其次,「納什均衡」是一種非合作博弈均衡,在現實中非合作的情況要比合作情況普遍。所以「納什均衡」是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展,甚至可以說是一場革命。 從「納什均衡」的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象: (1)電信價格競爭 根據我國電信業的實際情況,我們來構造電信業價格戰的博弈模型。假設此博弈的參加者為電信運營商A與B,他們在電信某一領域展開競爭,一開始的價格都是PoA(中國電信)是老牌企業,實力雄厚,佔據了絕大多數的市場份額;B(中國聯通)則剛成立不久,翅膀還沒長硬,是政府為了打破壟斷鼓勵競爭而籌建起來的。 正因為B是政府扶植起來鼓勵競爭的,所以B得到了政府的一些優惠,其中就有B的價格可以比Po低10%。這一舉動,還不會對A產生多大的影響,因為A的根基實在是太牢固了。在這樣的市場分配下,A、B可以達到平衡,但由於B在價格方面的優勢,市場份額逐步壯大,到了一定程度對A造成了影響。這時候,A該怎麼做?不妨假定: A降價而B維持,則A獲利15,B損失5,整體獲利10; A維持且B也維持,則A獲利5,B獲利10,整體獲利15; A維持而B降價,則A損失10,B獲利15,整體獲利5; A降價且B也降價,則A損失5,B損失5,整體損失10。 從A角度看,顯然降價要比維持好,降價至少可以保證比B好,在概率均等的情況下,A降價的收益為15x50%一5x50%=5,維持的收益為5x50%一10x50%=一2.5,為了自身利益的最大化,A就不可避免地選擇了降價。從B角度看,效果也一樣,降價同樣比維持好,其降價收益為5,維持收益為2.5,它也同樣會選擇降價。在這輪博弈中,A、B都將降價作為策略,因此各損失5,整體損失10,整體收益是最差的。這就是此博弈最終所出現的納什均衡。我們構造的這一電信業價格戰博弈模型是典型的囚徒困境現象,各個局部都尋求利益的最大化,而整體利益卻不是最優,甚至是最差。 許多其他行業的價格競爭都是典型的囚徒困境現象,如可口可樂公司和百事可樂公司之間的競爭、各大航空公司之間的價格競爭等等。 (2)OPEC組織成員國之間的合作與背叛 「囚徒困境」告訴我們,個人理性和集體理性之間存在矛盾,基於個人理性的正確選擇會降低大家的福利,也就是說,基於個人利益最大化的前提下,帕累托改進得不到進行,帕累托最優得不到實現。 上述我們在對電信價格競爭的博弈分析中,只是一次性的「囚徒困境」博弈,因此得到了互相降價的納什均衡。而在現實生活當中,信任與合作很少達到如此兩難的境地,無論在自然界還是在人類社會,「合作」都是一種隨處可見的現象。比如中東石油輸出國組織(OrganizationofPetroleumExportingCountries簡稱OPEC)的成立,本身就是要限制各石油生產國的產量,以保持石油價格,以便獲取利潤,是合作的產物。OPEC之所以能夠成立,各組織成員國之間之所以能夠合作,是因為囚徒困境如果是一次性博弈的話,基於個人利益最大化,得到納什均衡解,但如果是多次博弈,人們就有了合作的可能性,囚徒困境就有可能破解,合作就有可能達成。連續的合作有可能成為重複的囚徒困境的均衡解。這也是博弈論上著名的「大眾定理」(FolkTheorem)的含義。 轉 但合作的可能性不是必然性。博弈論的研究表明,要想使合作成為多次博弈的均衡解,博弈的一方(最好是實力更強的一方)必須主動通過可信的承諾(Crediblecommit.rem),向另一方表示合作的善意,努力把這個善意表達清楚,並傳達出去。如果該困境同時涉及多個對手,則要在博弈對手中形成聲譽,並用心地維護這個聲譽。這裡「可信的承諾」是一個很牽強的翻譯,「Crediblecommitment」並不是什麼空口諾言,而是實實在在的付出。所以合作是非常困難的。所以OPEC組織經常會有成員國不遵守組織的協定私自增加石油產量。每個成員國都這樣想,只要他們不增加產量,我增加一點點產量對價格沒什麼影響,結果每個國家都增加產量,造成石油價格下跌,大家的利潤都受到損失。當然,一些產量增加較少的國家損失更多,於是也更加大量生產,造成價格進一步下降——結果,陷入一個困境大家都增加產量,價格下跌,大家再增加產量,價格再下跌理論上,幾乎所有的卡特爾都會遭到失敗,原因就在於卡特爾的協定(類似囚犯的攻守同盟)不是一個納什均衡沒有成員有興趣遵守。那麼是不是不可能有卡特爾合作成功了?理論上,如果是無限期的合作,雙方考慮長遠利益他們的合作是會成功的。但只要是有限次的合作,合作就不會成功。比如合作10次,那麼在第九次博弈參與人就會採取不合作態度,因為大家都想趁最後一次機會撈一把,反正以後我也不會跟你合作了。但是大家料到第九次會出現不合作,那麼就很可能在第八次就採取不合作的態度。第八次不合作會使大家在第七次就不合作……一直到,從第一次開始大家都不會採取合作態度。還存在其他一些「非合作博議」的情況: (1)污染博弈 假如市場經濟中存在著污染,但政府並沒有管制的環境,企業為了追求利潤的最大化,寧願以犧牲環境為代價也絕不會主動增加環保設備投資。按照看不見的手的原理,所有企業都會從利己的目的出發,採取不顧環境的策略,從而進入「納什均衡」狀態。如果一個企業從利他的目的出發,投資治理污染,而其他企業仍然不顧環境污染,那麼這個企業的生產成本就會增加,價格就要提高,它的產品就沒有競爭力,甚至企業還要破產。這是一個「看不見的手的有效的完全競爭機制」失敗的例證。直到20世紀90年代中期,中國鄉鎮企業的盲目發展造成嚴重污染的情況就是如此。只有在政府加強污染管制時,企業才會採取低污染的策略組合。企業在這種情況下,獲得與高污染同樣的利潤,但環境將更好。 (2)貿易自由與壁壘 這個問題對於剛剛加入WTO的中國而言尤為重要。任何一個國家在國際貿易中都面臨著保持貿易自由與實行貿易保護主義的兩難選擇。貿易自由與壁壘問題,也是一個「納什均衡」,這個均衡是貿易雙方採取不合作博弈的策略,結果使雙方因貿易戰受到損害。x國試圖對Y國進行進口貿易限制,比如提高關稅,則Y國必然會進行反擊,也提高關稅,結果誰也沒有撈到好處。反之,如x和Y能達成合作性均衡,即從互惠互利的原則出發,雙方都減少關稅限制,結果大家都從貿易自由中獲得了最大利益,而且全球貿易的總收益也增加了。 以上是運用博弈論中的經典案例「囚徒困境」對現實經濟生活的一些簡單的理論上的分析,雖然在現實生活當中影響人們決策和態度的因素很多,但是,博弈論作為現代經濟學的前沿領域,始終是一個強有力的分析工具。
推薦閱讀:
推薦閱讀:
※禮儀常識大全,日常禮儀知識百科,個人禮儀學習31
※卵巢日常生活中如何保養?
※日常提高免疫力的方法
※你家孩子智力高不高,看這件日常小事兒上表現是不是很明顯
※生活安全小常識?日常生活安全健康小常識大全