商戰「囚徒困境」有解

06-25

不要嫉妒對方的成功、不要首先背叛、對合作和背叛都做出回報、不要耍小聰明，這是對企業家在競爭博弈中的四句忠告。　　改革開放推動了中國經濟的快速發展，但隨之也浮現出一批野蠻生長的企業，滋生了一群急功近利的企業主。它們在短期利益與長期利益、個體利益與群體利益之間難以平衡以致矛盾重重，陷入「囚徒困境」。在百度檢索關鍵詞「價格戰」，馬上能找到400多萬條相關新聞。從最早的冰箱、彩電、空調、微波爐等家電產品，到近幾年的電商大戰，此起彼伏，硝煙不止。這些價格戰無一不以追求單方利益最大化為目的，導致兩敗俱傷。時至今日，企業家迫切需要擺脫急功近利的心態，著眼未來，重建合作精神，避免頻繁陷入「囚徒困境」。　　1986年，我在中科院自動化所攻讀博士學位時第一次拜讀了羅伯特·阿克塞爾羅德教授（Robert Axelrod，密歇根大學政治和公共政策學院教授、美國科學院院士）的著作《合作的進化》（The Evolution of Cooperation），深深為其論證方法之精巧、分析之透徹、結論之精彩所折服，它促使我開始對合作問題的研究。1993年，我有幸赴美師從阿克塞爾羅德教授做博士後研究，1994年回國後，立即著手將這本已被譯成十幾種語言的經典之作翻譯成中文。　　「一報還一報」破解「囚徒困境」　　最佳合作策略具有四個特徵：善良性、寬容性、可激怒性和清晰性。　　羅伯特·阿克塞爾羅德教授的研究始於「囚徒困境」的故事。兩個嫌疑犯(A和B)作案後被抓住，並隔離審訊。如果兩人都坦白則各判輕刑；如果一人坦白另一人不坦白，則坦白的放出去，不坦白的判重刑；如果兩人都不坦白則因證據不足各判短期監禁。兩個嫌疑犯將如何選擇？　　為了將問題簡化，並用博弈論的語言進行描述，我們假設在「囚徒困境」的遊戲中，有兩個對弈者，他們都有兩個選擇：合作（不坦白）或背叛（坦白）。而且每個人都必須在不知道對方選擇的情況下做出自己的選擇。在這樣的假設前提下，就可以得出一個「囚徒困境」博弈的矩陣圖（圖1）。在矩陣中，如果雙方都選擇合作，雙方都能得到較好的結果「R」，即「對雙方合作的獎勵」。假定R為3分，代表參賽者得到的獎金數。如果一方合作而另一方背叛，那麼背叛者得到5分（對背叛的誘惑，T=5），合作者則得到0分（給笨蛋的報酬，S = 0）。如果雙方都背叛，那麼各得1分（對雙方背叛的懲罰，P= 1）。對A來說有兩種選擇:一是假設B選擇背叛（坦白），這時如果他也背叛（坦白）則得到「P=1」，而如果他合作（不坦白），則得到「S=0」，選擇背叛是較好的策略；二是假設B選擇合作（不坦白），這時如果他也選擇合作（不坦白），則得到「R=3」，如果他背叛（坦白），則得到「T=5」，選擇背叛依然是較好的策略。以上推理同樣適用於B。這樣，兩人在分析後都選擇背叛（坦白）策略，結果是兩人都得到「P=1」（被判徒刑）。「困境」由此產生：雙方從自己的角度考慮，背叛是最好的選擇，卻無法實現對雙方而言更好的結果「R=3」。所謂的困境就是：如果雙方都背叛，其結果比雙方都合作更糟。　　因此，如果只進行一次博弈，沒有人會選擇合作。但如果博弈要進行多次呢？其中一方是否要選擇合作以誘導對方也合作，從而獲得更好的結果？對於這個問題，羅伯特·阿克塞爾羅德教授的研究結果是：只要雙方知道要進行博弈的次數，雙方就仍然沒有合作動機。因為在個體利益最大化的驅動下，在有限的博弈次數中，最後一次博弈沒有人會選擇合作。那倒數第二次，雙方依然沒有合作動機，因為他們都預知對方在最後一次會背叛，倒數第二次也只能選背叛。如此推理下去，只要博弈次數已知，從第一次博弈開始雙方都會選擇背叛，直到最後一次。　　然而，如果博弈次數無限次，或者雙方都不知道何時終止博弈時（稱為「重複囚徒困境」），雙方要如何選擇？再進一步，如果在多人之間相互進行「重複囚徒困境」，又該選擇何種策略？事實上，與多人相互進行「重複囚徒困境」最為貼近企業競爭與合作的現實境況。對此，羅伯特·阿克塞爾羅德教授採取了一個新穎的方法進行試驗：計算機競賽。他邀請各領域的專家提交他們的策略（程序）參加「重複囚徒困境」的比賽，每個策略與其他所有策略（包括它自己）逐個對局（每局進行無限次博弈，基於計算機程序的特性，設定為多次博弈，如200次），最後選擇出得分最高的策略。　　在第一輪競賽中，一共有15個程序（也即15種博弈策略）參賽，令人驚訝的是，最後獲勝的策略是所有策略中最簡單的：「一報還一報」（Tit for Tat）。這個策略在與任何對手的第一次博弈中都選擇合作，在接下來所有次數的博弈中，都選擇與對方上一次與自己博弈時相同的策略。也即：對方上一次博弈選擇合作，則在下一次與他的博弈中選擇合作，反之亦然。此後不久，羅伯特·阿克塞爾羅德教授再次發起第二輪競賽。這次共有63個參賽程序，都是各領域的專家提交的，此時他們已經知道了第一輪競爭中獲勝程序的策略。但最終的競賽結果顯示，依然是「一報還一報」的策略以最高分勝出。羅伯特·阿克塞爾羅德教授由此得出在多人「重複囚徒困境」博弈中，最佳策略具有的四個特徵：　　● 善良性：不要首先背叛。「一報還一報」策略的第一次博弈都選擇合作，後續策略選擇都與對方上一次相同，因此做到了絕不首先背叛。　　● 可激怒性：對無理背叛進行報復。如果對方上一次選擇背叛，按「一報還一報」的策略，在下次博弈中就會選擇背叛。　　● 寬容性：在對背叛給予反擊後，如果對方恢複合作，立刻回以合作策略。也即它是不記仇的。　　● 清晰性：博弈行為清晰簡單，對方很容易就能辨識。第一次給予合作，後續選擇都取決於對方的策略，對手很容易辨識，進而能夠做出讓雙方都獲益最大的策略選擇。　　可樂百年競爭史的啟示　　只要是和競爭對手長期共存，且對於公司的不合作行為對方都有能力報復時，最好的策略就是合作。　　我們經常看到企業為了爭奪市場而發生惡鬥，如三一重工和中聯重科，王老吉和加多寶。這些企業都將市場競爭看作「零和博弈」，你之所得就是我之所失。事實上市場競爭是「非零和博弈」。如「重複囚徒困境」一樣，在競爭中，只要企業明確地認識到「單方面追求自身利益的惡性競爭行為，必然招來對手的報復而最終導致兩敗俱傷」的事實，就能擺脫通過背叛謀求單方利益的誘惑，就有可能通過合作達到雙贏。　　在「重複囚徒困境」中，合作的必要條件是持續的關係和相互的回報。羅伯特·阿克塞爾羅德教授的忠告是：只要你和競爭對手要在市場中長期共存，而且針對你的任何不合作行為，對方都有報復能力時，最好的策略就是合作。在這方面，可口可樂和百事可樂之間的合作共贏是典範案例。這兩家企業的商品具有極高的同質性，它們也曾有過激烈競爭，從美國打到全球，但縱觀其一百多年的競爭和合作的進化，依然值得很多企業學習。　　首先是良性競爭。在長達百年的競爭中，兩家企業雖然時有關於商標、廣告、包裝等的訴訟，但從來沒有發生過你死我活的惡性攻擊和誹謗。2006年7月5日，可口可樂公司出現「內鬼」，企圖將可口可樂的秘方和包括其新飲料樣品在內的商業機密出售給百事可樂，但百事可樂拒絕了，並將這一信息通報給可口可樂，由此贏得全球讚譽。　　其次是逐步進化的合作。1929年，百事可樂為了生存，掀起第一次價格戰，不惜將價格降至5美分，僅為可口可樂的一半。但價格戰並沒有讓百事可樂擺脫落後局面，兩家公司逐步明白價格戰終將導致兩敗俱傷，市場競爭開始更多體現在客戶定位、渠道、區域和營銷策略上。1964年，百事可樂旗幟鮮明地打出取悅於年輕一代的「百事可樂新一代」口號，建立差異化，一舉在業績上拉近了與可口可樂的距離，並在1978年第一次成功超越可口可樂。在促銷價格上，今天兩家公司的價格競爭理性得多。在超市中，可口可樂和百事可樂一般不在同一時間降價促銷，而是輪流進行促銷，促銷降價都控制在10%左右。這既避免了同時促銷導致的兩敗俱傷，又維持了碳酸飲料的價格優勢，通過激烈競爭建立起來的知名度有助於商品銷售，更有助於與非碳酸飲料競爭。　　經過一百多年的激烈競爭和商業理性的進化，兩家公司都意識到：它們之間不是一場你死我活、非此即彼的戰爭，真正的競爭對手是非碳酸飲料，它們完全可以通過合作實現共贏。可以這麼說：如果只有可口可樂一家獨大，碳酸飲料遠不可能像今天這麼普及。　　其實，我之前所在的物美集團，其所處的零售行業合作問題更加突出。在原料供應商、生產商、經銷商和零售商形成的縱向的商品供應鏈中，也有類似的「重複囚徒困境」。20世紀80年代以來，隨著商品從供不應求轉向供過於求，商品流通領域的話語主導權由生產企業轉向零售企業。零售商存在壓低商品進價，增加對供應商的各種收費和延長結賬周期的誘惑；供應商則存在原料以次充好，降低成本的誘惑，同時還會利用延遲送貨等辦法「報復」零售商。從單方面看，雙方的「背叛行為」都對自己有利，但往往引起對方的不合作或「報復」，破壞彼此之間的信任關係，輕則增加交易成本，影響整個供應鏈的效率，重則使得雙方終止合作，兩敗俱傷。從整個商品供應市場來看，零供關係就是一個多人的「重複囚徒困境」：每個供應商要和多個零售商合作，每個零售商也要和多個供應商合作。這和「重複囚徒困境」計算機競賽一樣，能否取勝，取決於你和所有參賽程序能否和平相處，共同獲得高分，而不是在與單個對手對局時獲得比對方更高的分數。　　中國連鎖經營協會近期發布的一份調查報告顯示：儘管零供矛盾仍時有發生，但總體來看，正逐漸從相互擠壓爭利的博弈轉變到共同提升供應鏈效率、協作創造更大的共同價值。零售商逐漸在改變以往的盈利模式，更多地謀求與供應商在消費者研究、新品開發、品類管理、客戶服務能力、採購、物流、庫存管理、信息化建設等方面的協作，以提高供應鏈效率，拓展更廣闊的利潤空間。零供雙方合作行為越來越多，商業文明和企業理性在長期的競爭中也逐步提升，這是一個逐步進化的過程。企業家合作觀「四句忠告」　　不要嫉妒對方的成功、不要首先背叛、對合作和背叛都做出回報、不要耍小聰明。　　根據研究成果，羅伯特·阿克塞爾羅德教授就競爭與合作中的「重複囚徒困境」給出了四條忠告：　　第一，不要妒忌對方的成功企業面臨的「囚徒困境」不是零和博弈，通過合作完全可以實現共贏。由於「一報還一報」的策略不會首先背叛，所以在每次博弈中都不會獲得比對方更高的分數，而是通過誘導對方的合作共同獲得高分。這也是羅伯特·阿克塞爾羅德教授從計算機競賽中發現的有意思的一點：一個在每次博弈中從來不獲得比對手更高分數的選手，最終贏得了競賽。正如李嘉誠所說：在合作中，如果拿10%的股份是公正的，拿11%也可以，那你就拿9%的股份，有錢大家賺，利潤大家享，就會有更多的人願意和你合作。　　第二，不要首先背叛在「囚徒困境」中，如果妒忌對手，想比對手得分更高，那就只有先背叛，但這會引起不必要的衝突和循環不斷的報復，導致兩敗俱傷。與此同時，企業還要背負挑起爭端的責任，受到社會和輿論的譴責。　　第三，對合作和背叛都做出回報如果不對背叛做出報復行動，就會鼓勵背叛者繼續進行挑釁。例如，中國如果不啟動對歐盟葡萄酒的反傾銷和反補貼調查程序，歐盟也就可能繼續提高對光伏產品的反傾銷稅率。同時，企業對於合作也要及時給予回報。人們往往急於對背叛行為做出報復，但對對方背叛後的示好與合作行為未必及時報以合作。這會讓對方在背叛後希望重歸於好的努力受到打擊，也就不可能重新恢複合作。因此，可激怒性和寬容性是持續合作的兩個保證，缺一不可。　　第四，不要耍小聰明總有一些企業希望通過自認為高明的辦法佔對方便宜，其實是非常不明智的。所謂「聰明」的企業行為表現往往過於複雜，使對方無所適從，這樣就不能鼓勵對方與你合作。簡單清晰的競爭策略由於容易識別，也就最容易與對方建立互信並維持合作。「大智若愚」說的就是這個道理。　　「一報還一報」合作策略給企業家的啟示是：第一，在任何一場對局中，不是你贏他或者他贏你，而是要讓更多人願意跟你持續合作；第二，一個穩定可持續的合作是建立在對方成功的基礎上，先讓對方成功你才能成功；第三，絕不首先違規；第四，對對方的背叛和違規行為堅決給予打擊，但一旦對方表現出合作意向則給予重歸合作的機會；第五，在合作上，企業態度和策略一定要清晰，讓對方容易辨識。　　「一報還一報」道德嗎　　「為己利他」雖不是崇高的原則，但卻是最大的善，是最重要的善。　　在「一報還一報」策略的四大特徵中，很多企業家對其中「可激怒性」是否符合商業道德存疑。要回答這個問題，首先必須明晰什麼是道德的標準。對此，北京大學教授王海明的觀點是：道德的終極標準是增進每一個人的利益。在利益衝突情況下，道德的終極標準是「最大利益淨餘額」。也即：你的策略是不是道德的，就看策略引起的最大利益淨餘額是否最大。「一報還一報」促使人們達成合作，以及雙方利益達到最大，所以是符合道德標準的。　　王海明教授還認為，公正的總原則是「等利害交換」。你增進社會和他人的利益，就等於增進自己利益，這樣每個人要增進自己的利益就必須增進他人的利益；每個人要實現自己的利益最大化，就必須使社會和他人的利益最大化。當然還有等害交換：避免人們之間傷害的最重要、最有效的原則是等害交換原則：你損害社會和他人就等於損害自己，要使自己不受損害就必須不損害社會和他人。因此，「一報還一報」的策略不僅符合道德性，還符合公正性。　　誠然，「無私利他」是最崇高的善，卻不是最大的、最重要的善，也不是最重要的善原則和道德原則；「為己利他」雖不是崇高的原則，但卻是最大的善，是最重要的善，是最重要的善原則和道德原則。「一報還一報」正是為己利他的具有優秀道德的策略。 ※※※※※　　隨著信息技術的普及，人們相互間交往的信息日益透明，信息反饋時間迅速縮短，人們重複交易的機會和相互影響大大增加，這使得基於回報的策略的作用增強。新近出現的網路協作、眾籌等新模式表明：樹立正確的合作觀已成為企業儘快進入新經濟模式的基本能力，企業家必須拋棄急功近利的競爭意識，加強溝通，建立互信，形成崇尚合作、互利共贏的競爭理念。　　一部人類文明史，就是不斷創造「囚徒困境」，又不斷走出「囚徒困境」的歷史，這個進化過程是漫長和艱苦的，西方企業歷經數百年仍在進化。但羅伯特·阿克塞爾羅德教授的研究為我們理解合作的真諦提供了一盞明燈，企業家應建立正確的合作觀，才能避免一次又一次陷入「囚徒困境」。這需要企業家群體一起達成共識，付諸行動，加快商業文明進程，為中國經濟轉型提供更多動力。[本文得到「合作控」學習小組（www.hezuokong.com）的支持，特此致謝。]
推薦閱讀：

※從囚徒困境到博弈論
※慎議民主的內在困境：慎議民主與能力平等
※養殖業如何應對細菌耐葯困境
※學會從婚姻困境中解脫
※王紹光：代議制民主陷入困境抽籤替代選舉成西式民主新動向

TAG:囚徒困境 | 困境 | 商戰 |