撲克中的數學57:剪刀石頭布

《The Mathematics of Poker》中文翻譯

感謝梅有錢(梅老闆)的合作翻譯(這一篇都是他翻的!)

例10.2 剪刀石頭布

第二個,稍微複雜點用來詮釋同樣概念的遊戲是剪刀石頭布。在這個遊戲里,玩家從3個選項中做出選擇,並獲得如下收益表:

通常,本書中提及的遊戲都是零和遊戲,如果有非零和的都會詳細標註出。下面的表和上面的等價,除了是以A的角度出發:

如果B想確保0期望,他可以使用{1/3,1/3,1/3}的策略。用類似計算奇數偶數遊戲的方法,(可以得知)無論A選擇出什麼,他都會在1/3的時候贏1個單位,在1/3的時候打平,在1/3的時候輸1個單位。任何其他B的選擇都會導致強敵通過用一個單純策略對抗進行剝削。所以這是該遊戲的一個最優策略。

在這類遊戲會經常發生的一個情況是,強敵有2個或者跟多剝削策略可以使用。B選擇了他的策略,而強敵選擇剝削策略回應。當B選擇了某個策略S的時候,強敵的剝削策略會不偏不倚:意思是說,無論選擇哪個策略都不會改變期望值。這個不偏不倚的閾值就是B的最優策略。這個概念如此重要的原因是,可以讓我們確保找到的策略不能通過在任何方向有一點點的改變來改善。無比記住,一個策略最優的條件之一是,任何一個玩家都不能通過單邊改變策略來改善。當一個玩家在選擇策略不偏不倚時,這也保證了這個條件不被打破。

為了讓我們更簡單地找出最優策略,我們來看看一個調整過的剪刀石頭布,當用剪刀獲勝時,有額外獎勵。我們叫他剪刀石頭布S,收益表如下:

現在{1/3,1/3,1/3}的策略很容易被對手{0,0,1}(即只出剪刀)而打敗,並且對手總共可以贏1/3個單位。然而,A可以降低遊戲的期望到0通過努力讓對手的選擇不偏不倚。

假設A的策略是{a,b,c}。那麼那麼A希望讓B不同策略的期望相等,使用公式1.11:

< B,石頭 > = 0 × a + (-1) × b + (1) × c

< B,石頭 > = c – b

< B,紙 > = 1 × a + (0) × b + (-2) × c

< B,紙 > = a – 2c

< B,剪刀 > = (-1) × a + 2 × b + (0) × c

< B,剪刀 > = 2b – a

令這3個數值相等,我們可以得到a = 2b = 2c也就是說,策略將會是{1/2,1/4,1/4}.我們可以間接地驗證這是個最優策略。首先,這個遊戲是對稱的,所以任何B使用的策略,A也可以使用。因為收益之和為零,所以沒有策略可以在面對強敵時期望大於零。如果這種策略存在,那麼當兩個玩家都使用這個策略時,將違背零和遊戲的本質。所以這個策略一定是最優的。

注意到,對剪刀勝利時增加的獎勵促使最優策略更少地出剪刀。我們會經常發現許多情況下有類似這樣的防守策略。當規則改變,並且傾向某一種特定的行動時,最優策略通常偏向反抗這個行動的策略而非利用之。我們在撲克中也會有同樣發現,一個明顯的例子就是,底池越大,我們咋呼越少,因為一次成功的咋呼會更有利可圖。

在我們所有討論過的例子里,所有策略的選項都有同樣的「重要性」。每種都代表了策略或者應對策略中一個關鍵的部分,而且沒有策略是因為太弱小而不被使用。然而,實際並非如此;經常會發生的是,在更複雜的遊戲里,一種策略S被稱為「被主導」,如果策略S』在面對所有對手的策略時,期望都大於等於S,並且至少有一種對手策略,滿足S』的期望高於S的期望。此時,我們稱S』主導了S。

這個應該非常好理解;如果我們有一個策略可選,而有其他策略在應對對手所有策略上至少打平,有時更好,我們應該總是選擇那個更好的策略。我們來看一下另一個版本的剪刀石頭布。這次,我們不改變收益表,而是引入一個新的選擇,「花」。花會輸給所有的石頭和剪刀,跟紙或者花打平。

很顯然,沒有任何包含花的策略會比把花換成紙更好。因此,花被紙主導了。我們也有了第二個術語,嚴格主導,意味著策略S』在應對所有策略時,都比S表現更好(沒有相等)。這通常發生在沒有選擇的情況下;撲克中的一個例子就是當對手在現金桌翻前全下時,你是最後一個玩家並且手握AA。無論對手的策略是什麼,你跟注的期望都高於棄牌。因此,跟注嚴格主導棄牌。很顯然,最優策略不能包含被嚴格主導的選項;因為如果有,那麼玩家可以簡單地用更好期望的選擇進行替換來單方面提升。

策略選擇通常都很有價值;實際上,我們目前而言所有的零和二人遊戲里,策略選項都有非負值。增加一個額外的策略選擇,不會降低玩家在遊戲里的期望,因為他可以假裝沒有這個新選擇,而用舊的策略保持之前的期望。然而,通常他可以把新的選擇融合進自己的策略里提高收益。

另一個我們經常會用來描述策略的詞是含優。有時最優策略組合中包含許多策略,在某些情況下包含一些被主導的策略。這也許會讓某些讀者吃驚,但是一個例子應該可以說明問題。加入剪刀石頭布F(帶花的版本),我們加入一個策略選項:「安全剪刀」,它會一樣贏紙,輸給石頭,但是還會輸給花。所以這個版本里,出安全剪刀一定被出剪刀所主導。然而,包含安全剪刀的策略依然可以是含優的,因為他們可以是最優策略的一部分。這是因為最優策略永遠不包含花,因此,安全剪刀和普通剪刀是一樣的。

當我們在撲克中探索最優策略,然而,我們主要考慮尋找不被主導的策略,因為從對手的失誤中獲得價值非常重要而且相當頻繁。

當有被主導的策略選項存在時,我們可以用一個循環的方式來簡化遊戲。在上面的例子里,我們從一個完整的收益表開始:

我們可以通過比較「安全剪刀」和「剪刀」的收益值發現前者是一個被後者主導的策略。在所有情況下,「剪刀」的收益始終大於或者等於「安全剪刀」。因此,「安全剪刀」是被「剪刀」主導的。當我們尋求最優策略時,我們可以把這個遊戲簡化到沒有一個玩家會出「安全剪刀」的版本:

於是這個遊戲變成了我們之前提到的剪刀石頭布F(帶花的版本)。重複之前的過程,由於花也是一個被主導的策略可以被移除:

我們就回到了最基本的剪刀石頭布。因此,這個包含了「花」和「安全剪刀」的擴展版剪刀石頭布的策略和最初的版本其實一致。這個循環的過程可以用來簡化許多遊戲。通常這會非常有用,因為它可以減少許多必須考慮策略選項,總而言之:

一個遊戲G可以通過移除雙方被主導的策略選項而簡化成子遊戲G』。此時G』的最優策略也是G的最優策略。


推薦閱讀:

德州撲克的數學- 45:錦標賽簡介
撲克中的數學-26:剝削型打法
無限德州撲克高級概念-10:底牌組合&翻前遊戲的基本法則
從德國撲克天才Fedor Holz手中贏得的金手鏈居然被放在網上拍賣

TAG:德州扑克 | 德州扑克技巧 |