人機德撲大賽觀看指南

01-26

AI人機大戰即將開始，來自中國的6位頂尖德撲高手對陣「冷撲大師」Libratus, 卡內基梅隆大學研發的無限撲克人工智慧系統。

關於德撲AI有兩個核心問題: "它是如何工作的？" 和" 為什麼這麼玩能贏？" 對於第一個問題的答案是一些演算法的名字(i.e. Counterfactual Regret Minimization）。對於第二個問題的答案是博弈論中的一些概念(i.e. Nash Equilibrium)。網上已經有很多好的文章，有興趣的同學可以看看。

但如果你跟我一樣，同時對AI和德撲都非常感興趣，除此之外肯定還有一大堆跟進問題。出於好奇，我最近看了不少相關資料。以下是我認為一些比較有趣的問題:

1. 網上都說AI太厲害了，人基本上沒有希望贏。這個比賽還有什麼看點嗎?

我認為還有好幾個有趣的觀察點。其中我最感興趣的一個問題是: 「中國隊的最終結果是否能夠接近於美國隊的結果?」

美國的4個選手最終的結果是-14BB/100。也就是說，平均每跟AI打100手牌，就會輸掉14個大盲注。中國戰隊是否可以超越這個成績，還是很有懸念的。

2. BB/100是什麼? 我只聽說AI上次贏了好幾百萬

錢數是個虛榮數據，完全沒有意義的。其實第一次比賽並沒有用真錢，所以"幾百萬"只是一個為了傳媒效應而隨機選出來的倍數。如果當時他們玩的是1分/2分，結果也是一模一樣的。只不過標題如果是「AI贏了人類73.2塊錢」，聽上去就沒有那麼厲害了。

真正評價一個選手的實力，也就是幾個基本指標。比賽玩家最終看ROI(投資回報率)，現金玩家最終看BB/100。

BB/100就是每打100手牌，你平均會贏或會輸多少個大盲注。例如，如果你平常跟朋友打5塊/10塊的局，每次buyin1000，每周打200手牌，打一年（~50周），然後最後水上5000塊錢，那麼你的勝率就是 5BB/100。

AI德撲讓我最興奮的一點，是我們終於可以去客觀衡量一個牌手的實力。

國際象棋有ELO，圍棋有段級，但德州撲克一直以來都沒有級別標準。我們今天討論某某德州高手，都還用一些大型比賽成績來代表實力。這是非常不科學的。如果我們願意承認AI已經接完美戰略，那麼每個人的對戰結果其實就是一個可對比的實力分數。

3. 中國隊和美國隊的實力比起來如何?

首先這裡有一個需要解釋的關鍵點: 不同類型的德州撲克玩法是很不一樣的。錦標賽和現金局不一樣；1v1，6人桌，9人桌不一樣；線上和線下比賽也很不一樣。當然這些遊戲之間有很多基礎理論是相同的。十幾年前，因為整體水平低，一個懂的基本理論的玩家無論玩什麼遊戲類別都有很大優勢的。但如今因為競爭壓力，很多職業選手都選擇專研一兩個垂直領域。

拿游泳做比喻: 一個優秀的游泳運動員在所有項目中都會比普通人快很多。但在奧林匹克級別競爭中，400m的自由泳世界冠軍也很難在50m蛙泳中拿到好成績。

國外的德州撲克生態環境近年來並不好，能賺錢的地方越來越少，競爭也越來越激烈。美國比賽的4位選手都是線上1v1專家。

中國土豪多，可以支持良好的線下現金局和線下多桌錦標賽。在這兩種形式中，中國也有世界級高手。但跟AI玩的是1v1。

我跟這次戰隊中一半的選手認識，並一起打過牌。毫無疑問的是他們都有超強的學習能力。不管是打德撲，做企業，做投資，他們都可以在很短時間內成為行業專家。聽說杜悅老師在帶隊急訓1v1打法，希望他們可以創造奇蹟!

4. 這次比賽有多少運氣成分？

美國比賽打了12萬手牌，這次中國比賽「只」打3萬手牌，雖然如此，運氣成分還是是非常少的。

3萬手的概念大概是這樣的：假設你每天晚上都跟一幫朋友打4個小時牌，一周5次，一年也打不了3萬手。

另外Libratus的比賽環境還有一些降低隨機性的功能。

5.AI的打法跟人有很大差別嗎?

我們大概可以把德州撲克玩家分為三類：

Group 1: 初學者 - 懂得基本遊戲規則，賠率。

Group 2: 業餘玩家 - 懂得EV，和一些其它的基本遊戲元素（比如籌碼量，位置，和牌力等因素的運用）。

Group 3: 高手/專業玩家

Group 2 與 Group 1的最大差別是學會怎樣用期望價值（EV）來做決策。Group 3與 Group 2的最大區別是意識到不能只考慮當下手牌，而要考慮整個範圍（range），並達到戰略上的平衡。

有趣的是，AI的思維方式跟頂級高手是相似的。區別是AI可以做到更精準的範圍推測與計算。

6. AI會詐唬 (bluff) 嗎？

當然。這個問題背後有個錯誤假設，就是詐唬的關鍵在於心理與勇氣。其實詐唬更多是一道數學題: 「對於我的範圍與對手的範圍，如果這手牌重現10次，我詐唬 0次，3次，或10次，哪個期望價值最高?」

7. AI可以讀牌嗎？

同樣與上，這個問題的假設是讀牌主要靠觀察肢體語言或眼神。但其實讀牌本質上就是在做範圍預估。

如果你能搞懂AI的演算法為什麼work，你已經是個德州高手了。

8. 用一些「奇詭」的戰略有沒有可能把AI搞糊塗?

不可能。這個AI的原理就是試圖去玩一種防守型完美戰略，等著你來犯錯誤。從博弈論角度上，胡亂打法只是做到了「失去平衡」。

比如起手raise的數量很多都是在2-3個大盲之間。這個數字不是個慣例，是可以用數學原理證明的。如果你20個bb起raise，那麼你就失去平衡了。"20bb 起raise"僅是一個很容易被AI利用的漏洞。

詐唬太多，下注太大，隨機推all in，這些都是典型的「不平衡」戰略。如果有選手試圖用這些套路來擾亂AI，會輸的很慘。

9. 這個AI機器人放到網上打牌豈不是賺爆了?

拋開技術問題(硬體成本，軟體對接)不說，真的想靠一個1v1機器人賺大錢還是有難度的。線上高額1v1是個非常小的盤子，大部分玩家也會避開明顯比自己厲害的對手。

前幾年兩個頂級高手Doug Polk 和 Ben Sulsky 對決了一次。最後Doug大勝(+25BB/100)。結果是什麼呢？之後再也沒有人願意跟Doug打1v1比賽了，所以他就只能退休了。

另外，5-6年前網上就有很多可以打敗90%的選手，並可以持續賺錢的機器人了。想靠德州撲克賺錢，最重要的其實不是打遍天下無敵手，而是選桌。

10. AI具體用什麼手段打敗人類

GTO打法雖然是「防守型」打法。但並不是說不進攻，而是找到平衡點。很多場景下，人類的打法才是過於保守的，所以為了達到真正平衡，AI會比人選擇更狠，更大膽的套路。

美國參賽選手賽後的採訪中，提到了一些AI戰術上的特點，包括經常超池下注（overbet），給對手造成極大的壓力，並能做出人類（因為心裡素質缺陷）做不到的（但是正確的）bluff。

我之前看過一個美國隊牌手的採訪，他們說AI跟Tom Duan, Doug Polk這類牌手有很多相似之處。但AI比他們更冷血，更可怕。

如果你不熟悉以上牌手的風格，可以看一個例子：

(Sammy: 我手持兩對，在1v1中是非常強的一手牌。對手的範圍有很多bluff，我bet也沒有價值，不如check做一個陷阱，準備check call)

(Tom: 這裡bluff1/2pot-2/3pot是賠錢的。相對來說fold可能是個更好的選擇...

...但是還有一個選擇是平常牌手不會考慮的。對手的範圍裡面有很多A，因此有同花或更強牌的可能性不大。這是一個capped range的情況。如果我這裡打一個超pot的bluff，也許可以達到80%以上的棄牌率，EV更高...

All In！)

（Sammy: 呃... ... 雖然我有2對，其實我只能贏一個bluff。真的有人敢在這麼危險的牌面上推出來一個超pot all in嗎? 看來我只能good fold了)

(Tom: ?? )

(Sammy: ?? )

無論結果如何，這場比賽一定很精彩!