人機德撲大賽觀看指南

AI人機大戰即將開始,來自中國的6位頂尖德撲高手對陣「冷撲大師」Libratus, 卡內基梅隆大學研發的無限撲克人工智慧系統。

關於德撲AI有兩個核心問題: "它是如何工作的?" 和" 為什麼這麼玩能贏?" 對於第一個問題的答案是一些演算法的名字(i.e. Counterfactual Regret Minimization)。對於第二個問題的答案是博弈論中的一些概念(i.e. Nash Equilibrium)。網上已經有很多好的文章,有興趣的同學可以看看。

但如果你跟我一樣,同時對AI和德撲都非常感興趣,除此之外肯定還有一大堆跟進問題。出於好奇,我最近看了不少相關資料。以下是我認為一些比較有趣的問題:

1. 網上都說AI太厲害了,人基本上沒有希望贏。這個比賽還有什麼看點嗎?

我認為還有好幾個有趣的觀察點。其中我最感興趣的一個問題是: 「中國隊的最終結果是否能夠接近於美國隊的結果?」

美國的4個選手最終的結果是-14BB/100。也就是說,平均每跟AI打100手牌,就會輸掉14個大盲注。中國戰隊是否可以超越這個成績,還是很有懸念的。

2. BB/100是什麼? 我只聽說AI上次贏了好幾百萬

錢數是個虛榮數據,完全沒有意義的。其實第一次比賽並沒有用真錢,所以"幾百萬"只是一個為了傳媒效應而隨機選出來的倍數。如果當時他們玩的是1分/2分,結果也是一模一樣的。只不過標題如果是「AI贏了人類73.2塊錢」,聽上去就沒有那麼厲害了。

真正評價一個選手的實力,也就是幾個基本指標。比賽玩家最終看ROI(投資回報率),現金玩家最終看BB/100。

BB/100就是每打100手牌,你平均會贏或會輸多少個大盲注。例如,如果你平常跟朋友打5塊/10塊的局,每次buyin1000,每周打200手牌,打一年(~50周),然後最後水上5000塊錢,那麼你的勝率就是 5BB/100。

AI德撲讓我最興奮的一點,是我們終於可以去客觀衡量一個牌手的實力。

國際象棋有ELO,圍棋有段級,但德州撲克一直以來都沒有級別標準。我們今天討論某某德州高手,都還用一些大型比賽成績來代表實力。這是非常不科學的。 如果我們願意承認AI已經接完美戰略,那麼每個人的對戰結果其實就是一個可對比的實力分數。

3. 中國隊和美國隊的實力比起來如何?

首先這裡有一個需要解釋的關鍵點: 不同類型的德州撲克玩法是很不一樣的。錦標賽和現金局不一樣;1v1,6人桌,9人桌不一樣;線上和線下比賽也很不一樣。當然這些遊戲之間有很多基礎理論是相同的。十幾年前,因為整體水平低,一個懂的基本理論的玩家無論玩什麼遊戲類別都有很大優勢的。但如今因為競爭壓力,很多職業選手都選擇專研一兩個垂直領域。

拿游泳做比喻: 一個優秀的游泳運動員在所有項目中都會比普通人快很多。但在奧林匹克級別競爭中,400m的自由泳世界冠軍也很難在50m蛙泳中拿到好成績。

國外的德州撲克生態環境近年來並不好,能賺錢的地方越來越少,競爭也越來越激烈。美國比賽的4位選手都是線上1v1專家。

中國土豪多,可以支持良好的線下現金局和線下多桌錦標賽。在這兩種形式中,中國也有世界級高手。但跟AI玩的是1v1。

我跟這次戰隊中一半的選手認識,並一起打過牌。毫無疑問的是他們都有超強的學習能力。不管是打德撲,做企業,做投資,他們都可以在很短時間內成為行業專家。聽說杜悅老師在帶隊急訓1v1打法,希望他們可以創造奇蹟!

4. 這次比賽有多少運氣成分?

美國比賽打了12萬手牌,這次中國比賽「只」打3萬手牌,雖然如此,運氣成分還是是非常少的。

3萬手的概念大概是這樣的:假設你每天晚上都跟一幫朋友打4個小時牌,一周5次,一年也打不了3萬手。

另外Libratus的比賽環境還有一些降低隨機性的功能。

5.AI的打法跟人有很大差別嗎?

我們大概可以把德州撲克玩家分為三類:

Group 1: 初學者 - 懂得基本遊戲規則,賠率。

Group 2: 業餘玩家 - 懂得EV,和一些其它的基本遊戲元素(比如籌碼量,位置,和牌力等因素的運用)。

Group 3: 高手/專業玩家

Group 2 與 Group 1的最大差別是學會怎樣用期望價值(EV)來做決策。Group 3與 Group 2的最大區別是意識到不能只考慮當下手牌,而要考慮整個範圍(range),並達到戰略上的平衡。

有趣的是,AI的思維方式跟頂級高手是相似的。區別是AI可以做到更精準的範圍推測與計算。

6. AI會詐唬 (bluff) 嗎?

當然。這個問題背後有個錯誤假設,就是詐唬的關鍵在於心理與勇氣。其實詐唬更多是一道數學題: 「對於我的範圍與對手的範圍,如果這手牌重現10次,我詐唬 0次,3次,或10次,哪個期望價值最高?」

7. AI可以讀牌嗎?

同樣與上,這個問題的假設是讀牌主要靠觀察肢體語言或眼神。但其實讀牌本質上就是在做範圍預估。

如果你能搞懂AI的演算法為什麼work,你已經是個德州高手了。

8. 用一些「奇詭」的戰略有沒有可能把AI搞糊塗?

不可能。這個AI的原理就是試圖去玩一種防守型完美戰略,等著你來犯錯誤。從博弈論角度上,胡亂打法只是做到了「失去平衡」。

比如起手raise的數量很多都是在2-3個大盲之間。這個數字不是個慣例,是可以用數學原理證明的。如果你20個bb起raise,那麼你就失去平衡了。"20bb 起raise"僅是一個很容易被AI利用的漏洞。

詐唬太多,下注太大,隨機推all in,這些都是典型的「不平衡」戰略。如果有選手試圖用這些套路來擾亂AI,會輸的很慘。

9. 這個AI機器人放到網上打牌豈不是賺爆了?

拋開技術問題(硬體成本,軟體對接)不說,真的想靠一個1v1機器人賺大錢還是有難度的。線上高額1v1是個非常小的盤子,大部分玩家也會避開明顯比自己厲害的對手。

前幾年兩個頂級高手Doug Polk 和 Ben Sulsky 對決了一次。最後Doug大勝(+25BB/100)。結果是什麼呢?之後再也沒有人願意跟Doug打1v1比賽了,所以他就只能退休了。

另外,5-6年前網上就有很多可以打敗90%的選手,並可以持續賺錢的機器人了。想靠德州撲克賺錢,最重要的其實不是打遍天下無敵手,而是選桌。

10. AI具體用什麼手段打敗人類

GTO打法雖然是「防守型」打法。但並不是說不進攻,而是找到平衡點。很多場景下,人類的打法才是過於保守的,所以為了達到真正平衡,AI會比人選擇更狠,更大膽的套路。

美國參賽選手賽後的採訪中,提到了一些AI戰術上的特點,包括經常超池下注(overbet),給對手造成極大的壓力,並能做出人類(因為心裡素質缺陷)做不到的(但是正確的)bluff。

我之前看過一個美國隊牌手的採訪,他們說AI跟Tom Duan, Doug Polk這類牌手有很多相似之處。但AI比他們更冷血,更可怕。

如果你不熟悉以上牌手的風格,可以看一個例子:

(Sammy: 我手持兩對,在1v1中是非常強的一手牌。對手的範圍有很多bluff,我bet也沒有價值,不如check做一個陷阱,準備check call)

(Tom: 這裡bluff1/2pot-2/3pot是賠錢的。相對來說fold可能是個更好的選擇...

...但是還有一個選擇是平常牌手不會考慮的。對手的範圍裡面有很多A,因此有同花或更強牌的可能性不大。這是一個capped range的情況。如果我這裡打一個超pot的bluff,也許可以達到80%以上的棄牌率,EV更高...

All In!)

(Sammy: 呃... ... 雖然我有2對,其實我只能贏一個bluff。真的有人敢在這麼危險的牌面上推出來一個超pot all in嗎? 看來我只能good fold了)

(Tom: ?? )

(Sammy: ?? )

無論結果如何,這場比賽一定很精彩!


推薦閱讀:

想問一下有沒有人能解釋一下德州撲克中的GTO策略具體是怎麼執行的?
討論今晚cash局的一手愚call...?
德州撲克口袋對如何玩成正EV?
能不能解釋,或者列舉一下德州撲克常用的術語?
如何介紹德州撲克的規則和流程?

TAG:德州扑克 | 人工智能 |