德撲人機大戰：AI贏了200萬美元，這裡是一份超詳細的解讀

02-22

△ 產生的人機大戰最終結果176萬美元

經過20天的鏖戰之後，四位頂級人類撲克高手，在這場德州撲克人機大戰中，總共輸給人工智慧(AI)選手共計176.6萬美元。之前，這個數字僅僅是106萬美元。

如果這場大戰繼續下去，也許人類高手們還要在匹茲堡的河流賭場輸得更多。

關注微信公眾號「人工智慧大小古（daxiaogu12）」,獲取最有料的人工智慧資訊。

AI一路碾壓人類高手

怎麼描述這20天令「人」精疲力盡的比賽？量子位覺得，還是先放一張圖表吧。一圖勝千言~

這張圖代表了從1月11日比賽開始，到1月30日比賽落幕，人工智慧德州撲克選手Libratus的每日戰績。在整整二十天的時間裡，Libratus沒有一天以輸錢告終：從第一天「僅僅」贏下7萬美元，直到最後一天累積下200多萬美元的優勢。

曲線清楚的告訴我們，整個比賽期間，人工智慧至少有兩天明顯出現了狀態下滑。然而人類選手們沒有一次能夠把勝利延續下去。

整個比賽期間，Dong Kim都充滿挫敗感，而他已經是四位人類高手裡面，對戰成績最好的那個。大約兩年前，Kim曾在同一個賭場擊敗了這個人工智慧的前身。在這場為期二十天的比賽剛剛過半之時，Kim就直言：人類已經沒有真正獲勝的機會。

每一天，Libratus都會進步。人類選手很難找到它的漏洞。即便找到一個漏洞，第二天就會消失不見。上面的曲線也正說明了這一點。

而且之前的最終戰果也表明，四位人類高手裡面，Dong Kim輸得最少：總計8.5萬美元；而Jason Les輸的最多：88萬美元。

揭秘：復盤AI的德州撲克戰術

AI究竟是怎麼打德州撲克的？來，我們復盤兩局看一下。

第一盤人類贏了

每一局都有200盲注。

Kim這局是莊家，下注274。Libratus跟。首三張公共牌是：黑桃6，紅桃5，黑桃4。機器下注274，Kim跟。第四張開出的公共牌是：紅桃8。Libratus再次下注274，而Kim則直接下注3151。Libratus的選擇是繼續跟。

最後一張公共牌是：黑桃9。這意味著，牌局有可能出現「同花」。電腦直接下注15000，再次把賭注翻番。Kim有點猶豫，但還是跟進開牌：他手上是個最高為9的順子。而Libratus手上是一張黑桃8，和一張梅花8，顯然剛才電腦是在詐唬。

第二盤 AI贏了

人類高手Jason Les當時以一對10開局，一張是方片，一張是紅桃。翻牌之後，首三張公共牌是：K、9、4，其中有兩張梅花。下注繼續。在這種局面下，AI按理說應該希望再出一張梅花，湊成一個同花。

第四張公共牌，發出一張5，不是梅花。當時，兩邊都已經看牌。最後一張公共牌，是一張Q，也不是梅花。然後，人工智慧突然壓上了所有的籌碼。

面對這個局面，Les選擇不跟。人工智慧贏下一手。

與此同時，Les的拍檔Dong Kyu也在一模一樣的局面里，但是又有所不同。為了消除運氣的影響，這次人工智慧和人類玩家的對決，被安排成兩對一模一樣的牌局。區別是，在鏡像局裡人類玩家和人工智慧手上拿到的牌，進行了對調。

Kyu手上是梅花7和梅花3。這意味著，在主局裡面對人工智慧的瘋狂押注，Les如果果斷跟進的話，絕對是穩贏的一手牌。雪上加霜的是，在鏡像局Libratus早早為手上的一對10下了重注，最後Kyu也選擇不跟，放棄了這手牌。

Libratus經常特別激進的下注，下注的額度遠遠超過底池裡的額度。「其實人類並不這樣，通常不會為了贏一點錢，冒著輸掉很多錢的風險」，撲克高手Doug Polk說，「但人工智慧沒有這種心理，它只看怎麼玩更好」。

會打撲克的AI有什麼用？

Libratus在德州撲克人機大戰中獲得最終的勝利，是人工智慧領域的巨大成就。玩撲克需要推理能力，而這對於機器來說很難模仿。雖然人工智慧在跳棋、象棋乃至圍棋比賽中，已經完勝人類對手，但無限注德州撲克是一個完全不同的情況。

這是一場「不完美信息」遊戲。

由於一些卡牌並沒有發出來，在德州撲克的對局裡，任意時間，任何一個玩家，都只能觀察到一部分的情況。要贏，他們需要直覺：一種猜測其他玩家手上是什麼牌的能力。而且還要考慮到對手每一種可能的打法，想得到理想的戰略非常困難。

現實世界中，不完美信息才是常態，各種看不見的隱藏信息產生了大量的不確定性，而德州撲克代表的就是這種類型的博弈。在圍棋界縱橫無敵的AlphaGo，本質上處理的還是完美信息博弈，而AlphaGo無法處理德州撲克的問題，更遑論使出詐唬。

未來Libratus這樣的AI，可以用於商業談判、網路安全、醫療方案制定等領域。

去年，Libratus的創建者Sandholm曾經領導開發了一個打撲克的程序Claudico，但是在一場面對數位高手的比賽中被痛毆。Sandholm解釋說，Libratus的水平提升基於幾個技術進步，包括一個新的平衡近似技術，以及幾種新的方法來分析可能的結果。

人工智慧發展的終極目標，是通用人工智慧（AGI）。通用人工智慧可以解決任何一個問題，而不是像Libratus或者AlphaGo這樣只能專註於撲克或者圍棋。想要實現AGI就得讓人工智慧學會解決不確定性問題，這也是此次人機大戰的重大意義之一。

在下面這段視頻里，Libratus的兩位創建者，詳細解釋了撲克人工智慧的重大意義。

人機大戰背後的超級計算機

每個牌局結束後的夜晚，匹茲堡超級計算中心的Bridges電腦執行計算，用以優化Libratus的策略。而在白天的比賽過程中，Bridges用於計算每一手的終結遊戲策略。

Libratus來自卡內基梅隆大學，而Bridges又是誰？

Bridges不是當今世界最大、最快、最強勁的超級計算機。但它可能是面向公眾開放的，最大、最快、最強勁的超級計算機。

研究生物學、地質學、考古學、經濟學和其他社會科學的科學家們，都可以得到Bridges的幫助。而此前，這些科學家通常沒有機會利用超級計算機，來處理相關領域的大量數據。而這就是Bridges最大的意義所在。

卡內基梅隆大學（還是這個大學，因為它就位於匹茲堡）的教授Jay Apt說，在Bridges的幫助下，原本在個人電腦上要耗時數月的計算，僅僅幾個小時就搞定了。

超級計算機本質上是幾個計算機聯網在一起，以一個整體進行運算。通常要使用2500個電纜連接組件，如果連在一起，可以繞地球……不是，大約是7.2公里。

Bridges的機房有一個雙鎖的大門，需要用鑰匙卡和訪問碼才能進入。Bridges由27個機架組成，每個大約1.8米高，堆疊的計算機共有三排。冷氣從地泵吸入用以冷卻。

Bridges提供三種類型的計算選項，稱為節點：常規、大型和超大型。常規內存節點具有128GB內存，大約是高端筆記本計算能力的8倍。常規節點共有800個。

Libratus在600-700個節點上運行，這些節點的小子集在打牌時做出決定。而其餘的工作則是改善Libratus，讓這個人工智慧程序可以玩得更好。

最後看看這個賭場

上面放了好多德州撲克人機大戰的照片，但多是河流賭場的內景。其實這個賭場就位於一條河流的旁邊，夕陽西下，華燈初上的時候，還挺漂亮。

這張是賭場白天的全景。

現在，這場賭局已經落下帷幕，AI的進步才剛剛開始。

　來源：微信公眾號：量子位

據說，這次AI的成本花費也達到了天價，數十個頂級CPU助陣，這也一定程度上反映了AI領域的創業成本極高。