德撲人機大戰:AI贏了200萬美元,這裡是一份超詳細的解讀

產生的人機大戰最終結果176萬美元

經過20天的鏖戰之後,四位頂級人類撲克高手,在這場德州撲克人機大戰中,總共輸給人工智慧(AI)選手共計176.6萬美元。之前,這個數字僅僅是106萬美元。

如果這場大戰繼續下去,也許人類高手們還要在匹茲堡的河流賭場輸得更多。

關注微信公眾號「人工智慧大小古(daxiaogu12)」,獲取最有料的人工智慧資訊。

AI一路碾壓人類高手

怎麼描述這20天令「人」精疲力盡的比賽?量子位覺得,還是先放一張圖表吧。一圖勝千言~

這張圖代表了從1月11日比賽開始,到1月30日比賽落幕,人工智慧德州撲克選手Libratus的每日戰績。在整整二十天的時間裡,Libratus沒有一天以輸錢告終:從第一天「僅僅」贏下7萬美元,直到最後一天累積下200多萬美元的優勢。

曲線清楚的告訴我們,整個比賽期間,人工智慧至少有兩天明顯出現了狀態下滑。然而人類選手們沒有一次能夠把勝利延續下去。

整個比賽期間,Dong Kim都充滿挫敗感,而他已經是四位人類高手裡面,對戰成績最好的那個。大約兩年前,Kim曾在同一個賭場擊敗了這個人工智慧的前身。在這場為期二十天的比賽剛剛過半之時,Kim就直言:人類已經沒有真正獲勝的機會。

每一天,Libratus都會進步。人類選手很難找到它的漏洞。即便找到一個漏洞,第二天就會消失不見。上面的曲線也正說明了這一點。

而且之前的最終戰果也表明,四位人類高手裡面,Dong Kim輸得最少:總計8.5萬美元;而Jason Les輸的最多:88萬美元。

揭秘:復盤AI的德州撲克戰術

AI究竟是怎麼打德州撲克的?來,我們復盤兩局看一下。

第一盤 人類贏了

每一局都有200盲注。

Kim這局是莊家,下注274。Libratus跟。首三張公共牌是:黑桃6,紅桃5,黑桃4。機器下注274,Kim跟。第四張開出的公共牌是:紅桃8。Libratus再次下注274,而Kim則直接下注3151。Libratus的選擇是繼續跟。

最後一張公共牌是:黑桃9。這意味著,牌局有可能出現「同花」。電腦直接下注15000,再次把賭注翻番。Kim有點猶豫,但還是跟進開牌:他手上是個最高為9的順子。而Libratus手上是一張黑桃8,和一張梅花8,顯然剛才電腦是在詐唬。

第二盤 AI贏了

人類高手Jason Les當時以一對10開局,一張是方片,一張是紅桃。翻牌之後,首三張公共牌是:K、9、4,其中有兩張梅花。下注繼續。在這種局面下,AI按理說應該希望再出一張梅花,湊成一個同花。

第四張公共牌,發出一張5,不是梅花。當時,兩邊都已經看牌。最後一張公共牌,是一張Q,也不是梅花。然後,人工智慧突然壓上了所有的籌碼。

面對這個局面,Les選擇不跟。人工智慧贏下一手。

與此同時,Les的拍檔Dong Kyu也在一模一樣的局面里,但是又有所不同。為了消除運氣的影響,這次人工智慧和人類玩家的對決,被安排成兩對一模一樣的牌局。區別是,在鏡像局裡人類玩家和人工智慧手上拿到的牌,進行了對調。

Kyu手上是梅花7和梅花3。這意味著,在主局裡面對人工智慧的瘋狂押注,Les如果果斷跟進的話,絕對是穩贏的一手牌。雪上加霜的是,在鏡像局Libratus早早為手上的一對10下了重注,最後Kyu也選擇不跟,放棄了這手牌。

Libratus經常特別激進的下注,下注的額度遠遠超過底池裡的額度。「其實人類並不這樣,通常不會為了贏一點錢,冒著輸掉很多錢的風險」,撲克高手Doug Polk說,「但人工智慧沒有這種心理,它只看怎麼玩更好」。

會打撲克的AI有什麼用?

Libratus在德州撲克人機大戰中獲得最終的勝利,是人工智慧領域的巨大成就。玩撲克需要推理能力,而這對於機器來說很難模仿。雖然人工智慧在跳棋、象棋乃至圍棋比賽中,已經完勝人類對手,但無限注德州撲克是一個完全不同的情況。

這是一場「不完美信息」遊戲。

由於一些卡牌並沒有發出來,在德州撲克的對局裡,任意時間,任何一個玩家,都只能觀察到一部分的情況。要贏,他們需要直覺:一種猜測其他玩家手上是什麼牌的能力。而且還要考慮到對手每一種可能的打法,想得到理想的戰略非常困難。

現實世界中,不完美信息才是常態,各種看不見的隱藏信息產生了大量的不確定性,而德州撲克代表的就是這種類型的博弈。在圍棋界縱橫無敵的AlphaGo,本質上處理的還是完美信息博弈,而AlphaGo無法處理德州撲克的問題,更遑論使出詐唬。

未來Libratus這樣的AI,可以用於商業談判、網路安全、醫療方案制定等領域。

去年,Libratus的創建者Sandholm曾經領導開發了一個打撲克的程序Claudico,但是在一場面對數位高手的比賽中被痛毆。Sandholm解釋說,Libratus的水平提升基於幾個技術進步,包括一個新的平衡近似技術,以及幾種新的方法來分析可能的結果。

人工智慧發展的終極目標,是通用人工智慧(AGI)。通用人工智慧可以解決任何一個問題,而不是像Libratus或者AlphaGo這樣只能專註於撲克或者圍棋。想要實現AGI就得讓人工智慧學會解決不確定性問題,這也是此次人機大戰的重大意義之一。

在下面這段視頻里,Libratus的兩位創建者,詳細解釋了撲克人工智慧的重大意義。

人機大戰背後的超級計算機

每個牌局結束後的夜晚,匹茲堡超級計算中心的Bridges電腦執行計算,用以優化Libratus的策略。而在白天的比賽過程中,Bridges用於計算每一手的終結遊戲策略。

Libratus來自卡內基梅隆大學,而Bridges又是誰?

Bridges不是當今世界最大、最快、最強勁的超級計算機。但它可能是面向公眾開放的,最大、最快、最強勁的超級計算機。

研究生物學、地質學、考古學、經濟學和其他社會科學的科學家們,都可以得到Bridges的幫助。而此前,這些科學家通常沒有機會利用超級計算機,來處理相關領域的大量數據。而這就是Bridges最大的意義所在。

卡內基梅隆大學(還是這個大學,因為它就位於匹茲堡)的教授Jay Apt說,在Bridges的幫助下,原本在個人電腦上要耗時數月的計算,僅僅幾個小時就搞定了。

超級計算機本質上是幾個計算機聯網在一起,以一個整體進行運算。通常要使用2500個電纜連接組件,如果連在一起,可以繞地球……不是,大約是7.2公里。

Bridges的機房有一個雙鎖的大門,需要用鑰匙卡和訪問碼才能進入。Bridges由27個機架組成,每個大約1.8米高,堆疊的計算機共有三排。冷氣從地泵吸入用以冷卻。

Bridges提供三種類型的計算選項,稱為節點:常規、大型和超大型。常規內存節點具有128GB內存,大約是高端筆記本計算能力的8倍。常規節點共有800個。

Libratus在600-700個節點上運行,這些節點的小子集在打牌時做出決定。而其餘的工作則是改善Libratus,讓這個人工智慧程序可以玩得更好。

最後看看這個賭場

上面放了好多德州撲克人機大戰的照片,但多是河流賭場的內景。其實這個賭場就位於一條河流的旁邊,夕陽西下,華燈初上的時候,還挺漂亮。

這張是賭場白天的全景。

現在,這場賭局已經落下帷幕,AI的進步才剛剛開始。

 來源:微信公眾號:量子位

據說,這次AI的成本花費也達到了天價,數十個頂級CPU助陣,這也一定程度上反映了AI領域的創業成本極高。

推薦閱讀:

工業機器人密度提升,全球生產自動化加速
機器人教育的課程目標是什麼?
全球工業自動化加速增長:機器人平均密度達到每萬人74台
數字化平台、增強現實是今年工博會的主題
先聲智能語音機器人是如何實現談業務、聊天的?

TAG:人工智慧 | 機器人 | 人機對戰 |