德撲人機大戰:AI贏了200萬美元,這裡是一份超詳細的解讀
△ 產生的人機大戰最終結果176萬美元
經過20天的鏖戰之後,四位頂級人類撲克高手,在這場德州撲克人機大戰中,總共輸給人工智慧(AI)選手共計176.6萬美元。之前,這個數字僅僅是106萬美元。
如果這場大戰繼續下去,也許人類高手們還要在匹茲堡的河流賭場輸得更多。
關注微信公眾號「人工智慧大小古(daxiaogu12)」,獲取最有料的人工智慧資訊。
AI一路碾壓人類高手
怎麼描述這20天令「人」精疲力盡的比賽?量子位覺得,還是先放一張圖表吧。一圖勝千言~
這張圖代表了從1月11日比賽開始,到1月30日比賽落幕,人工智慧德州撲克選手Libratus的每日戰績。在整整二十天的時間裡,Libratus沒有一天以輸錢告終:從第一天「僅僅」贏下7萬美元,直到最後一天累積下200多萬美元的優勢。
曲線清楚的告訴我們,整個比賽期間,人工智慧至少有兩天明顯出現了狀態下滑。然而人類選手們沒有一次能夠把勝利延續下去。
整個比賽期間,Dong Kim都充滿挫敗感,而他已經是四位人類高手裡面,對戰成績最好的那個。大約兩年前,Kim曾在同一個賭場擊敗了這個人工智慧的前身。在這場為期二十天的比賽剛剛過半之時,Kim就直言:人類已經沒有真正獲勝的機會。
每一天,Libratus都會進步。人類選手很難找到它的漏洞。即便找到一個漏洞,第二天就會消失不見。上面的曲線也正說明了這一點。
而且之前的最終戰果也表明,四位人類高手裡面,Dong Kim輸得最少:總計8.5萬美元;而Jason Les輸的最多:88萬美元。
揭秘:復盤AI的德州撲克戰術
AI究竟是怎麼打德州撲克的?來,我們復盤兩局看一下。
第一盤 人類贏了
每一局都有200盲注。
Kim這局是莊家,下注274。Libratus跟。首三張公共牌是:黑桃6,紅桃5,黑桃4。機器下注274,Kim跟。第四張開出的公共牌是:紅桃8。Libratus再次下注274,而Kim則直接下注3151。Libratus的選擇是繼續跟。
最後一張公共牌是:黑桃9。這意味著,牌局有可能出現「同花」。電腦直接下注15000,再次把賭注翻番。Kim有點猶豫,但還是跟進開牌:他手上是個最高為9的順子。而Libratus手上是一張黑桃8,和一張梅花8,顯然剛才電腦是在詐唬。
第二盤 AI贏了
人類高手Jason Les當時以一對10開局,一張是方片,一張是紅桃。翻牌之後,首三張公共牌是:K、9、4,其中有兩張梅花。下注繼續。在這種局面下,AI按理說應該希望再出一張梅花,湊成一個同花。
第四張公共牌,發出一張5,不是梅花。當時,兩邊都已經看牌。最後一張公共牌,是一張Q,也不是梅花。然後,人工智慧突然壓上了所有的籌碼。
面對這個局面,Les選擇不跟。人工智慧贏下一手。
與此同時,Les的拍檔Dong Kyu也在一模一樣的局面里,但是又有所不同。為了消除運氣的影響,這次人工智慧和人類玩家的對決,被安排成兩對一模一樣的牌局。區別是,在鏡像局裡人類玩家和人工智慧手上拿到的牌,進行了對調。
Kyu手上是梅花7和梅花3。這意味著,在主局裡面對人工智慧的瘋狂押注,Les如果果斷跟進的話,絕對是穩贏的一手牌。雪上加霜的是,在鏡像局Libratus早早為手上的一對10下了重注,最後Kyu也選擇不跟,放棄了這手牌。
Libratus經常特別激進的下注,下注的額度遠遠超過底池裡的額度。「其實人類並不這樣,通常不會為了贏一點錢,冒著輸掉很多錢的風險」,撲克高手Doug Polk說,「但人工智慧沒有這種心理,它只看怎麼玩更好」。
會打撲克的AI有什麼用?
Libratus在德州撲克人機大戰中獲得最終的勝利,是人工智慧領域的巨大成就。玩撲克需要推理能力,而這對於機器來說很難模仿。雖然人工智慧在跳棋、象棋乃至圍棋比賽中,已經完勝人類對手,但無限注德州撲克是一個完全不同的情況。
這是一場「不完美信息」遊戲。
由於一些卡牌並沒有發出來,在德州撲克的對局裡,任意時間,任何一個玩家,都只能觀察到一部分的情況。要贏,他們需要直覺:一種猜測其他玩家手上是什麼牌的能力。而且還要考慮到對手每一種可能的打法,想得到理想的戰略非常困難。
現實世界中,不完美信息才是常態,各種看不見的隱藏信息產生了大量的不確定性,而德州撲克代表的就是這種類型的博弈。在圍棋界縱橫無敵的AlphaGo,本質上處理的還是完美信息博弈,而AlphaGo無法處理德州撲克的問題,更遑論使出詐唬。
未來Libratus這樣的AI,可以用於商業談判、網路安全、醫療方案制定等領域。
去年,Libratus的創建者Sandholm曾經領導開發了一個打撲克的程序Claudico,但是在一場面對數位高手的比賽中被痛毆。Sandholm解釋說,Libratus的水平提升基於幾個技術進步,包括一個新的平衡近似技術,以及幾種新的方法來分析可能的結果。
人工智慧發展的終極目標,是通用人工智慧(AGI)。通用人工智慧可以解決任何一個問題,而不是像Libratus或者AlphaGo這樣只能專註於撲克或者圍棋。想要實現AGI就得讓人工智慧學會解決不確定性問題,這也是此次人機大戰的重大意義之一。
在下面這段視頻里,Libratus的兩位創建者,詳細解釋了撲克人工智慧的重大意義。
人機大戰背後的超級計算機
每個牌局結束後的夜晚,匹茲堡超級計算中心的Bridges電腦執行計算,用以優化Libratus的策略。而在白天的比賽過程中,Bridges用於計算每一手的終結遊戲策略。
Libratus來自卡內基梅隆大學,而Bridges又是誰?
Bridges不是當今世界最大、最快、最強勁的超級計算機。但它可能是面向公眾開放的,最大、最快、最強勁的超級計算機。
研究生物學、地質學、考古學、經濟學和其他社會科學的科學家們,都可以得到Bridges的幫助。而此前,這些科學家通常沒有機會利用超級計算機,來處理相關領域的大量數據。而這就是Bridges最大的意義所在。
卡內基梅隆大學(還是這個大學,因為它就位於匹茲堡)的教授Jay Apt說,在Bridges的幫助下,原本在個人電腦上要耗時數月的計算,僅僅幾個小時就搞定了。
超級計算機本質上是幾個計算機聯網在一起,以一個整體進行運算。通常要使用2500個電纜連接組件,如果連在一起,可以繞地球……不是,大約是7.2公里。
Bridges的機房有一個雙鎖的大門,需要用鑰匙卡和訪問碼才能進入。Bridges由27個機架組成,每個大約1.8米高,堆疊的計算機共有三排。冷氣從地泵吸入用以冷卻。
Bridges提供三種類型的計算選項,稱為節點:常規、大型和超大型。常規內存節點具有128GB內存,大約是高端筆記本計算能力的8倍。常規節點共有800個。
Libratus在600-700個節點上運行,這些節點的小子集在打牌時做出決定。而其餘的工作則是改善Libratus,讓這個人工智慧程序可以玩得更好。
最後看看這個賭場
上面放了好多德州撲克人機大戰的照片,但多是河流賭場的內景。其實這個賭場就位於一條河流的旁邊,夕陽西下,華燈初上的時候,還挺漂亮。
這張是賭場白天的全景。
現在,這場賭局已經落下帷幕,AI的進步才剛剛開始。
來源:微信公眾號:量子位
據說,這次AI的成本花費也達到了天價,數十個頂級CPU助陣,這也一定程度上反映了AI領域的創業成本極高。
推薦閱讀:
※工業機器人密度提升,全球生產自動化加速
※機器人教育的課程目標是什麼?
※全球工業自動化加速增長:機器人平均密度達到每萬人74台
※數字化平台、增強現實是今年工博會的主題
※先聲智能語音機器人是如何實現談業務、聊天的?