AI攻克德州撲克帶來的不安:一台機器可以唬弄一個人類
本文內容由次元君翻譯自《連線》
在接近三個星期的時間裡,金一直坐在匹茲堡的一個賭場,跟一台機器進行撲克比賽。
但金不是普通的撲克玩家,機器不是普通的機器,這也不是普通的撲克的比賽。
金,28歲,是世界上最好的牌手之一。機器則是由卡內基梅隆的兩位計算機科學研究人員構建的,是一台在匹茲堡超級計算機上運行的人工智慧系統。
他們打了連續20天的無限注的德州撲克,一種特別複雜的撲克玩法。在德州撲克里,投注策略會影響幾十手牌。
比賽已經結束。在比賽到中段的時候,金開始有這種感覺,Libratus似乎可以看穿他的牌。
「我不是指責它作弊,」他說。「只不過它玩的太好了。」
事實上,它打敗了金和另外3個世界頂級牌手,這是歷史上第一個戰勝頂尖牌手的人工智慧。
在比賽中,Libratus的製造者沒有什麼解釋:這個系統怎麼運作的這麼成功。在模仿人類直覺上,其他機器沒到達過這個高度。
事實證明,這個AI能達到這樣的高度,因為它不只是一個AI。
Libratus依賴於三個不同的系統一起工作,這表示現代AI並不是單純由一種技術驅動,而是許多種。
深度神經網路得到了很多關注,因為它們被科技界巨頭們應用在圖像識別、翻譯、搜索。
神經網路的成功也給其他AI技術帶來了新的生命,幫助機器模仿甚至超越人類的才能。
但是,Libratus,是一個沒有使用神經網路的AI。它主要依賴於一種稱為增強學習的AI形態:一種極端的試錯法。本質是,它不斷地在遊戲里跟自己不停較量。
Google的DeepMind實驗室在構建AlphaGo的增強學習中使用了這種系統,提前十年破解了圍棋,但兩個系統之間有一個關鍵的區別。
AlphaGo通過分析來自人類玩家的3000萬種落子來學習圍棋,然後通過對抗自己來提高技能。相比之下,Libratus從頭開始學習。(次元君補充:AlphaGo從2.0版本開始棄用了人類棋譜,純粹使用加強學習)
通過一種叫「counterfactual regret minimization」的演算法,AI開始「隨便」玩。
最終,經過幾個月和數萬億手的的訓練,AI達到了一定的水準。
它不止能挑戰最好的人類牌手,它的打法讓對手更難猜測它手上的牌,投注範圍更廣,更隨機化。
「我們給了AI遊戲的描述,但我們不告訴它怎麼去玩,「一個叫Noam Brown的CMU研究生說。他與他的教授Tuomas Sandholm一起建立了系統。
「它開發了一種完全獨立於人類遊戲的戰略,它可以跟人類玩遊戲的方式截然不同。
但這只是第一個系統。在匹茲堡的比賽中,第二個系統會分析當前遊戲的狀態,並集中注意第一個系統的運轉。
這個系統被稱為「結束遊戲的解決方案」。在它的幫助下,第一個系統不需要去回憶過去的所有可能的場景,它只需要回溯其中的一些。Libratus不僅僅是在比賽前學習。在比賽中,它同樣在學習。
這兩個系統本來就很有效了。但是金和其他人類玩家仍然可以在跟機器的比賽中找到固定模式並利用它們。
這就是Brown和Sandholm建立了第三個系統的原因。每天晚上,Brown會運行一個演算法,演算法可以找出這些被察覺的固定模式,然後刪除它們。
「它可以計算一整夜,第二天又掌握了主動,」他說。
這聽起來好像不是很公平,好吧,但這就是AI工作的模式。
不僅僅是AI,這種模式跨越了許多技術。人類也經常在混合、積極改善、運行或增加AI的演算法。
Libratus確實是一個里程碑,它顯示了有一種AI,可以在華爾街的金融交易,到網路安全,到政治談判等等,都發揮出巨大的作用。
Andrew是百度的首席科學家,他曾經幫助創建了谷歌的中央AI實驗室。他說:「撲克已經是AI最難的破解遊戲之一,因為你只能看到遊戲的部分信息。「
這裡沒有所謂的最佳單一策略。相反,AI玩家必須把自己的行動隨機化,以迷惑對手,進而唬弄對方。
Libratus在極端情況下做到了這點。它會以遠遠超過最好的牌手的方式,將投注隨機化。
如果這不管用,Brown的演算法會在當晚把缺陷補上。
德州撲克可以這麼玩,成熟的貿易商人可以以同樣的方式工作,外交官也是一樣。
Libratus的出現揭開了一個令人不安的命題:一個機器,可以在外面唬弄一個人。
關注微信號:次元新科技(Up2333up),看吃瓜群眾最關心的未來科技
推薦閱讀:
※深度學習小實驗1:使用RNN教AI學會吟詩作賦
※[NLP] 秒懂詞向量Word2vec的本質
※recsys(acm recommender sysytems) 2016 有哪些值得關注的論文?
※【專知薈萃23】深度強化學習RL知識資料全集(入門/進階/論文/綜述/代碼/專家,附查看)
※深度學習——分類之Densenet