如何看待人工智慧系統 Libratus 戰勝四位德州撲克頂級選手,獲得最終勝利?
當地時間1月30日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學
(CMU)開發的人工智慧系統 Libratus 戰勝四位德州撲克頂級選手,獲得最終勝利。
看到其他回答說了很多理論,這裡先拿出這次比賽的幾局實戰來複盤,方便大家理解AI玩牌和人類思維到底有什麼不同。
首先明確一下,這次比賽和常規的德州撲克6人局、9人局不同,是人類和AI 1V1單挑。
第一局 人類贏了
盲注200。人類玩家Kim這局是莊家,手裡的牌是黑桃7和紅桃9,AI拿到一對8。
未翻牌階段Kim直接下注274。Libratus跟。
首三張公共牌是:黑桃6,紅桃5,黑桃4。Kim這時手裡已經拿到雙頭順+後門花,機器下注274,Kim跟。
第四張牌:紅桃8。AI拿到3個8,下注274。而Kim這裡已經是一個Nuts順,只輸後門花,直接下注3151。Libratus的選擇是繼續跟。
最後一張River card:黑桃9。這意味著,牌局有可能出現「同花」。AI直接下重注15000,演一手同花。Kim有點猶豫,但還是Hero call跟進開牌,最終贏得了牌局。顯然剛才電腦是在詐唬。
第二局 AI贏了
同時進行的另一場牌局,人類高手Jason Les當時以一對10開局,一張方片一張紅桃。翻牌後,首三張公共牌是:K、9、4,其中有兩張梅花。Jason下注繼續。在這種局面下,AI按理說應該希望再出一張梅花,湊成一個同花。 第四張公共牌,發出一張5,不是梅花。當時,兩邊都已經看牌。最後一張公共牌,是一張Q,也不是梅花。然後,人工智慧突然壓上了所有的籌碼。
面對這個局面,Les選擇不跟。人工智慧贏下一手。
總結來說: Libratus經常特別激進的下注,下注的額度遠遠超過底池裡的額度。「其實人類並不這樣,通常不會為了贏一點錢,冒著輸掉很多錢的風險」,撲克高手Doug Polk說,「但人工智慧沒有這種心理,它只看怎麼玩更好」。
Libratus AI是如何確立自己玩牌的策略的?
眾所周知,研發Libratus的卡內基梅隆大學,其Computer Science專業堪稱全球最好。具體倒這次AI演算法的研發上,Libratus和Google的阿爾法狗有所不同。下面引用 《連線》雜誌的一段描述:
Libratus就沒有使用神經網路。它主要靠的是強化學習,這是人工智慧的一種,一種極其強調試錯的方法。其實質就是自己跟自己玩大量的遊戲。Google的DeepMind實驗室利用強化學習來開發AlphaGo,這套系統攻克圍棋的時間比預期早了10年,但這兩套系統之間有一個關鍵的不同。AlphaGo是通過分析人類玩家的3000萬份棋譜來學習遊戲的,然後才通過自己跟自己下棋來改進自己的技能。相對而言,Libratus卻是從零開始學的。
再來看Libratus的系統構成:
Libratus依靠了3套不同的系統的協作:
通過一種名為反事實遺憾最小化(counterfactual regret minimization)的演算法,它先是隨機地玩,然後最終在經過幾個月的訓練以及玩了上萬億手撲克之後,它也達到了能挑戰最好人類玩家的高度,不僅如此,它的玩法還是人類所不能的——它下注的範圍要大得多,而且會對這些賭注隨機化,這樣對手就更難猜自己手上都有什麼牌了。跟導師Tuomas Sandholm一起開發了這套系統的CMU研究生Noam Brown說:「我們只是向AI描述了這個遊戲,但沒有告訴它怎麼玩。它完全是獨立於人的玩法形成自己的策略的,而且它的玩法跟人的玩法會非常不一樣。」
但這只是第一階段。在匹茲堡的比賽期間,第二套系統會分析遊戲狀態並聚焦於第一套系統的注意力。這套系統屬於一種「殘局解算器(end-game solver)」,上周一Sandholm 和Brown發表的論文詳細描述了它的細節。在第二套系統的幫助下,第一套系統再也不需要像過去那樣跑完所有可能的場景了。它可以只試探其中的一些場景。也就是說,Libratus不僅僅是在在比賽前學習,而且還能在比賽中學到東西。
光靠這兩套系統就已經很有效率了。但Kim等其他玩家仍然能夠找出機器玩法的一些模式然後設法加以利用。為此,Brown和Sandholm開發了第三套系統。每天晚上Brown都會跑一個演算法來識別出那些模式然後從策略中剔除掉。他說:「一個晚上它就能計算完然後在次日把一切準備就緒。」
以上其實可以看到,Libratus主要依靠自己的近乎無限的計算量,通過無數盤德州撲克對決,把自己培養成能夠面對各種複雜牌局都能提供最優解,換言之,Libratus本身就變成了德州撲克對決的最優演算法集。
這樣的能力,想想還是挺可怕的,因為其意味著可以復用到基本所有行業,人工智慧可以靠自己和自己玩,憑藉自身的計算能力就形成對絕大多數人類決策的碾壓。
瀉藥,CMU的Libratus的解決方案讓我眼前一亮,很傳統的博弈論的方法,應該是深耕多年了,在現在這個遍地深度學習的AI圈子裡簡直就是一股清流。有興趣的可以讀讀看,我只是大概掃了一眼 http://www.cs.cmu.edu/~noamb/research.html
在我的這個回答里,有大概幾個星期前捷克科學家的德撲AI解決方案: https://www.zhihu.com/question/21785717/answer/140277285
這個解決方案和阿法狗有相通之處,也用到了大熱的深度學習的方法。我期待的是,什麼時候Libratus和DeepStack干一架,看看傳統數學方法能不能戰勝神經網路方法。需要說的一點是,Libratus並沒有想「戰勝」人類,而是找到了一個幾乎不會戰敗的策略。libratus出牌並不通過考慮人類對手的風格來最大化自己的收益。Libratus 假想自己的對手是一個無限聰明的玩家,而且事先完全知道自己的策略。在這種苛刻條件下,libratus 要找到一個策略讓自己的損失最少。舉個例子,如果你要和這樣一個全知全能的玩家玩石頭剪子布,你會怎麼做呢?答案很簡單,每次用同樣概率出石頭剪子布就好了,這可以保證你不會輸,但是如果你遇到了一個每次出石頭的傻傢伙,你也不會贏。類似的,libretus找到了一組概率, 使得它在面對最強的對手時也幾乎不會輸(幾乎是因為這組概率由於計算能力有限是近似值),但是不完美的人類和libratus對抗也只是小虧一點,並不會一敗塗地。畢竟,libratus從來沒把人類對手放在眼裡呀。
然而,慶幸的是這樣的神策略(假設面對最強對手來最小化損失)在多人撲克中只能保證不會是最後一名,而不能保證不輸(比如在三人撲克中可能人類A贏100,人類B輸80,libratus輸20)。這是博弈論的一個結果,而不是僅僅通過優化演算法或者提高算力能解決的。因此,多人撲克AI中libratus恐怕還需要一些新的突破。
PS:
很多人把libratus,阿爾法狗,自動駕駛什麼的都叫人工智慧,但這些之間真的沒多大關係,都只是針對某個特定問題寫的特定演算法而已。如果真的理解了這些演算法,你會發現裡面只有人工沒有智能。謝邀。
作為一個學過些數學的機器學習/人工智慧粉絲來說,我覺得這結果還挺令人興奮的,畢竟這又是機器的一次勝利。但作為一個所謂的德州撲克業內人士,我覺得跟我關係不大。受限於我的知識水平,這裡我主要談談作為所謂德州撲克業內人士的角度吧。
德州撲克這遊戲能發展到今天,成為一個行業,從來都不是因為最厲害的參與者有多厲害,也不是因為這遊戲客觀上有多少人能戰勝。等到有一天多人桌無限注德州撲克能夠被可以在家用計算機上簡單運行的程序輕鬆戰勝的時候,再探討網路真錢撲克的末日我覺得會更恰當。
Libratus的勝利可能會增加行業內對機器人的研究熱情,同樣也會增加各大平台的反機器人力度。但這其實也不會有什麼太大的影響,畢竟單挑德州撲克早在Libratus的勝利前就已經是一個很冷門的遊戲種類了。而從單挑到多人桌,其實是一道鴻溝。阿爾法狗再厲害也只能同時咬一個對手。
Libratus的打法也有不少有意思的地方,比如頻繁的超池等等。客觀地說在我看來它的這些打法,其實本身並沒多高級。Libratus的厲害之處在於他對雙方範圍的分析能力實在太強,以至於它可以發現每一個適合於執行超池下注的點,攻擊檯面上每一點範圍的弱點。對於人類玩家而言,超池很簡單,難的是分析什麼時候適合超池,而這光看Libratus的牌譜在我看來意義會比較有限。
總結的話,雖說總有一天多人桌無限注德州撲克一定會有能夠在家用機上輕鬆運行的AI出現並且粉碎人類,但Libratus的成功並不代表著我們離那天很近。在那天來臨之前,Libratus的勝利,或者類似的AI的勝利對撲克行業很難會有特別大的意義。
手機碼字,如有疏漏還請多多包涵。在CMU讀本科(就是開發這個德普AI的學校),答主也是德州撲克愛好者,經常參加學校里的Tournament。前陣子Doug Polk來學校里的undergraduat poker club互動。Doug Polk就是去年和AI打牌的四名人類選手之一。答主有幸和他玩了兩手,然而發現只能通過bluff偷盲。
然而,我過了一會兒就出局了。
然後,因為盲注升太快,Doug Polk過了一會兒,也出局了。。。於是找他聊了聊和AI打牌什麼感覺,畢竟人家和AI實戰過。總而言之,poker玩的是人,是對手,而不是手中的牌,然而現在的對手是一個沒有情緒的AI。PS:Doug Polk好壯啊四月的時候,承蒙 CMU 和騰訊朋友的邀請,得以和打造 Libratus 的 Tuomas Sandholm 教授一起吃飯交流。和媒體報道的誇張渲染不同,教授其實對 Libratus 的優勢和局限有著非常客觀的認識,也有比較實際的下一步規劃,席間我問了一些技術問題,等有時間整理寫出來。
2017年1月30日,在賓夕法尼亞州匹茲堡的Rivers賭場,卡耐基梅隆大學(CMU)開發的人工智慧系統Libratus戰勝4位德州撲克頂級選手,獲得最終勝利。
四名撲克選手:Daniel McAulay (左一),Jimmy Chou(左二),Jason Les(右二)、Dong Kim(右一)。人工智慧Libratus的項目主任(左三),工程師(右三)
自從任從圍棋之後,人工智慧有新突破。圍棋總共可能有10^171種可能性,而德州撲克也有高達10^160種可能性,遠超當今電腦運算能力。
另外,德州撲克不同於圍棋,象棋之處在於,由於對方的「底牌信息」是隱藏信息,對於計算機來說,就是在處理一種「非完整信息博弈」,而圍棋對弈雙方的信息是完整的、對稱的,並沒有隱藏的信息。Libratus此次戰勝頂級人類德州撲克選手,具有非常重要的意義。
世界上眾多領域的問題,如談判,軍事對抗,經濟,互聯網安全,都包含大量未知信息,解決德州撲克的人工智慧技術會在眾多領域得到應用。
此次由4名世界頂級撲克職業玩家:Jason Les、Dong Kim、Daniel McAulay 和Jimmy Chou對戰人工智慧程序Libratus,賽程為20天,一共進行了12萬手牌的比賽。最後人工智慧以1766250分的優勢戰勝4位人類選手。
比賽模式:
比賽模式為1對1(head up)德州撲克,在20天內,4位人類玩家總共打12萬手,每位玩家各自與人工智慧進行3萬手牌1對1德州撲克。平均每天打1500手牌,進行10小時比賽,每小時打150手1對1德州撲克。
大盲注,小盲注分別為$100,$50,每手牌的籌碼為200個大盲注。當一手牌結束後,雙方籌碼都重新設定為$20000分。這是為了減少上一手牌對下一手牌的影響,減低運氣成分對比賽結果的影響。
比賽模式類似以下網路撲克應用 Play Texas Holdem Against Strong Poker Ai Bots , 這款撲克AI名稱叫HibiscusB,能戰勝中級水平的撲克玩家,但沒有Libratus強大。
應用界面如下,撲克迷可以到這個網站與AI對局,體驗一下。
比賽結果分析:
4位撲克選手總共輸給人工智慧Libratus 1766250分,即17662.5個盲注(大盲注100分)。其中Dong Kim 的成績最好,但也輸掉了85649分,即856個盲注。成績最差的Jason Les 輸掉了8800個盲注。人類頂級的4位撲克玩家在12萬手牌共輸掉17662.5個盲注,平均每100手牌輸14.7個盲注。以每小時打150手牌的速度,平均每小時要輸掉22個盲注。
這是什麼概念,按當前中國大多數地下德州撲克的遊戲,通常玩5/10元大小盲注,1000-2000元一個買進(絕對違法)。與人工智慧1對1打head up,每小時要輸220元,平均一天要輸掉2200元,20天要輸掉4.4萬元人民幣。
如果玩大的50/100元盲注,2萬元一個買進,如1元等於比賽里的1分($),平均每天要輸2.2萬,20天要輸掉44萬元人民幣。
而且,那4位選手是世界排名前15的1對1的撲克玩家,對於多數休閑娛樂的德州撲克玩家,輸牌的速率可要翻倍的,也就說打5/10元盲注,每小時會輸上440元,打50/100元盲注,每小時會輸上4400元,20天要輸掉88萬元人民幣。
如果有人會問,如果把這個人工智慧程序拿來,然後連接到國外撲克網站Poker star,Full Tile上贏美刀多爽啊。德州撲克有10^160可能性,運行該程序所需的超級電腦。價格可能數百萬美金不止,估計每小時消耗耗的電費都要比贏來的錢還多。
德州撲克是賭博,還是技巧?
德州撲克有運氣成分,但比賽總共進行12萬手牌,牌運的影響幾乎微乎其微。打100-1000手牌,運氣還是影響很大的;但打了12萬手牌贏到17.66萬個盲注,比賽結果的可信度高達99.77%。
也就是說,每場比賽打12萬手牌,人類與AI進行1000場比賽,AI將贏下998場,人類只能贏下2場。因此,人工智慧Libratus 有著完全不可逆轉的優勢。
也就是說,每場比賽打12萬手牌,人類與AI進行1000場比賽,AI將贏下998場,人類只能贏下2場。因此,人工智慧Libratus 有著完全不可逆轉的優勢。
即使同為頂級高手的4位撲克玩家,在對局人工智慧的成績中,他們的實力也分出高下。
在與同樣AI對局3萬手牌後,四個玩家成績分出檔次,其中Dong Kim 輸掉856個盲注,比Jason Les 輸掉了8800個盲注的成績好10倍。另外,兩名玩家各自輸了2776個盲注,5728個盲注。
如果這四個人相互對局3萬手牌,Dong Kim 與 Jason Les對局,那他也會贏到8800-856 = 7944個盲注,也許會有上下1000個盲注的波動。總之Dong Kim 的牌技優勢還是高於Jason Les ,但要打上萬手牌才能分出勝負。
4位選手的實力:
一直說這4位選手為世界頂級撲克玩家,可大多數撲克迷都沒聽說過他們。怎麼沒有 Phil Ivey, Daniel Negreanu,Tom dwan這些撲克明星呢?
其實,大家每天在視頻上看到的那些撲克界的明星都是5-6年前的對局了。當網路撲克興起後,大量優秀的撲克玩家湧現。任何事情搬到到互聯網上,發展速度都變得驚人。5年的撲克水平在網路上能贏到100萬美金,5年後卻只能輸錢,所以原來的高手,並不是現在高手。如今讓Daniel Negreanu 到 Poker Star 打1/2美元的遊戲,他未必定能贏到錢。
另外,這場人類與AI的對局要每天打8-10個小時,打上20天,獎金還不到20萬美金。Tom dwan在澳門賭場里一手牌輸掉1100萬美金。所以他們不屑於為了這麼點獎金,打這麼漫長的比賽。
在2005年以前,互聯網撲沒興起時候,人們普遍在線下打撲克,一小時打上20手牌,要練成一個優秀的撲克選手至少要2-3年,而且還要有高手指點。大多數人打了7-8年撲克還是同樣的臭水平,那時候高深的撲克知識也並不普及,多數撲克書籍都是垃圾。
而2005年後有了互聯網撲克,人們1個小時能打1000收牌,速率提高50倍,職業玩家1年能打上千萬手牌。各種高深的撲克技巧在網上到處都能找到,於是互聯網撲克水平變得越來越高,而且每年都在不斷發展新的撲克技巧。
以上那4位高手,在網路進行上千萬手牌的對局,都是各大撲克網站1對1贏牌率最高,他們征服了忽略網就必然征服整個撲克界。
而且,2人德州撲克是技巧性最強的對局模式。在多人對局德州撲克遊戲,拿到強牌的概率高,沒有牌的時候就可以扣掉,損失很少。而2人對局撲克,每次扣牌就丟掉1.5盲注,跟注時拿到強牌的機會很少。因此,2人德州撲克對局更多的bluff,發現並打擊對手的弱點,依靠策略才能贏牌。
當人工智慧以巨大的優勢戰勝這4位高手,可以肯定世界上沒人能打敗人工智慧Libratus。因為Libratus是根據納茨博弈理論,經過Counterfactual Regret Minimization(反事實思維) 方法學習後,形成最完美的撲克打法。
人工智慧在撲克的應用:Counterfactual Regret Minimization
反事實思維是個體對不真實的條件或可能性進行替換的一種思維過程。反事實思維(counterfactualthinking)是美國著名心理學家、諾貝爾經濟學獎獲得者Kahneman提出的。
例如:生活中有一種心理現象,就是思維活動針對的不是已發生的事實,而是與事實相反的另一種可能性。人們遲到的時候,會尋思「如果早點動身就不會遲到了」;人們考砸的時候,會尋思「要是再加把勁這次考試就能及格了」。所謂反事實思維,就是與事實相反的假想。
反事實思維是對過去已經發生過的事件,之後進行判斷和決策後的一種心理模擬(mentalsimulation)。反事實思維通常是在頭腦中對已經發生了的事件進行否定,然後表徵原本可能發生但現實並未發生的心理活動。它在頭腦中一般是以反事實條件句的形式出現。反事實條件句(counterfactualconditionals)也叫「虛擬蘊涵命題」,它具有「如果……,那麼……」的形式。
例如:「如果剛才沒買那件衣服,現在就可以買這件了。」一個反事實思維包括兩個部分:虛假的前提(「如果剛才沒買那件衣服」)和虛假的結論(「現在就可以買這件了」)。
其實,這也是人類學習撲克的一種模式,即試錯模式。每次輸了一手大牌後,最好想如果我當時不去加註,不去跟注,或者扣牌,就不會輸了。每次對過去的行為感到後悔,然後總結經驗,調整打法,看是否贏得更多的錢。或少輸錢。
當然,這是一種非常慢的自學方式,人類更多是從互聯網學習別人已經總結好的正確打法。然後,在加以練習,比如每天打上4-5個小時,再花1-2個小時總結今天打撲克的錯誤和進步,一般6個月里在互聯網上打300—500萬手牌,通常能成為優秀的撲克玩家。
撲克人工智慧是通過Counterfactual Regret Minimization進行100萬億手牌的訓練來形成一套完美的打法。
當然這還遠遠不夠,撲克的完美打法是根據不同的對手,在不同時間段,進行調整的。比如對抗攻擊性極強的玩家,與打牌很緊的玩家的打法是不同的。
例如: 一個打法瘋狂的玩家100個大盲注全壓,拿AJ,AQ,TT,99 以上的牌跟注就足夠了,但如果一個打牌非常緊的玩家100個盲注全壓,至少要AK,QQ以上的牌才能跟注。
因此,人工智慧還必須根據近期相關性的牌局,來調整自己的打牌的範圍,進而適應不同對手,不同的打法。這就需要另一項技術應用recursive reasoning 來進行 Continuous Re-Solving。。。
這使得系統逐漸補救了戰術中的漏洞,最終如桑德霍姆描述為「系統大舉獲勝,結果很顯著」。「比賽到一半的時候,我們真的以為要贏了,」其中一位專業玩家丹尼爾. 麥考利(Daniel McAulay)說。「我們真的有機會打敗它。」
卡內基梅隆大學團隊每晚用超級電腦來分析白天的比賽,提高系統性能。系統檢測自身在每輪比賽中的弱點,每天補救三個最明顯的失誤,而不是試圖學習對手的制勝戰術。
這個方法最終使其出其不意用大賭注智勝它的對手,桑德霍姆稱之為系統相對人類「心理承受能力」的優勢。
相對其它玩撲克的程序,Libratus最主要的提高在於電腦在接近遊戲最後時的玩法。先前的系統從頭至尾使用單一戰術,但是Libratus使用額外的反饋迴路來實時回應對桌的人類。
「我們用了所有能想到的辦法,它實在是太強大了,」另一位撲克玩家傑森.萊斯(Jason Les)說。「它每天的出現都讓我們士氣低落,最後輸的這麼慘。我以為我們最後的籌碼會非常接近。」
桑德霍姆說,幾乎可以肯定要單獨成立一家新的創業公司,用Libratus背後的技術來開發商業用途。他已經研究了27年的談判策略。他早先開發過的一款程序被2/3的美國器官移植中心使用來決定哪位病人可以得到新腎的移植。
太累啦!o (╯□╰)o
後面文章以後在翻譯啦,如果這篇文章上知乎日報的話,可以考慮 ( ′? ??`)如果大家對人工智慧感覺太抽象,很難理解,可以看本人寫過的一篇人工智慧的應用介紹,簡單易懂,初中生就能明白。Introduction to CMAC Neural Network with Examples
http://skyocean117.blogspot.co.nz/2013/12/introduction-to-cmac-neural-network.html下面是撲克人工智慧Libratus的設計理論,項目主任的講座視頻,大家翻牆自己看去吧!
https://www.youtube.com/watch?v=QgCxCeoW5JIHowever, how the opponent』s actions reveal that information depends upon their knowledge of our private information and how our actions reveal it. This kind of recursive reasoning is why one cannot easily reason about game situations in isolation,
which is at the heart of local search methods for perfect information games. Competitive AI approaches in imperfect information games typically reason about the entire game and produce a complete strategy prior to play (14, 15).2 Counterfactual regret minimization (CFR) (11, 14, 17) is one such technique that uses self-play to do recursive reasoning through adapting its strategy against itself over successive iterations. If the game is too large to be solved directly, the common solution is to solve a smaller, abstracted game. To play the original game, one translates situations and actions from the original game in to the abstract game.
While this approach makes it feasible for programs to reason in a game like HUNL, it does so by squeezing HUNL』s 10160 situations into the order of 1014 abstract situations.
DeepStack takes a fundamentally different approach. It continues to use the recursive reasoning of CFR to handle information asymmetry. However, it does not compute and store a complete strategy prior to play and so has no need for explicit abstraction. Instead it considers each particular situation as it arises during play, but not in isolation. It avoids reasoning about the entire remainder of the game by substituting the computation beyond a certain depth with a fast approximate estimate. This estimate can be thought of as DeepStack』s intuition: a gut feeling of the value of holding any possible private cards in any possible poker situation. Finally, DeepStack』s intuition, much like human intuition, needs to be trained. We train it with deep learning using examples generated from random poker situations. We show that DeepStack is theoretically sound, produces substantially less exploitable strategies than abstraction-based techniques, and is the first program to beat professional poker players at HUNL with a remarkable average win rate of over 450 mbb/g.
Continuous Re-Solving
Suppose we have a solution for the entire game, but then in some public state we forget this
strategy. Can we reconstruct a solution for the subtree without having to solve the entire gameagain? We can, through the process of re-solving (17). We need to know both our range atthe public state and a vector of expected values achieved by the opponent under the previoussolution for each opponent hand. With these values, we can reconstruct a strategy for only theremainder of the game, which does not increase our overall exploitability. Each value in the opponent』svector is a counterfactual value, a conditional 「what-if」 value that gives the expectedvalue if the opponent reaches the public state with a particular hand. The CFR algorithm alsouses counterfactual values, and if we use CFR as our solver, it is easy to compute the vector ofopponent counterfactual values at any public state.Re-solving, though, begins with a solution strategy, whereas our goal is to avoid ever maintaininga strategy for the entire game. We get around this by doing continuous re-solving:reconstructing a strategy by re-solving every time we need to act; never using the strategy beyondour next action. To be able to re-solve at any public state, we need only keep track ofour own range and a suitable vector of opponent counterfactual values. These values must bean upper bound on the value the opponent can achieve with each hand in the current publicstate, while being no larger than the value the opponent could achieve had they deviated fromreaching the public state.5At the start of the game, our range is uniform and the opponent counterfactual values areinitialized to the value of holding each private hand at the start.6 When it is our turn to act納茨均衡:
Exploitability The main goal of DeepStack is to approximate Nash equilibrium play, i.e., minimize exploitability. While the exact exploitability of a HUNL poker strategy is intractable to compute, the recent local best-response technique (LBR) can provide a lower bound on a strategy』s exploitability (20) given full access to its action probabilities. LBR uses the action probabilities to compute the strategy』s range at any public state. Using this range it chooses its response action from a fixed set using the assumption that no more bets will be placed for the remainder of the game.首先跟大家簡單介紹下納什均衡的概念--- 納什均衡是指一個策略組,任何玩家都無法通過單方面的改變策略來增加收益。納什均衡策略組中的每個玩家的策略都是對策略組中其他策略的最佳反應。納什均衡策略組很重要,因其在兩人零和博弈中有額外的屬性。在兩人零和博弈中,若某玩家從納什均衡策略組中選中一個策略,其他玩家改變策略不會獲得更大的收益。 而在大部分Poker AI 中都是希望求解出來的策略組跟真正的納什均衡足夠的近。 所以這樣策略組的exploitability 是足夠小的,在假定對手有足夠能力的來利用我的缺點(given sufficient exploitative power)的情況下,我的策略也是可行的。
介紹完納什均衡後,我們可能在想怎麼求解德州撲克中的納什均衡,接著介紹用來求解均衡的CFR(Counterfactual regret minimization) 中文名字叫:虛擬遺憾最小化演算法。CFR來源於Regret matching 演算法,然而Regret Matching 演算法只能適用於正則博弈中,對於德州撲克這類擴展式博弈中無法直接使用Regret Matching, 通過定義Counterfactual Value在每一個Information Set 上進行Regret Matching來減少每一個Information Set 上的Immediate Regert,而Immediate regret的和是小於external regret.而external regret 跟http://www.zhihu.com/equation?tex=%5Cepsilon -nash equilibrium之間是有關係的,從而可以使用CFR來求解出納什均衡解。但是CFR的空間複雜度為 ,對於二人限制性的通過一些lossless abstraction 後就可以直接求解,對於二人非限制性(遊戲空間大概為 )根本無法直接求解,故先用abstraction 然後再CFR,大致的流程如下:
然而到了13年的時候Sam(Noam 的師兄,CMU的PHD) 首次將Endgame 的思想引入到了二人非限制性中來了上圖的框架變成了如下圖所示。
在Endgame 中agent 會根據玩家的在前幾輪的action,然後根據action所反映出來的手牌信息,對Endgame 進行實時求解。實時計算需要具備強大的計算能力,這也是為什麼Librauts在實際比賽中需要Brideges的原因。
上面就是Libratus 的part one: nash equilibrium approximation before the competition 和part two: Endgame solving 的簡單介紹,在實踐中會用到很多trick, 就拿CFR的改進來說--如何Sample, Warm start, Pruning 以及Thresholding等等。在Information Set abstraction 過程中如何選擇特徵進行聚類等等。
最後說下為什麼Libratus 作為第二代AI能成功而第一代Claudico失敗的原因
Libratus 成功的4點原因(引自Sam Ganzfried):
1. Libratus: ~25 million core hours on supercomputer
Claudico: 2-3 million core hours on supercomputer
2.Improved equilibrium-finding algorithm 「Regretbased pruning」 which prunes actions with high regret early on in CFR so that the computation can eliminate large portions of the game tree following these 「bad」 actions.
3.Improved endgame solver. Used supercomputer resources in real time.
作為AI從業人員和德州愛好者,研究了一下CMU出品的Libratus。
1 Libratus很厲害,單挑准一線職業選手幾乎是「顯著」勝利。20天,四個准一線選手,12萬手牌,贏了176m(大盲100),人類選手全敗;
2 主要理論是基於納什均衡和最近火熱的深度學習關係不大,分散式計算貢獻很大;
3 這次比賽是AI和人類1v1,和我們通常的多人群戰不一樣,實際戰鬥中效果還不好評估;
4 Libratus的打法屬於「超激進松凶型打法」,經常10x 3bets的bluffs,這種打法在1v1的場景下,震懾力很大,但多人在場時,感覺風險很大。
5 Libratus具有「在線學習」的能力,通過實時輸贏的結果,修正自己的策略,20天的比賽中,有兩天是輸錢的,但是緊接著很快調整過來,不斷贏錢。
人工智慧在德州撲克再下一城,準備好顫抖的螳臂了嗎
4月6日至4月10日,李開複發起了一場德州撲克的「人機大戰」。對戰雙方分別是由六位華人頂尖撲克選手組建的中國龍之隊冷撲大師,中國龍之隊隊長杜悅曾在世界德州撲克大賽WSOP的無限注德州撲克賽事中獲得冠軍;另一方冷撲大師是美國卡內基梅隆大學托馬斯?桑德霍姆教授開發的Libratus,Libratus剛在一對一無限注德州撲克比賽中擊敗四名頂尖人類高手,讓德州撲克成為繼圍棋後又一被攻陷的領域。
賽後李開複發微博稱:
德州撲克冷撲大師和中國龍之隊對決結束了。不出意外地,AI 完勝人類。這場比賽證實了:人工智慧已從完美信息的AlphaGo,延伸到了不完美信息的冷撲大師。人機對戰基本沒有懸念了,據聞AlphaGo近期即將來華和柯潔對戰,其實已經不再具有科學意義了。以後我們應該更關注商業領域的人工智慧,在金融、醫療、教育等領域產生商業價值,讓世界變得更美好。
對技術革新的恐懼古已有之
人工智慧不斷將勝局從國際象棋領域延伸到圍棋領域,然後再次延伸到需要德州撲克領域,面對不斷挑戰人力智力極限的人工智慧,危機論、威脅論再次甚囂塵上。
既然那麼恐懼,那你準備好你的螳臂了嗎?
對於技術革新的恐懼,好像是自古以來就不曾消失的,工業革命初期就出現了盧德主義,那時候的工人對於大機器生產的出現認識不足,盲目地認為是大機器的出現使自己喪失了就業,於是憎恨大機器,所以他們就去有計劃、有預謀、有步驟得砸毀機器,以換取就業。
螳臂擋車,起作用了嗎?
他們以這種魯莽的行為去對抗新的技術新的產業,當然是無用的。但是他們這種行為里所包含的對新技術的恐懼情緒一直延續到今天,對新的技術非常抵觸,擔心技術有一天將人置於死地,甚至我們一些偉大的科學家也對人工智慧表示了極大的擔心,比如霍金,同時霍金還表示:「我們的人工智慧系統必須按照我們的要求工作。」
人工智慧系統必須聽人類的?
關於人工智慧和人類的關係,在很早之前就有各種爭論,麥克盧漢很早便對技術和人的關係做出了很精闢的論斷,他認為人的頭腦不過是技術的生殖器官,僅僅是一個出口,技術一旦藉助於人腦出生以後,他就會自由的生長,根本就由不得人。
這也是紀伯倫所說的觀點:你的孩子並非你的孩子。紀伯倫認為孩子之所以出生是因為它們對生命的渴望,而藉助於你從而來到這個世界,你可以慢慢變得像孩子們一樣,但不能要求孩子們像你一樣,因為我們偉大的領袖曾經說過:「世界是你們的,也是我們的,但是歸根結底是你們的。」
世界最終還是要屬於青年人,屬於我們做夢也達到不了的明天。
而黑格爾的異化理論則認為所有事物之間都是主體和客體的主僕關係,最開始人是主物是仆,但是當兩者相處的過程中,會發生主僕關係的逆轉,剛開始是僕人依附於主人,但是當主人把許許多多的事情都交給僕人去做的時候,主人的權力就逐漸被讓渡給僕人了,主人逐漸被掏空,最後的結果不是僕人離不開主人,而是主人離不開僕人。
比如我們的智能手機,在我們的想像中是手機服務於我們,我們給手機下指令:給我打電話!給我發微信!給我播放音樂!給我更新朋友圈……而事實上呢,卻已經是手機奴役了我們,手機一整天的給我們下指令:給我充電!給我找Wi-Fi!給我到信號好的地方去……雖然被如此折磨著,我們現在卻半小時不摸手機心理就空落落的,像丟了魂一樣,這時候是誰聽誰的?
技術的發展史是人類的懶惰史
技術的發展是伴隨著人類的懶惰而發展的,人類想提升切割獸肉的效率,發明了石刀,人類想提升獸肉咀嚼難度及口味發明了燒烤,人類為了不每天出去打獵發明了種植……人類為了加快腳力發明了汽車,人類為了溝通不用跑千里發明了電話……人類為了戰爭更快結束髮明了核彈,人類為了便捷吃飯的難度發明了速食麵……
技術的發展史儼然一部人類的懶惰史。
以前,機器被發明出來是為了外包人的體力,比如起重機、飛機、火車;而今天,機器人的發明以及人工智慧的發展正在逐步外包人的腦力,尤其是人工智慧,你和機器比計算圓周率?它分分鐘能顯示到小數點後27000億位,你能輕鬆計算出來27位不?可能除了常用的3.1415926,再後面的都不一定記得了吧,你和機器比背誦唐詩宋詞?比如背誦詩詞中帶有「酒」的詩詞,你頂天了20句,而計算機分分鐘20000條。
說起來很可悲,又有點無奈。
被人工智慧打敗反而是好事
人工智慧、機器人、機器很牛,但是這不該是我們和機器比的,我們應該拒絕被存量綁架,而是要尋找增量。
機器在某些方面很牛,但並不證明他能夠統治一切,就像自然界一樣,此消彼長,太安逸了就會讓自己限於危險的境地。
比如大熊貓,看似脆弱,經不起外界的變化的衝擊,需要被列為瀕危動物保護著,但是你知道嗎?成年大熊貓的咬合力僅次於北極熊,和棕熊齊平、奔跑速度在海拔兩千米高度的山地里能超過劉翔平地最高速度、能爬上二十米以上的大樹、能把三四頭狼當做坐墊玩,但就是這麼一種生物,居然靠賣萌為生!
因為熊貓遷徙進入四川之後,看到竹子,兩眼放光,終生以竹子為生,並長期依賴以竹子為主食,不再進化,非常安逸。
可以說熊貓是福音和詛咒的關係,任何福音都可能是詛咒。長期單一以竹子為食就導致了大熊貓受制於竹子,一旦遇到竹子大面積開花就瀕臨死亡。
相對於熊貓的安於故俗,像老虎獅子就是非常聰明的:我知道我很強,不怕外界的變化,但是我還是要不斷的獵食,雖然有時候打不到獵會餓肚子,但餓不死。比如狗熊,也是非常善於適應外界變化的,外界食物少了,我就進化!冬天沒吃的?秋天一次吃個飽,冬天不吃了;吃不飽飯?不挑食,有啥吃啥。
一條路是怎麼把你帶向成功的就會怎麼把你帶向失敗。
當我們在利用某種資源、利用某種路徑再為自己謀利益的時候,你一定要想明白,此地不可久留,你走晚了,甚至你只是走晚了一步,你一直逗留在這個地方就可能被顛覆。
人工智慧超越人類在很大程度上能夠警醒人類的發展與進步。
面對人工智慧我們該如何應對
正如咱們剛才說的,如果你眼前的盛況給你天堂般的感覺,那麼接下來等待你的也許就是地獄。
我們首先要牢牢樹立起憂患意識。
比如,我們要明白正如機器人無法拯救中國製造一樣恐懼也無法消除人工智慧的告訴發展。當年很多國家大老遠把原材料運到中國來加工,然後再運回去賣掉,是因為製造業依賴人工,而中國的人工便宜,現在機器人發展了,很多工廠反而面臨倒閉的命運。
為什麼呢?
你想,如果以後製造業只要靠機器人就可以了,不需要人工了,那美國人、德國人可以用機器人自己製造了,為什麼還需要中國呢?
真正能夠救中國的是創造,而不是更高效的製造,我們要賣不可替代的產品,而不是可被機器人替代的勞動力。
所以面對人工智慧的告訴發展,我們要改變的是心態上的適應。
恐懼無濟於事,要最快速的適應,絕不能像以往那樣在恐懼中抗拒,在阻撓中被動接受,誰能夠在最快時間掌握核心技術誰便將擁抱新的時代。
每一次技術革命出來以後,人類往往根本沒有準備。
例如第一次技術革命,當年汽車剛上路的時候,便遭到了馬車夫的極力阻撓,馬車夫認為必須把汽車給砸了,要不砸了它,他們就沒飯吃了,那時候馬車夫是白領技術活,突然汽車來了,就沒有馬車夫了。馬車夫到政府抗議,怪汽車破壞了他們的就業,最後歐洲曾經出過一個法律,汽車不允許上路。為什麼?很多的就業會消失。這項法律居然整整持續了三十年才被取消。
而另一項需要改變的就是監管。
馬雲講過一個故事,最早籃框是一個有底的筐,球投進去以後,需要用梯子上去把球拿下來再進行比賽。18年以後,有一個人說,把下面的底剪掉,不用梯子了吧。剪掉以後,球賽發生了巨大的變化,規章制度發生了變化,拿梯子的人首先反對,因為他的工作沒了。所以,任何一次的創新,背後意味著監管的改變,比賽的規則改變,改變的結果是球越來越好看,看的人越來越多。
人工智慧發展之後會怎麼樣?
經過幾十年發展,人工智慧已經從科幻小說里的一個概念,變成了當今科技發展的主流。蘋果的語音控制系統Siri、亞馬遜的智能助手Alexa、IBM的沃森超級電腦、谷歌大腦等等,能夠理解這個世界並且給出高效反饋的智能機器似乎就在眼前。
強大的互聯網接入和計算機運演算法則讓機器在理解人類語音、視頻信息的方面取得了飛躍性的進步,也逐漸向真正的人工智慧邁進。可自動響應的人工智慧產品距離我們還遠嗎?
現在人工智慧廣泛應用於比如自動交易系統、無人駕駛汽車等領域,那麼機器給出的一個錯誤的決策會給很多人帶來經濟損失、生命危險,人工智慧又朝一日會不會覺醒,故意的讓人類的經濟混亂、草菅人命?
我認為,這些擔心完全沒有必要。
佛教講:因無所住而生其心。心無掛礙,無掛礙故,無憂恐怖。
任何風險都有兩面性:做這件事的風險和不做這件事的風險。
雖然人工智慧在可預見的範圍內會讓大量的體力及輕腦力工作的工人失業、但是我們決不可潑出洗澡水倒了孩子,人工智慧的價值必須得到充分的認識,人工智慧在某些領域能夠比人類更出色地解決問題,比如大數據篩選。
然而,某些人類擅長的領域裡,機器的表現非常糟糕。比如常識推理、提出精彩的問題以及「跳出來」想問題、藝術領域、慈善領域。
如果有一天機器人真的可以通過人工智慧讓我們不用工作就能獲得良好的物質生活,我們何不樂享生活,依然保持飽滿的鬥志,開發我們作為人類所擁有的更多的主觀能動性,在藝術等領域發揮我們得天獨厚的天賦?
當然,未來在人工智慧的衝擊下,人類會是什麼樣子我在這裡很難想像,因為這畢竟是一個未來的事情,就像福特說的那樣,如果你問人們想要一個什麼樣的交通工具,他們會告訴你:一匹跑得更快的馬,他們根本不知道汽車是什麼。
好吧,姑且就認為我們在人工智慧到來之際,需要的那匹跑得更快的馬是人類無限的鬥志和創造性的藝術能力吧。
面對人工智慧,讓我們勇敢地伸出顫抖的螳臂。
這次不是擋車,是擁抱!是駕馭!
歡迎關注公眾號:景辰(iJingChen)
蟹腰。 這就是所謂的歷史的進程吧。 之後是不是會出現不同演算法的機器人之間的比賽呢?不知道會怎麼樣啊,肥腸臍帶!
人類會走向滅亡。
反正我的看法是以後不玩ps 888 tilt了
非AI專業的八卦一下。
這個project帶頭的學生之一Noam Brown自己說在十年前第一次做poker AI,然後就夢想有一天做一個足以打敗人類的AI。我在PhD Open House的時候看過他的演講,正好是一年前的這個時候。
所以人還是要有夢想並為之努力一下的,萬一實現了呢?謝邀
說一句主觀臆斷以及不負責任的話:其實ai在德州上戰勝人類比圍棋要簡單多了這就是為什麼阿法狗由全球市值最大公司開發,而Libratus只是產生於美國一所不錯的大學裡。
(只是開個玩笑,很多重大科研成果也是大學裡搞出來的)看來這次賭神真的得變超級賽亞人才能打贏人造人了……
一. AI什麼能贏?
1. AI 沒有情緒, 在優秀的人類玩家也會因為波動而受到影響
2. AI 調整速度非常快。比賽進程中AI仍在不短調整, 不斷計算出最最優化的決策, 這個調整速度, 人類玩家是不可能與之相媲美的。
3. HU 的決策與動態調整想多6人桌 滿人桌的動態調整要少。
4. 如果AI可以與自己對戰並且不斷學習, 那麼他打的手數將會超過任何一個人類玩家, 這樣的手數優勢, 人類玩家是無法超越的。
就結果而言,AI碾壓人類選手是必然的事情, 現在只是HU, 100BB 有效, 未來必然會碾壓6 max,9max, 500BB有效甚至1000BB有效。AI的天然優勢導致了它在德州撲克領域終將登頂的事實。然而這不算是AI的勝利, 只能說是數學的勝利。
二. 對行業的影響:
1. Online poker 終將死亡。現階段AI只是碾壓HU, 那麼人類學習AI策略或者直接使用AI機器人去打HU這個項目, 最終結果就是所有不使用AI策略或者AI機器人的所有娛樂玩家和職業玩家都會被碾壓. 對娛樂玩家來說, HU這個項目是赤裸裸的-EV的項目, 短期打內勝率低, 長期打無勝率, 打HU的EV還沒打21點高, 誰會心甘情願去給AI交學費?
如果未來AI登陸Online poker 且碾壓了6-max, 9-max cash game, 則所有的人類玩家都是魚,這樣的生態環境下無論是娛樂玩家還是職業玩家都會放棄online poker的。
2. 人類玩家打的和AI一樣好,只能近似。前面提到了,人類玩家也可以用GTO,通過純數學的計算剝削對手(運算速度遠不及AI),且人類的各種心理,生理狀態都會影響自己的發揮。
3. 娛樂玩家對挑戰一個AI是沒有興趣的。過快的挫敗感會讓他們輕易放棄和任何AI打牌。如果單獨追求賭博的快感,老虎機, 電子21點,電子輪盤不是更刺激?娛樂玩家打牌還是希望自己的對手是真人, 贏了有起碼有快感(碾壓人類的感覺和碾壓AI的感覺是不一樣的,德州撲克又不是單機遊戲,且長期勝率不足1%) 。
總結: 德州撲克並不會因為AI的出現而消亡,德州將會重回線下, Pro仍然會碾壓娛樂玩家, Pro之間的技術差異會越來越小。
謝邀
其實德州撲克機器人在線上德州撲克這個領域亦或是線上牌類競技的領域早已有過先例,機器人為執行策略,已經戰勝了很多人類玩家,而AI的加入無非是教會機器人如果制定策略,機器人掌握+ev的邏輯之後肯定可以通過大量數據制定出比人類更優,執行更準確的策略。甚至可以加入人臉微表情識別,人類在這個領域應該說完全沒有競爭力。與AlphaGo解決棋類問題看似相同,實則不同:
- 棋類問題理論上可以說是搜索樹暴力解決- 而撲克需要心理上的虛張聲勢技巧、猜測對手的牌、和新的演算法原則******AI在德州撲克中戰勝了人類,這個消息確實令人振奮,不過似乎大多數報道都刻意迴避比賽是1v1,要知道1v1德撲和多人德撲幾乎是兩種遊戲,對於AI來說,「在1v1中碾壓人類」離「在多人局中碾壓人類」還有很長很長的路要走,也許跟「戰勝國際象棋」與「戰勝圍棋」的距離差不多吧?
不過即使是1v1德撲,跟圍棋相比也有巨大的區別,那就是 -- 未知信息。
也就是說,國際象棋與圍棋都是完備信息遊戲,而德撲是不完備信息遊戲,從「在完備信息遊戲中戰勝人類」到「在不完備信息遊戲中戰勝人類」,AI又一次獲得了巨大進步,但是,不管是完備信息遊戲和不完備信息遊戲,他們都還屬於具備明確規則和清晰邊界的領域
那目前AI在這個範圍之外表現如何呢?
舉個栗子,自動駕駛
在駕駛這個領域,有明確的規則和清晰的邊界,但是常常會有人不遵守規則,或者躥出來一些非人類,意外很多,所以算是具有「比較」明確規則和「比較」清晰邊界的領域,在這個領域,自動駕駛的水平高於人類的平均水平,但是弱於頂尖高手,而且我覺得比較難超越
作為一個量化交易員,順便聊一下金融領域,金融交易是一個規則和邊界都更加模糊的領域,所以目前成功的量化交易策略還都是基於人類的某些預設而做的策略,並非基於深度學習而自動生成的策略
總結一下,我對AI在具備明確規則和清晰邊界的領域的能力超級樂觀,但是對於規則和邊界不清晰的領域,暫時比較謹慎,不過也只是暫時吧……
歡迎關注公眾號股市那些坑(gs-keng)推薦閱讀:
※如何評價 DeepMind 於2016年9月12日公開的 AlphaGo 自戰棋譜及3月人機大戰解說?
※有沒有人工取代機器的例子?
※如果世界上出現了完美的人工智慧,我們應該怎麼對待他們?
※人工智慧在製造業領域有哪些應用?如何幫助製造業轉型/升級?
※如何看待五月下旬阿爾法圍棋與柯潔的三番棋以及和五強的相談棋?
TAG:人工智慧 | 德州撲克 | 卡內基梅隆大學CarnegieMellonUniversity | 對弈人工智慧 |