怎麼看AI首次在德州撲克戰勝人類職業玩家?

幫題主補充:AI 首次在德州撲克戰勝人類職業玩家,新演算法讓機器擁有「直覺」


read this paper https://arxiv.org/pdf/1701.01724v1.pdf

DeepStack becomes the first computer program to beat professional poker players in heads-up no-limit Texas hold』em.


2017年1月30日,在賓夕法尼亞州匹茲堡的Rivers賭場,卡耐基梅隆大學(CMU)開發的人工智慧系統Libratus戰勝4位德州撲克頂級選手,獲得最終勝利。

四名撲克選手:Daniel McAulay (左一),Jimmy Chou(左二),Jason Les(右二)、Dong Kim(右一)。人工智慧Libratus的項目主任(左三),工程師(右三)

自從任從圍棋之後,人工智慧有新突破。圍棋總共可能有10^171種可能性,而德州撲克也有高達10^160種可能性,遠超當今電腦運算能力。

另外,德州撲克不同於圍棋,象棋之處在於,由於對方的「底牌信息」是隱藏信息,對於計算機來說,就是在處理一種「非完整信息博弈」,而圍棋對弈雙方的信息是完整的、對稱的,並沒有隱藏的信息。Libratus此次戰勝頂級人類德州撲克選手,具有非常重要的意義。

世界上眾多領域的問題,如談判,軍事對抗,經濟,互聯網安全,都包含大量未知信息,解決德州撲克的人工智慧技術會在眾多領域得到應用。

此次由4名世界頂級撲克職業玩家:Jason Les、Dong Kim、Daniel McAulay 和Jimmy Chou對戰人工智慧程序Libratus,賽程為20天,一共進行了12萬手牌的比賽。最後人工智慧以1766250分的優勢戰勝4位人類選手。

比賽模式:

比賽模式為1對1(head up)德州撲克,在20天內,4位人類玩家總共打12萬手,每位玩家各自與人工智慧進行3萬手牌1對1德州撲克。平均每天打1500手牌,進行10小時比賽,每小時打150手1對1德州撲克。

大盲注,小盲注分別為$100,$50,每手牌的籌碼為200個大盲注。當一手牌結束後,雙方籌碼都重新設定為$20000分。這是為了減少上一手牌對下一手牌的影響,減低運氣成分對比賽結果的影響。

比賽模式類似以下網路撲克應用 Play Texas Holdem Against Strong Poker Ai Bots , 這款撲克AI名稱叫HibiscusB,能戰勝中級水平的撲克玩家,但沒有Libratus強大。

應用界面如下,撲克迷可以到這個網站與AI對局,體驗一下。

比賽結果分析:

4位撲克選手總共輸給人工智慧Libratus 1766250分,即17662.5個盲注(大盲注100分)。其中Dong Kim 的成績最好,但也輸掉了85649分,即856個盲注。成績最差的Jason Les 輸掉了8800個盲注。

人類頂級的4位撲克玩家在12萬手牌共輸掉17662.5個盲注,平均每100手牌輸14.7個盲注。以每小時打150手牌的速度,平均每小時要輸掉22個盲注。

這是什麼概念,按當前中國大多數地下德州撲克的遊戲,通常玩5/10元大小盲注,1000-2000元一個買進(絕對違法)。與人工智慧1對1打head up,每小時要輸220元,平均一天要輸掉2200元,20天要輸掉4.4萬元人民幣。

如果玩大的50/100元盲注,2萬元一個買進,如1元等於比賽里的1分($),平均每天要輸2.2萬,20天要輸掉44萬元人民幣。

而且,那4位選手是世界排名前15的1對1的撲克玩家,對於多數休閑娛樂的德州撲克玩家,輸牌的速率可要翻倍的,也就說打5/10元盲注,每小時會輸上440元,打50/100元盲注,每小時會輸上4400元,20天要輸掉88萬元人民幣。

如果有人會問,如果把這個人工智慧程序拿來,然後連接到國外撲克網站Poker star,Full Tile上贏美刀多爽啊。德州撲克有10^160可能性,運行該程序所需的超級電腦。價格可能數百萬美金不止,估計每小時消耗耗的電費都要比贏來的錢還多。

德州撲克是賭博,還是技巧?

德州撲克有運氣成分,但比賽總共進行12萬手牌,牌運的影響幾乎微乎其微。打100-1000手牌,運氣還是影響很大的;但打了12萬手牌贏到17.66萬個盲注,比賽結果的可信度高達99.77%。

也就是說,每場比賽打12萬手牌,人類與AI進行1000場比賽,AI將贏下998場,人類只能贏下2場。因此,人工智慧Libratus 有著完全不可逆轉的優勢。

也就是說,每場比賽打12萬手牌,人類與AI進行1000場比賽,AI將贏下998場,人類只能贏下2場。因此,人工智慧Libratus 有著完全不可逆轉的優勢。

即使同為頂級高手的4位撲克玩家,在對局人工智慧的成績中,他們的實力也分出高下。

在與同樣AI對局3萬手牌後,四個玩家成績分出檔次,其中Dong Kim 輸掉856個盲注,比Jason Les 輸掉了8800個盲注的成績好10倍。另外,兩名玩家各自輸了2776個盲注,5728個盲注。

如果這四個人相互對局3萬手牌,Dong Kim 與 Jason Les對局,那他也會贏到8800-856 = 7944個盲注,也許會有上下1000個盲注的波動。總之Dong Kim 的牌技優勢還是高於Jason Les ,但要打上萬手牌才能分出勝負。

4位選手的實力:

一直說這4位選手為世界頂級撲克玩家,可大多數撲克迷都沒聽說過他們。怎麼沒有 Phil Ivey, Daniel Negreanu,Tom dwan這些撲克明星呢?

其實,大家每天在視頻上看到的那些撲克界的明星都是5-6年前的對局了。當網路撲克興起後,大量優秀的撲克玩家湧現。任何事情搬到到互聯網上,發展速度都變得驚人。5年的撲克水平在網路上能贏到100萬美金,5年後卻只能輸錢,所以原來的高手,並不是現在高手。如今讓Daniel Negreanu 到 Poker Star 打1/2美元的遊戲,他未必定能贏到錢。

另外,這場人類與AI的對局要每天打8-10個小時,打上20天,獎金還不到20萬美金。Tom dwan在澳門賭場里一手牌輸掉1100萬美金。所以他們不屑於為了這麼點獎金,打這麼漫長的比賽。

在2005年以前,互聯網撲沒興起時候,人們普遍在線下打撲克,一小時打上20手牌,要練成一個優秀的撲克選手至少要2-3年,而且還要有高手指點。大多數人打了7-8年撲克還是同樣的臭水平,那時候高深的撲克知識也並不普及,多數撲克書籍都是垃圾。

而2005年後有了互聯網撲克,人們1個小時能打1000收牌,速率提高50倍,職業玩家1年能打上千萬手牌。各種高深的撲克技巧在網上到處都能找到,於是互聯網撲克水平變得越來越高,而且每年都在不斷發展新的撲克技巧。

以上那4位高手,在網路進行上千萬手牌的對局,都是各大撲克網站1對1贏牌率最高,他們征服了忽略網就必然征服整個撲克界。

而且,2人德州撲克是技巧性最強的對局模式。在多人對局德州撲克遊戲,拿到強牌的概率高,沒有牌的時候就可以扣掉,損失很少。而2人對局撲克,每次扣牌就丟掉1.5盲注,跟注時拿到強牌的機會很少。因此,2人德州撲克對局更多的bluff,發現並打擊對手的弱點,依靠策略才能贏牌。

當人工智慧以巨大的優勢戰勝這4位高手,可以肯定世界上沒人能打敗人工智慧Libratus。因為Libratus是根據納茨博弈理論,經過Counterfactual Regret Minimization(反事實思維) 方法學習後,形成最完美的撲克打法。

人工智慧在撲克的應用:Counterfactual Regret Minimization

反事實思維是個體對不真實的條件或可能性進行替換的一種思維過程。反事實思維(counterfactualthinking)是美國著名心理學家、諾貝爾經濟學獎獲得者Kahneman提出的。

例如:生活中有一種心理現象,就是思維活動針對的不是已發生的事實,而是與事實相反的另一種可能性。人們遲到的時候,會尋思「如果早點動身就不會遲到了」;人們考砸的時候,會尋思「要是再加把勁這次考試就能及格了」。所謂反事實思維,就是與事實相反的假想。

反事實思維是對過去已經發生過的事件,之後進行判斷和決策後的一種心理模擬(mentalsimulation)。反事實思維通常是在頭腦中對已經發生了的事件進行否定,然後表徵原本可能發生但現實並未發生的心理活動。它在頭腦中一般是以反事實條件句的形式出現。反事實條件句(counterfactualconditionals)也叫「虛擬蘊涵命題」,它具有「如果……,那麼……」的形式。

例如:「如果剛才沒買那件衣服,現在就可以買這件了。」一個反事實思維包括兩個部分:虛假的前提(「如果剛才沒買那件衣服」)和虛假的結論(「現在就可以買這件了」)。

其實,這也是人類學習撲克的一種模式,即試錯模式。每次輸了一手大牌後,最好想如果我當時不去加註,不去跟注,或者扣牌,就不會輸了。每次對過去的行為感到後悔,然後總結經驗,調整打法,看是否贏得更多的錢。或少輸錢。

當然,這是一種非常慢的自學方式,人類更多是從互聯網學習別人已經總結好的正確打法。然後,在加以練習,比如每天打上4-5個小時,再花1-2個小時總結今天打撲克的錯誤和進步,一般6個月里在互聯網上打300—500萬手牌,通常能成為優秀的撲克玩家。

撲克人工智慧是通過Counterfactual Regret Minimization進行100萬億手牌的訓練來形成一套完美的打法。

當然這還遠遠不夠,撲克的完美打法是根據不同的對手,在不同時間段,進行調整的。比如對抗攻擊性極強的玩家,與打牌很緊的玩家的打法是不同的。

例如: 一個打法瘋狂的玩家100個大盲注全壓,拿AJ,AQ,TT,99 以上的牌跟注就足夠了,但如果一個打牌非常緊的玩家100個盲注全壓,至少要AK,QQ以上的牌才能跟注。

因此,人工智慧還必須根據近期相關性的牌局,來調整自己的打牌的範圍,進而適應不同對手,不同的打法。這就需要另一項技術應用recursive reasoning 來進行 Continuous Re-Solving。。。

這使得系統逐漸補救了戰術中的漏洞,最終如桑德霍姆描述為「系統大舉獲勝,結果很顯著」。

  「比賽到一半的時候,我們真的以為要贏了,」其中一位專業玩家丹尼爾. 麥考利(Daniel McAulay)說。「我們真的有機會打敗它。」

  卡內基梅隆大學團隊每晚用超級電腦來分析白天的比賽,提高系統性能。系統檢測自身在每輪比賽中的弱點,每天補救三個最明顯的失誤,而不是試圖學習對手的制勝戰術。

  這個方法最終使其出其不意用大賭注智勝它的對手,桑德霍姆稱之為系統相對人類「心理承受能力」的優勢。

  相對其它玩撲克的程序,Libratus最主要的提高在於電腦在接近遊戲最後時的玩法。先前的系統從頭至尾使用單一戰術,但是Libratus使用額外的反饋迴路來實時回應對桌的人類。

  「我們用了所有能想到的辦法,它實在是太強大了,」另一位撲克玩家傑森.萊斯(Jason Les)說。「它每天的出現都讓我們士氣低落,最後輸的這麼慘。我以為我們最後的籌碼會非常接近。」

  桑德霍姆說,幾乎可以肯定要單獨成立一家新的創業公司,用Libratus背後的技術來開發商業用途。他已經研究了27年的談判策略。他早先開發過的一款程序被2/3的美國器官移植中心使用來決定哪位病人可以得到新腎的移植。

太累啦!o (╯□╰)o

後面文章以後在翻譯啦,如果這篇文章上知乎日報的話,可以考慮 ( ′? ??`)

如果大家對人工智慧感覺太抽象,很難理解,可以看本人寫過的一篇人工智慧的應用介紹,簡單易懂,初中生就能明白。Introduction to CMAC Neural Network with Examples

http://skyocean117.blogspot.co.nz/2013/12/introduction-to-cmac-neural-network.html

下面是撲克人工智慧Libratus的設計理論,項目主任的講座視頻,大家翻牆自己看去吧!

https://www.youtube.com/watch?v=QgCxCeoW5JI

However, how the opponent』s actions reveal that information depends upon their knowledge of our private information and how our actions reveal it. This kind of recursive reasoning is why one cannot easily reason about game situations in isolation,

which is at the heart of local search methods for perfect information games. Competitive AI approaches in imperfect information games typically reason about the entire game and produce a complete strategy prior to play (14, 15).2 Counterfactual regret minimization (CFR) (11, 14, 17) is one such technique that uses self-play to do recursive reasoning through adapting its strategy against itself over successive iterations. If the game is too large to be solved directly, the common solution is to solve a smaller, abstracted game. To play the original game, one translates situations and actions from the original game in to the abstract game.

While this approach makes it feasible for programs to reason in a game like HUNL, it does so by squeezing HUNL』s 10160 situations into the order of 1014 abstract situations.

DeepStack takes a fundamentally different approach. It continues to use the recursive reasoning of CFR to handle information asymmetry. However, it does not compute and store a complete strategy prior to play and so has no need for explicit abstraction. Instead it considers each particular situation as it arises during play, but not in isolation. It avoids reasoning about the entire remainder of the game by substituting the computation beyond a certain depth with a fast approximate estimate. This estimate can be thought of as DeepStack』s intuition: a gut feeling of the value of holding any possible private cards in any possible poker situation. Finally, DeepStack』s intuition, much like human intuition, needs to be trained. We train it with deep learning using examples generated from random poker situations. We show that DeepStack is theoretically sound, produces substantially less exploitable strategies than abstraction-based techniques, and is the first program to beat professional poker players at HUNL with a remarkable average win rate of over 450 mbb/g.

Continuous Re-Solving

Suppose we have a solution for the entire game, but then in some public state we forget this

strategy. Can we reconstruct a solution for the subtree without having to solve the entire game

again? We can, through the process of re-solving (17). We need to know both our range at

the public state and a vector of expected values achieved by the opponent under the previous

solution for each opponent hand. With these values, we can reconstruct a strategy for only the

remainder of the game, which does not increase our overall exploitability. Each value in the opponent』s

vector is a counterfactual value, a conditional 「what-if」 value that gives the expected

value if the opponent reaches the public state with a particular hand. The CFR algorithm also

uses counterfactual values, and if we use CFR as our solver, it is easy to compute the vector of

opponent counterfactual values at any public state.

Re-solving, though, begins with a solution strategy, whereas our goal is to avoid ever maintaining

a strategy for the entire game. We get around this by doing continuous re-solving:

reconstructing a strategy by re-solving every time we need to act; never using the strategy beyond

our next action. To be able to re-solve at any public state, we need only keep track of

our own range and a suitable vector of opponent counterfactual values. These values must be

an upper bound on the value the opponent can achieve with each hand in the current public

state, while being no larger than the value the opponent could achieve had they deviated from

reaching the public state.5

At the start of the game, our range is uniform and the opponent counterfactual values are

initialized to the value of holding each private hand at the start.6 When it is our turn to act

納茨均衡:

Exploitability The main goal of DeepStack is to approximate Nash equilibrium play, i.e., minimize exploitability. While the exact exploitability of a HUNL poker strategy is intractable to compute, the recent local best-response technique (LBR) can provide a lower bound on a strategy』s exploitability (20) given full access to its action probabilities. LBR uses the action probabilities to compute the strategy』s range at any public state. Using this range it chooses its response action from a fixed set using the assumption that no more bets will be placed for the remainder of the game.


看了論文和 @ 田淵棟 的文章,做了如下總結,不知是否還有錯誤。請指教。

https://arxiv.org/pdf/1701.01724v2.pdf

DeepStack是第一個聲稱自己在無限注一對一德州撲克戰敗人類的AI演算法。

它在與 33 位人類選手進行的 4.4 萬手較量中,平均勝率為 492 mbb/g

一般認為人類玩家這一數據達到 50 mbb/g 就具有較大的贏面,而 750mbb/g 就是對手每局都棄牌的節奏了。(此處來自百度)

Heads-up no-limit Texas hold』em-- HUNL

mbb/g :milli-big-blinds per game

CMU 隨後在1月11日在匹茲堡的 Rivers 賭場和職業撲克手 Jason Les, Dong Kim, Daniel McAulay 和 Jimmy Chou 20天內玩120000手一對一不限注的德州撲克。然後獲勝。

Deepstack 對戰的是33位普通人類選手,而CMU對戰是職業選手,水準不能一併而論,但是Deepstack 利用了深度學習網路,訓練雖然要耗費大量資源,但是運算可以在一台機器上進行,而CMU需要超級計算機。Deepstack提出的結構還是具有相當啟發作用。

要理解Deepstack ,可以先從 Alberta 大學2015年 的 Cepheus 理解起。

http://ai.cs.unibas.ch/_files/teaching/fs15/ki/material/ki02-poker.pdf

Cepheus 是第一個在Limit 1V1德州 遊戲中戰敗人類的AI。Limit的信息集狀態 為10^14次方。當時他們基本屬於暴力解決了這個問題,將遊戲分為110,565個 subgame,然後用了200個計算節點 每個計算節點配置: 24 2.1-GHz AMD cores, 32GB of RAM, and a 1-TB local disk. 做一次迭代用61 minutes 一次訓練要1579次 iterations,花費 68.5 days, 消耗的計算資源為 900 core-years of computation ,10.9 TB of disk space,而運行時還需要11 TB 空間來存計算出來的悔恨值 還要6 TB 來存計算出來的平均策略

而unlimit 的信息集到達了10^160次方,如果想要解決這個問題,在沒有更多資源情況下,怎麼講10^160次方的信息集變成比10^14次方要少的信息集呢?

這就是Deepstack整個的圖

Deepstack 做了三件事。

1 找了個有效的本地策略 -- continuous re-solving

他選定了CFR的變種演算法, 每次 動態地解子遊戲以避開存儲海量策略時內存不足的問題 ,而且證明了 如果不考慮對手的行為,也可以得到近似納什均衡的解

這裡可以看一下 如果考慮對手行為 那麼樹是怎樣的。(圖來自2015年Cepheus 的論文里, 例子是三張撲克的遊戲, JQK )

不考慮對手行為,樹就是這樣

2 對樹的深度進行限制 Limited Lookahead and Sparse Trees

限制樹的深度&<4

動作集合做了限定 F, C, ?P, P, 2P, and A 表示fold, call, half of a pot-sized, a pot-sized bet, twice a pot-sized bet, and all in

3 如果樹的深度進行了限制,那麼計算了4層後,下面的計算怎麼辦, 所以用深度神經網路訓練了一個直覺 Intuition –Deep Counterfacture value network

總共有三個網路 Flop counterfactual value network,Turn counterfactual value network 和

Auxiliary network。 一個在第一次三張公共牌被處理(flop網路)後估計反事實值,另一個在處理第四張公共牌(turn網路)後估計反事實值。一個輔助網路用於在發任意公共牌之前加速對前面的動作的re-solving。

其中Flop的 和Turn的 是深度神經網路,其中訓練上

Turn network 是針對ten million poker turn situations 來進行訓練的,花費了6,144 CPU cores of the cluster,計算耗費 175 core years of computation time.

Flop network是針對one million poker flop situations來進行訓練的,利用DeepStack』s depth limited solver with the turn network 來計算求解 花費20 GPUS and one-half of a GPU year of computation time.

Auxiliary network: ten million situations ,enumerating all 22,100 possible flops from the flop network』s output.

輸入是 當前pot的大小,公共牌 (3張或者4張,圖示是3張),玩家範圍,玩家範圍先被處理為bucket ranges。網路是一個有七個全連接隱含層的前饋神經網路,被後處理以保證值滿足零和限制(zero-sum constraint)。 輸出兩個玩家牌面的反事實價值組


我們看看第二次在中國舉行的人機大戰,在4月10號的時候,德撲人機大戰最終以AI冷撲大師完勝結局。在經過5天36000手牌的較量後,冷撲大師最終以792,327總記分牌的戰績獲勝,此次表演賽的200萬獎勵歸屬冷撲大師。 但從這次人機大戰中我分析出一些東西。如下,

冷撲大師也有弱點

冷撲大師在德州撲克領域戰勝人類,實際上它目前還有著非常大的局限性。冷撲大師只能進行每局重置籌碼的1V1比賽,人類德撲比賽常見的多人桌賽制,它暫時還不能挑戰。大家可以注意到每局開始時,每位牌手

有20000的籌碼,大盲注100,小盲注50。這手牌打完之後,無論結果如何,下一局雙方的籌碼都要重置回20000。

也就是說,機器和人總是一對一比賽,且籌碼是受限的。如果模仿人類正常的德州撲克比賽,比如六人桌、九人桌,這些目前對冷撲大師來說是絕對做不到的;或者規則改為不重置籌碼的話,人類選手還是有極大概率翻盤。

冷撲大師並非戰無不勝

冷撲大師並非每一場都可以碾壓任何人。在第六場的人機對戰中,「龍之隊」兩位複式發牌同組的隊員同時取得當場對AI的勝利,其中童舟利用「防守反擊」打法連續4場戰勝冷撲大師。

不斷強化學習的冷撲大師

對戰德撲AI時,中國選手出現AI會針對不同對手定不同的策略的錯覺,感覺每打十手牌AI就會變一個策略,試圖把十手牌打的很奇怪,下十手牌卻打得很正常。而實際上,冷撲大師並沒有針對某個選手優化策略,它只是通過每天進行強化學習來調到了更高的納什平衡,並沒有改進任何演算法。

冷撲大師背後的巨大價值

比起處理完美信息的AlphaGo等人工智慧,冷撲大師的演算法在真實生活中會應用得更多。

現實世界中,不完美信息才是常態,各種看不見的隱藏信息產生了大量的不確定性,而德州撲克代表的就是這種類型的博弈。因此,Libratus將會適用於更多行業,在金融、醫學、教育,在各方面的領域會帶來巨大的價值。

冷撲大師的秘密核心原理

德州撲克AI演算法設計分為三個模塊。

1、在比賽前算出納什平衡。

2、殘局解算。

3、自我強化學習。

其中它的原理核心是博弈論,最重要的理念就是納什平衡。納什平衡意味著,博弈遊戲中有個不敗戰略,不管對手用什麼樣的策略都不可勝。

博弈論會告訴我們該遊戲的最佳策略是什麼,然後從策略出發,變成優化的問題。我們把博弈論和AI演算法結合在一起,通過計算就能找到最佳策略。

總之,這次比賽只是德撲人機大戰的第一步,如果有一天冷撲大師能夠在多人比賽中從頭打到底,完美應對不同籌碼量的問題,那麼我們才敢說,人工智慧在德州撲克項目上已經擊敗了人類。


怎麼戰勝人類,如果足夠理性,那太容易被針對了,難道人工智慧還會有時感性?


標誌著以後所有能賺錢的線上德州撲克,你的對手很大可能是人工智慧——攝像頭+機械手,如果app做的差,直接上程序外掛。所以未來的線上德州撲克只能做訓練用,【線上賺錢是不可能了】,除非你也搞人工智慧對抗。

當然,現在電腦的算力還跑不起來德州撲克的完美AI,但是遲早會的。


感謝樓主分享:)原來1月份這篇論文就已經發表了呀,我這兩天才關注到


這次人機大戰是1v1,有足夠多的局數,足夠機器針對每個人訓練出個性化的下注mode。不過,和機器玩無法揣測對手心理,人類選手會很不適應。而德州撲克作為不完美信息的遊戲,和圍棋有很大區別,個人感覺尤其多人玩德州其實並不存在最優解,類似AlphaGo的價值模型很難起作用,而德州下注不像圍棋的落子,模型候選集實際上不多,更多的判斷都是對人心,這並不是機器擅長的。所以,對於目前階段還不能足夠捕捉人類感情的AI,究竟是設計一個模擬人類的機器人,還是努力追求數學最優,這是個問題,而對於人類,最大的挑戰是,對一個讀人的遊戲,你面對的是虛無……


在線賭場的末日


我把新聞分享一下。在匹茲堡,人工智慧libratus在共計12萬手的一對一無限注德州撲克比賽中,擊敗四名頂尖的高手,斬獲20萬美元獎勵。

感覺人工智慧在很多方面正在顛覆人類的認知,比如圍棋領域,之前,人們認為圍棋的布局美與勝利是有一定的聯繫的。然而只是因為人類由於計算能力不夠而產生的錯覺罷了。


德州跟棋牌不一樣,規則是不透明的,追求的是阿爾法收益,頗類似股票投資,有意思。


al啥時候贏了。第一次是輸了 這一次開始了嗎?


如果機器人只是純理性的計算賠率,利用計算機的運算速度不斷反覆計算成牌率,根據運算結果、底池情況、其他人下注情況來選擇動作,從來不bluff,也從來不冒風險抓不確定的bluff,那機器人贏牌很正常。。從概率學的角度講,只要絕對理性,打的牌局足夠多,德州肯定是正收益的。。不過那又如何,機器人本身不就是人發明的么?


人類早晚要把自己玩死


雖然我也是個看熱鬧心態,但是,新聞在哪???


推薦閱讀:

Cruise,請想清楚再上戰場
AI攻克德州撲克帶來的不安:一台機器可以唬弄一個人類
深度學習小實驗1:使用RNN教AI學會吟詩作賦
[NLP] 秒懂詞向量Word2vec的本質
recsys(acm recommender sysytems) 2016 有哪些值得關注的論文?

TAG:人工智慧 | 德州撲克 | 深度學習DeepLearning |