AlphaGo讓人類棋王驚魂未定,Google又推出了完勝國際象棋和將棋的AlphaZero

Google 旗下人工智慧公司 DeepMind 又丟出一支重磅炸彈!其新研發的AlphaZero 在用了強勁的計算資源(5,000 個一代 TPU 和 64 個二代 TPU )之後,用不到 24 小時的時間自我對弈強化學習,接連擊敗了三個世界冠軍級的程序 (國際象棋、將棋、圍棋)。

AlphaZero 在經過 8 小時訓練後首先完爆第一個打敗人類的圍棋 AI——李世乭版 AlphaGo;經過 4 小時的訓練,打敗了最強國際象棋 AI——Stockfish;經過 2 小時訓練打敗最強將棋 AI——Elmo。

AlphaZero自我對弈的訓練時間

AlphaZero與圍棋AI、國際象棋AI以及將棋AI對弈比分

對弈國際象棋程序Stockfish:28勝,72平;

對弈將棋程序 Elmo:90勝,2平,8負;

對弈圍棋程序AlphaGo Zero:60勝,40負。

為什麼AlphaZero能這麼強大?

知名 AI 部落格作者,來自加州大學洛杉磯分校的 Adit Deshpande 解讀了 AlphaZero 勝利背後的力量。他指出,機器學習領域分為三大類,即監督學習、無監督學習和強化學習。強化學習可以在不同的情景或者環境下學習採取不同的行動,以此來獲得最佳效果。而 AlphaZero 就用到了強化學習。

AlphaZero 與其前輩 AlphaGo 相比有哪些突破?

據專家分析,在專業技術上,有以下三點突破。

第一,AlphaGo 只會考慮勝負兩種結果,而 AlphaZero 還考慮到了平局。

第二,AlphaGo 會通過改變棋盤方向進行強化學習,但是因為國際象棋和將棋的棋盤與圍棋不同,所以 AlphaZero 不依賴此方法。因此,AlphaZero 更通用。

第三,AlphaGo Zero 會不斷選擇勝率最好的版本替換,而 AlphaZero 則只更新一個神經網路。

專家也表示,AlphaZero 有突破也有局限:

局限之一是,他們研發 AlphaZero 是為了將其從圍棋領域擴展到其它棋類,增強通用性,但是在方法上沒有太多亮點。

局限之二在於,AlphaZero 在實際應用過程中還會不斷遇到新問題。這源於強化學習應用於現實並不容易。比如,強化學習可以應用於研究新藥品,新藥品很多內部結構需要搜尋,之後製藥,還要檢測這種藥品是否有效,這個過程很緩慢並且相當昂貴。

局限之三在於,AlphaZero 所運用的強勁的計算資源——5,000 個一代 TPU 和 64 個二代 TPU 價格相當高,曾有國際風投機構的投資人表示,這麼貴的晶片,我也就是看看......

雖然有一定局限,但是科學家們對 AI 的探索從未停下腳步。DeepMind 就是先行者之一,好像登山一樣,人們終有一天會登頂。


推薦閱讀:

中國AI能在2025年之前超越美國嗎?
hi,您認為傳統醫療商(比如醫療器械商、第三方影像公司等)做智能醫療會後來居上嗎?
你看到的可能是假的奧巴馬?沒錯,還真是假的!
中國互聯網大變局:2018年這三個行業將發生重大變化
iPhone X攜人臉識別改變行業,美圖美妝用人臉識別改變女人

TAG:人工智能AI酱 | AlphaZero | 强化学习 |