AlphaGo讓人類棋王驚魂未定，Google又推出了完勝國際象棋和將棋的AlphaZero

01-29

Google 旗下人工智慧公司 DeepMind 又丟出一支重磅炸彈！其新研發的AlphaZero 在用了強勁的計算資源（5,000 個一代 TPU 和 64 個二代 TPU ）之後，用不到 24 小時的時間自我對弈強化學習，接連擊敗了三個世界冠軍級的程序 (國際象棋、將棋、圍棋)。

AlphaZero 在經過 8 小時訓練後首先完爆第一個打敗人類的圍棋 AI——李世乭版 AlphaGo；經過 4 小時的訓練，打敗了最強國際象棋 AI——Stockfish；經過 2 小時訓練打敗最強將棋 AI——Elmo。

AlphaZero自我對弈的訓練時間

AlphaZero與圍棋AI、國際象棋AI以及將棋AI對弈比分

對弈國際象棋程序Stockfish：28勝，72平；

對弈將棋程序 Elmo：90勝，2平，8負；

對弈圍棋程序AlphaGo Zero：60勝，40負。

為什麼AlphaZero能這麼強大？

知名 AI 部落格作者,來自加州大學洛杉磯分校的 Adit Deshpande 解讀了 AlphaZero 勝利背後的力量。他指出，機器學習領域分為三大類，即監督學習、無監督學習和強化學習。強化學習可以在不同的情景或者環境下學習採取不同的行動，以此來獲得最佳效果。而 AlphaZero 就用到了強化學習。

AlphaZero 與其前輩 AlphaGo 相比有哪些突破？

據專家分析，在專業技術上，有以下三點突破。

第一，AlphaGo 只會考慮勝負兩種結果，而 AlphaZero 還考慮到了平局。

第二，AlphaGo 會通過改變棋盤方向進行強化學習，但是因為國際象棋和將棋的棋盤與圍棋不同，所以 AlphaZero 不依賴此方法。因此，AlphaZero 更通用。

第三，AlphaGo Zero 會不斷選擇勝率最好的版本替換，而 AlphaZero 則只更新一個神經網路。

專家也表示，AlphaZero 有突破也有局限：

局限之一是，他們研發 AlphaZero 是為了將其從圍棋領域擴展到其它棋類，增強通用性，但是在方法上沒有太多亮點。

局限之二在於，AlphaZero 在實際應用過程中還會不斷遇到新問題。這源於強化學習應用於現實並不容易。比如，強化學習可以應用於研究新藥品，新藥品很多內部結構需要搜尋，之後製藥，還要檢測這種藥品是否有效，這個過程很緩慢並且相當昂貴。

局限之三在於，AlphaZero 所運用的強勁的計算資源——5,000 個一代 TPU 和 64 個二代 TPU 價格相當高，曾有國際風投機構的投資人表示，這麼貴的晶片，我也就是看看......

雖然有一定局限，但是科學家們對 AI 的探索從未停下腳步。DeepMind 就是先行者之一，好像登山一樣，人們終有一天會登頂。