Alpha Zero 碎碎念

本文只代表個人觀點,且本文不允許任何轉載,看見請幫忙舉報。

前有:

  • Mastering the Game of Go with Deep Neural Networks and Tree Search
    • 提出了把SL+RL+MCTS
  • Mastering the game of Go without human knowledge
    • 不再用SL,完全用DRL,而且是MCTS上的DRL。

後有:

  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
    • 把Zero的方法general化。

於是乎 新聞媒體開始 鋪天蓋地 地 報道。

我冷靜一下,理性分析。

AlphaGo剛出來的那陣子我大學還沒有畢業,那段時間只是感覺李世石輸得很慘 。

隨後便是DeepMind一發不可收拾的paper海戰術,從DQN開始,Double DQN,Prioritized Experience Replay,Dueling Network,DDPG, A2C, A3C, UNREAL, ACER, ACKTR,TRPO,DPPO,再到近期的 Rainbow 以及 AlphaGo Zero。

最後說一下前天的paper, Alpha Zero。

各種文章和報道有分析過的就不想多說了,再隨便扯幾點別的。。。

0X01 計算資源

5000個第一代TPU進行self-play(以及少量的Evaluator)和64個第二代TPU進行training

Alphago Zero 用了2000+的TPU,到了Alpha Zero 變成了5000,算一筆小帳:

姑且算 1 個 TPU approx 10顆 GTX 1080TI 好了,批發價我們算5000RMB一塊?

10×5000=5W 5000個TPU就是:

5W×5000=25000W=2.5E

去掉七七八八雜碎,良心價打個折,去掉零頭,2億 軟妹幣 好了,但願我數學沒算錯???

(聽說有句名言叫做: 有錢不僅可以任性,還可以為所欲為??)

0X02 MCTS vs. Alpha-Beta

老實說之前我還真的沒有覺得MCTS可以取代Alpha-Beta,畢竟除了圍棋之外,象棋,西洋棋,黑白棋,將棋這些棋類的AI還都是以Alpha-Beta+大量的heuristic的程序為主導。

AlphaGo Zero出來的時候,

確實是驚嘆了一下在MCTS上面進行RL training能夠取得如此好的效果。

可能大家不知道Stockfish有多強,

去它的官網看看,或者去github上面看看源碼吧,

從2008年第一版到現在怎麼說也快10年了吧。

於心不忍的是Stockfish本來是強到沒朋友的,

被Alpha Zero說打爆就打爆啊。真的慘。

0X03 關於Input 和 Output

input feature map

比較有意思的是Shogi。

將棋有8種棋子,加上升變後的6種,共14種,

另外需要考慮盤面的重複出現情況,重複出現4次就要判和。

還有被吃掉的子的數量,以及總move數量。

總共是 (14+14+3+7+7)*8+1+1=362

乘以8是記錄前後8手,這個和Alphago Zero的做法一樣。

output

再看output,首先是要確定要動哪一個位置的棋子( 9*9 ),

然後再確定要動到哪裡去(這點是和圍棋最不同的地方)。

升變前,除去桂馬有兩個位置的特殊走法,

其他任何子都可以是右邊這種走法的子集合,

除去自己的位置,上下左右,以及斜對角線,各有8個位置可以到達

所以共有 8*8=64 個位置,

再加上升變後的情況

以及除去將以外可以有其他7種棋子可以重新被拿回到場上,所以是

64+2+64+2+7=139

那output就是 9*9*139=11259

換句話說就是對應11259類,這比ImageNet的1000類要多得多,

不過通過這種方式還是降低了一些。

暴力中又沒有那麼暴力了。

但是說實話在DeepMind沒有這樣做之前,

我並不認為這麼高的維度居然也會work。

0X04 關於paper作者

我想不光只看到AlphaGo的Leader David Silver,

還有諸如 Julian Schrittwieser,在deepmind做過星際爭霸2

Ioannis Antonoglou
很早就做過DQN,Prioritized Experience Replay

Matthew Lai 的 碩士論文就是寫的Giraffe

(這也是為什麼他們隨隨便便就做西洋棋的原因之一)

反正這一票DRL相關的東西他們都做過就對了。233

0X05 其他

反正現在各種復現,各種open source湧出。。。。

效果上面和deepmind還是根本沒法比。。。

  • Zeta36/connect4-alpha-zero
  • rossumai/nochi
  • gcp/leela-zero

就是在瞎扯,其他也沒什麼了。


推薦閱讀:

要做的事情太多,蘋果在AI領域已落於下風
傳奇NLP攻城獅成長之路(一)
人工智慧的末日:真正像人類一樣思考的AI真的好嗎?
從軟體到人工智慧 科技業熱點悄然轉變的玄機

TAG:强化学习ReinforcementLearning | 深度学习DeepLearning | 人工智能 |