Alpha Zero 碎碎念

01-26

本文只代表個人觀點，且本文不允許任何轉載，看見請幫忙舉報。

前有：

Mastering the Game of Go with Deep Neural Networks and Tree Search

提出了把SL+RL+MCTS

Mastering the game of Go without human knowledge

不再用SL，完全用DRL，而且是MCTS上的DRL。

後有：

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

把Zero的方法general化。

於是乎新聞媒體開始鋪天蓋地地報道。

我冷靜一下，理性分析。

AlphaGo剛出來的那陣子我大學還沒有畢業，那段時間只是感覺李世石輸得很慘。

隨後便是DeepMind一發不可收拾的paper海戰術，從DQN開始，Double DQN，Prioritized Experience Replay，Dueling Network，DDPG， A2C, A3C, UNREAL, ACER， ACKTR，TRPO，DPPO，再到近期的 Rainbow 以及 AlphaGo Zero。

最後說一下前天的paper， Alpha Zero。

各種文章和報道有分析過的就不想多說了，再隨便扯幾點別的。。。

0X01 計算資源

5000個第一代TPU進行self-play(以及少量的Evaluator)和64個第二代TPU進行training

Alphago Zero 用了2000+的TPU，到了Alpha Zero 變成了5000，算一筆小帳：

姑且算 1 個 TPU $approx$ 10顆 GTX 1080TI 好了，批發價我們算5000RMB一塊？
$10×5000=5W$ 5000個TPU就是：
$5W×5000=25000W=2.5E$

去掉七七八八雜碎，良心價打個折，去掉零頭，2億軟妹幣 好了，但願我數學沒算錯？？？

(聽說有句名言叫做： 有錢不僅可以任性，還可以為所欲為？？)

0X02 MCTS vs. Alpha-Beta

老實說之前我還真的沒有覺得MCTS可以取代Alpha-Beta，畢竟除了圍棋之外，象棋，西洋棋，黑白棋，將棋這些棋類的AI還都是以Alpha-Beta+大量的heuristic的程序為主導。

AlphaGo Zero出來的時候，

確實是驚嘆了一下在MCTS上面進行RL training能夠取得如此好的效果。

可能大家不知道Stockfish有多強，

去它的官網看看，或者去github上面看看源碼吧，

從2008年第一版到現在怎麼說也快10年了吧。

於心不忍的是Stockfish本來是強到沒朋友的，

被Alpha Zero說打爆就打爆啊。真的慘。

0X03 關於Input 和 Output

input feature map

比較有意思的是Shogi。

將棋有8種棋子，加上升變後的6種，共14種，

另外需要考慮盤面的重複出現情況，重複出現4次就要判和。

還有被吃掉的子的數量，以及總move數量。

總共是 $(14+14+3+7+7)*8+1+1=362$

乘以8是記錄前後8手，這個和Alphago Zero的做法一樣。

output

再看output，首先是要確定要動哪一個位置的棋子( $9*9$ )，

然後再確定要動到哪裡去(這點是和圍棋最不同的地方)。

升變前，除去桂馬有兩個位置的特殊走法，

其他任何子都可以是右邊這種走法的子集合，

除去自己的位置，上下左右，以及斜對角線，各有8個位置可以到達

所以共有 $8*8=64$ 個位置，

再加上升變後的情況

以及除去將以外可以有其他7種棋子可以重新被拿回到場上，所以是

$64+2+64+2+7=139$ 種

那output就是 $9*9*139=11259$

換句話說就是對應11259類，這比ImageNet的1000類要多得多，

不過通過這種方式還是降低了一些。

暴力中又沒有那麼暴力了。

但是說實話在DeepMind沒有這樣做之前，

我並不認為這麼高的維度居然也會work。

0X04 關於paper作者

我想不光只看到AlphaGo的Leader David Silver，

還有諸如 Julian Schrittwieser，在deepmind做過星際爭霸2，
Ioannis Antonoglou 很早就做過DQN，Prioritized Experience Replay

Matthew Lai 的碩士論文就是寫的Giraffe

(這也是為什麼他們隨隨便便就做西洋棋的原因之一）

反正這一票DRL相關的東西他們都做過就對了。233

0X05 其他

反正現在各種復現，各種open source湧出。。。。

效果上面和deepmind還是根本沒法比。。。

Zeta36/connect4-alpha-zero
rossumai/nochi
gcp/leela-zero

就是在瞎扯，其他也沒什麼了。