Alpha Zero 碎碎念
本文只代表個人觀點,且本文不允許任何轉載,看見請幫忙舉報。
前有:
- Mastering the Game of Go with Deep Neural Networks and Tree Search
- 提出了把SL+RL+MCTS
- Mastering the game of Go without human knowledge
- 不再用SL,完全用DRL,而且是MCTS上的DRL。
後有:
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
- 把Zero的方法general化。
於是乎 新聞媒體開始 鋪天蓋地 地 報道。
我冷靜一下,理性分析。AlphaGo剛出來的那陣子我大學還沒有畢業,那段時間只是感覺李世石輸得很慘 。
隨後便是DeepMind一發不可收拾的paper海戰術,從DQN開始,Double DQN,Prioritized Experience Replay,Dueling Network,DDPG, A2C, A3C, UNREAL, ACER, ACKTR,TRPO,DPPO,再到近期的 Rainbow 以及 AlphaGo Zero。最後說一下前天的paper, Alpha Zero。
各種文章和報道有分析過的就不想多說了,再隨便扯幾點別的。。。0X01 計算資源
5000個第一代TPU進行self-play(以及少量的Evaluator)和64個第二代TPU進行training
Alphago Zero 用了2000+的TPU,到了Alpha Zero 變成了5000,算一筆小帳:
姑且算 1 個 TPU 10顆 GTX 1080TI 好了,批發價我們算5000RMB一塊?
5000個TPU就是:
去掉七七八八雜碎,良心價打個折,去掉零頭,2億 軟妹幣 好了,但願我數學沒算錯???
(聽說有句名言叫做: 有錢不僅可以任性,還可以為所欲為??)0X02 MCTS vs. Alpha-Beta
老實說之前我還真的沒有覺得MCTS可以取代Alpha-Beta,畢竟除了圍棋之外,象棋,西洋棋,黑白棋,將棋這些棋類的AI還都是以Alpha-Beta+大量的heuristic的程序為主導。
AlphaGo Zero出來的時候,確實是驚嘆了一下在MCTS上面進行RL training能夠取得如此好的效果。可能大家不知道Stockfish有多強,去它的官網看看,或者去github上面看看源碼吧,從2008年第一版到現在怎麼說也快10年了吧。於心不忍的是Stockfish本來是強到沒朋友的,被Alpha Zero說打爆就打爆啊。真的慘。0X03 關於Input 和 Output
比較有意思的是Shogi。
將棋有8種棋子,加上升變後的6種,共14種,
另外需要考慮盤面的重複出現情況,重複出現4次就要判和。還有被吃掉的子的數量,以及總move數量。總共是 乘以8是記錄前後8手,這個和Alphago Zero的做法一樣。再看output,首先是要確定要動哪一個位置的棋子( ),
然後再確定要動到哪裡去(這點是和圍棋最不同的地方)。升變前,除去桂馬有兩個位置的特殊走法,
其他任何子都可以是右邊這種走法的子集合,
除去自己的位置,上下左右,以及斜對角線,各有8個位置可以到達所以共有 個位置,再加上升變後的情況以及除去將以外可以有其他7種棋子可以重新被拿回到場上,所以是 種那output就是
換句話說就是對應11259類,這比ImageNet的1000類要多得多,
不過通過這種方式還是降低了一些。暴力中又沒有那麼暴力了。但是說實話在DeepMind沒有這樣做之前,
我並不認為這麼高的維度居然也會work。0X04 關於paper作者
我想不光只看到AlphaGo的Leader David Silver,
還有諸如 Julian Schrittwieser,在deepmind做過星際爭霸2,Ioannis Antonoglou 很早就做過DQN,Prioritized Experience ReplayMatthew Lai 的 碩士論文就是寫的Giraffe (這也是為什麼他們隨隨便便就做西洋棋的原因之一)反正這一票DRL相關的東西他們都做過就對了。2330X05 其他
反正現在各種復現,各種open source湧出。。。。
效果上面和deepmind還是根本沒法比。。。- Zeta36/connect4-alpha-zero
- rossumai/nochi
- gcp/leela-zero
就是在瞎扯,其他也沒什麼了。
推薦閱讀:
※要做的事情太多,蘋果在AI領域已落於下風
※傳奇NLP攻城獅成長之路(一)
※人工智慧的末日:真正像人類一樣思考的AI真的好嗎?
※從軟體到人工智慧 科技業熱點悄然轉變的玄機
TAG:强化学习ReinforcementLearning | 深度学习DeepLearning | 人工智能 |