AlphaGo Zero 有開源版了,但這不代表你可以訓練出 AlphaGo Zero
01-24
在 AlphaGo Zero 論文發布幾天後,著名免費圍棋程序 Leela 的作者就已開源了 gcp/leela-zero 項目,基本複製了 AlphaGo Zero 方法(其中還對特徵層做了個小改進可能會讓黑白棋力更一致)。感興趣的讀者可點擊看看。
但是 AlphaGo Zero 的難點不在於它的方法,它的方法是特別簡單,我從前在這個專欄的文章也說過應該用 MCTS 去直接強化網路。關鍵是 DeepMind 的論文其實有點狡猾,沒有說訓練時的精確配置,結果所有新聞報道都把訓練過程說成特別輕而易舉。
實際上:
- 對弈時只需 4 個 TPU v2(估計相當於 40 張 GTX 1080 Ti?)就可實現超強的實力。
- 從自我對弈棋譜訓練網路,也不需要很強的算力。DeepMind 論文中的 64 個 GPU worker,完全足夠。請評論中的朋友看清楚這一點。
- 但生成自我對弈的棋譜,需要大量算力,需要的 TPU v2 數未知,經大家估算,需要 10000 張 GTX 1080 Ti 的算力。
如 CGI 團隊所計算的:
而 Leela 的作者也有類似的估算。所以這需要許多人通力合作,把自我對弈過程做成一個分散式項目。估計除非把虛擬貨幣和這個掛上鉤才會有這麼多的算力。
此外,AlphaGo Zero 的 39 層(20 block)和 79 層(40 block)版本的棋力也有一定區別。下面是 20 block 版本,看上去極限小於 5000 ELO:
下面是 40 block 版本,看上去極限在 5500 ELO 或以上:
據 Zen 的作者所言,DeepMind 團隊曾告訴他 Master 使用的是 20 block 版本的網路,而 ELO 在 4858。所以 Zero 和 Master 在相同架構下棋力並沒有區別,人類棋譜並沒有反作用。
推薦閱讀: