一張圖看懂AlphaGo Zero
編輯 | Vincent
編譯 | 陳利鑫AI前線出品| ID:ai-front
AI 前線導語:前不久,谷歌 DeepMind 發布了 AlphaGo 的進階版本 AlphaGo Zero。後者的表現證明了,在複雜多變的環境下,把沒有預先輸入的「白板」程序,訓練成超人水平是有可能實現的。與此前 100 勝 0 敗戰績的 AlphaGo 相比, AlphaGo Zero 使用 4TPUs 替代了 48TPUs,而且需要的神經網路數量也由兩條變成一條。那麼, AlphaGo Zero 的工作原理是怎樣的?其實一張圖就可以解釋。
上圖是根據在《自然》上發表的文章繪製,解釋了 AlphaGo Zero 是怎樣將深度學習和蒙特卡洛樹搜索結合,使之具有超強的強化學習演算法能力。
簡單來說,AlphaGo Zero 的訓練可以分為三個同時進行的階段:自我對戰、再訓練網路、評估網路。
在自我對戰階段, AlphaGo Zero 創建一個訓練集合,自我完成對戰 25000 次。棋局每變動一次,博弈、搜索可能性和勝出者的信息將被存儲。
訓練網路階段,是神經網路權值得到優化的過程。在一次完整的訓練循環中, AlphaGo Zero 將從 50 萬局博弈中選取 2048 個移動位置作為樣品,並對這些位置的神經網路進行訓練。之後,通過損失函數,來對比神經網路預測與搜索可能性和實際勝出方的信息。每完成一千次這樣的訓練循環,就對神經網路進行一次評估。
在評估網路階段,測試新的神經網路是否得到優化。在這個過程中,博弈雙方都通過各自的神經網路評估葉節點,並使用蒙特卡洛樹搜索進行下一步棋路的選擇。
這樣,在沒有任何人類專業知識和數據輸入的情況下,AlphaGo Zero 完成了了神經網路的「自學」過程。
AlphaGo 的進階之路
目前,人類的專業知識資源相對昂貴,可靠性具有不確定性,而且獲取難度較大,AI 的目的之一,就包括克服這個難題,發現在無需巨大人力投入前提下,可執行龐大計算的解決方案。
進階版 AlphaGo Zero 的出世,讓人類離這個目標更近了一些。這個版本比 AlphaGo 更加強大,後者在經過人類業餘和專業圍棋選家數千次對戰訓練之後,才學會如何玩圍棋。而 AlphaGo Zero 直接跳過這些步驟,從隨機對戰開始,靠自身對戰就學會博弈。
AlphaGo Zero 並沒有被輸入圍棋比賽相關知識,僅了解簡單的遊戲規則,但其在 3 天內即超越曾打敗世界圍棋冠軍李世石的 AlphaGo Lee,21 天超越曾戰勝 60 位全球最頂尖專業圍棋選手和柯潔的 AlphaGo Master,40 天后超越另一版本的 AlphaGo,成為迄今為止最強大的 AlphaGo。
視頻鏈接:https://v.qq.com/x/page/i05626amo4e.html
與之前版本的 AlphaGo 相比,AlphaGo Zero 性能更優,憑藉新型的強化學習方法,AlphaGo Zero 成為自身的「老師」。這個系統通過對圍棋遊戲一無所知的神經網路,結合強大的搜索演算法,自學博弈。在對戰過程中,神經網路可以感知並預測對手的下一步動作。
總而言之,AlphaGo Zero 之所以比之前版本更加強大,是因為其不受人類知識的限制,而是能夠從世界上最強大的玩家——自身,學習並發明自己的戰略。
在 AlphaGo 和 AlphaGo Zero 的數百萬次對戰中,AlphaGo Zero 不斷從博弈中學習,在幾天之內就將人類數千年凝聚的智慧學到手。不僅如此,AlphaGo Zero 還發現了新的知識,在對戰中創造了自己的策略和創新性的招數。
AlphaGo Zero 的創新性「舉動」,一定程度上證明了 AI 可以超越人類的智慧,幫助人類解決困難和挑戰,更多 AI 技術如果在蛋白質摺疊、減少能源消耗、發現新材料等領域得到突破性的應用,將會對社會產生巨大的積極影響。
-全文完-
人工智慧已不再停留在大家的想像之中,各路大牛也都紛紛抓住這波風口,投入AI創業大潮。那麼,2017年,到底都有哪些AI落地案例呢?機器學習、深度學習、NLP、圖像識別等技術又該如何用來解決業務問題?
2018年1月11-14日,AICon全球人工智慧技術大會上,一些大牛將首次分享AI在金融、電商、教育、外賣、搜索推薦、人臉識別、自動駕駛、語音交互等領域的最新落地案例,應該能學到不少東西。目前大會8折報名倒計時,更多精彩可點擊閱讀原文詳細了解。
http://t.cn/Rl2MftP
推薦閱讀:
※人機大戰柯潔勝算不到一成,AlphaGo 身後的 TPU 殺傷力究竟有多強大?
※AlphaGo無懸念勝出柯潔,人類更應該關注人工智慧的應用
※AlphaGo Zero 有開源版了,但這不代表你可以訓練出 AlphaGo Zero