演算法比數據和計算更重要,AlphaGo Zero自學3天100:0完爆舊狗
譯者|核子可樂
編輯|VincentAI前線出品| ID:ai-front
時至今日,人工智慧研究已經在從語音識別到圖像分類,再到基因組學乃至藥物發現等各個領域取得快速發展。而其中大多數場景原本都是需要投入大量人力資源與數據的專業系統。
然而,對於一部分特定問題,利用人類知識加以解決則往往成本過高——包括不夠可靠或者根本無法承擔如此龐大的工作量等。因此,AI 研究的長期目標在於繞過人為階段,而是創造演算法,最終在無需人類介入的前提下立足各類挑戰性領域實現超越人類的成效表現。在最近發表於《自然》雜誌的論文當中,DeepMind 展現了邁向這一目標的重要一步。
從零開始
這篇論文介紹了 AlphaGo Zero,即 AlphaGo 的最新發展成果、亦是第一款能夠在圍棋這種古老的中國競技項目當中擊敗世界冠軍的計算機程序。Zero 則更為強大,可以說是有史以來最卓越的圍棋棋手。
AlphaGo 之前的各個版本最初由數千名業餘及專業圍棋棋手進行訓練,藉以學習圍棋的規則與技巧。AlphaGo Zero 則路過了這一步,其能夠從完全隨機的對弈開始自行學習規則。在這樣的前提之下,Zero 很快即超過了人類的棋藝水平,並以 100 比 0 的成績迅速擊敗上一代「世界冠軍」AlphaGo。
其之所以能夠取得如此優秀的成績,是因為 AlphaGo Zero 利用一種全新強化學習形式實現「自為自師」。該系統最初只是一套完全不了解圍棋遊戲規則的神經網路。在此之後,通過將該神經網路與強大的搜索演算法相結合,即可進行自我對戰。在對弈過程當中,該神經網路經歷高速與更新,從而預測接下來的最佳行動並最終在遊戲中勝出。
這套經過更新的神經網路隨後與搜索演算法進行重組,藉以創建新的、更為強大的 AlphaGo Zero 版本,這一過程將周而復始不斷進行。在每一次迭代當中,系統成效都將迎來小幅提升,並使得 AlphaGo Zero 變得棋力愈盛、神經網路本身也越來越精確。
這項技術之所以比原本的 AlphaGo 更為強大,是因為其不再受限於人類的知識水平。相反,其能夠像一張白紙般從世界上最強的棋手——AlphaGo——身上學習技巧。
另外,Zero 與初版 AlphaGo 相比還擁有以下不同之處。? AlphaGo Zero 僅使用圍棋棋盤上的黑白棋子作為輸入信息,而 AlphaGo 的以往版本仍包含少量手動設計功能。
? 其僅採用單一神經網路,而非像初版 AlphaGo 那樣使用兩套。AlphaGo 的各早期版本利用一套「策略網路」選擇下一步行動,另外配合一套「價值網路」以預測各個點位對遊戲結果的影響。二者在 AlphaGo Zero 當中併合而為一,使其能夠更為高效地實現訓練與評估。
? AlphaGo Zero 並不使用「推演」——即常見於其它圍棋程序當中,根據現有盤面局勢進行結果預測的快速隨機對弈流程。相反,其依賴於高質量神經網路以評估當前盤面形勢。
上述差異的存在有助於提升系統成效並令其具備更為理想的通用能力。而在另一方面,演算法的改變也令系統本身更為強大且高效。
隨著硬體性能的提升以及近期演算法的持續改進,AlphaGo 的效率正在不斷突破新高。
僅僅在三天的自我對弈之後,AlphaGo Zero 就已經以 100 比 0 的結果強勢擊敗了此前發布的 AlphaGo 版本——而後者曾經擊敗 18 項世界冠軍頭銜擁有者李世石。經過 40 天的自我訓練之後,AlphaGo Zero 變得更為強大,且全面碾壓此前曾擊敗全球最強棋手柯傑的 AlphaGo「Master」版本。
Elo 評分——一項用于衡量競爭性遊戲(例如圍棋)中選手相對技能水平的指標,其結果顯示出 AlphaGo 在發展過程當中如何逐步走向強大。
在數百萬場 AlphaGo 對 AlphaGo 的比賽當中,這套系統從零開始逐步掌握了圍棋技巧,並在短短數天時間中積累到了數千年孕育而來的人類知識。AlphaGo Zero 亦從中發現更多新適度,制定出更多非常規型策略以及創新下法,這進一步反映甚至超越了此前 AlphaGo 在對陣李世石與柯傑時所發揮出的水平。
這些創造性的時刻讓我們相信,人工智慧終將為人類帶來更為強大的創造力,從而幫助我們解決人類所面臨的一系列最為重要的挑戰。
發現新知識
儘管尚處於早期發展階段,但 AlphaGo Zero 已經成為邁向這一目標的關鍵性一步。如果能夠將類似的技術應用於其它結構化問題當中——例如蛋白質摺疊、能源消耗控制或者發現革命性新材料等等,那麼這些突破無疑將對整個人類社會產生積極的推動作用。
論文鏈接
https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ
原文鏈接
https://deepmind.com/blog/alphago-zero-learning-scratch/?from=timeline&isappinstalled=0&nsukey=DDtccAdtB%2FAgyKxG9PVpgBPNyYN7thkzRwbK8RQt6nue%2Bw5nxIjKXklnAWrqJ3dAggUUsZEqDkJd5tBzPIAq60ZEXBko8TTIxPYJvUxCzPJqhFw40XaBN2GJKgmLKjBZlwqzU6yKjSHwIFe8AJG%2BJ8qnKRo%2Bm9dBFWWX5lEILOcVmBmF18G0IFqKM3k1I62Z
-全文完-
AI前線提供最新最全AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享乾貨、最新AI論文解讀。歡迎關注我們的專欄:AI前線 ,也歡迎關注我們的同名公眾號,ID:ai-front
推薦閱讀:
※格靈深瞳 DeepGlint 跟商湯科技 SenseTime 在布希么局?
※機器視覺、機器學習及相關從業人員每天必看的站點有哪些?
※科普一下:到底啥是人工智慧?
※XVC胡博予: 從進化論的角度思考人工智慧