AlphaGo演算法論文《精通圍棋博弈的深層神經網路和樹搜索演算法》
2016-03-16數據精簡DataSimp英譯組秦隴紀等人譯 數據簡化DataSimp
數據精簡DataSimp分享:信息與數據挖掘分析、數據科學研究前沿、數據資源現狀和數據簡化基礎的學科知識、技術應用、產業科研、人物機構、新聞活動等信息。歡迎大家積极參与投稿,為數據科學產學研做貢獻,使國人儘快提高人類信息管理能力,提高社會信息流通效率。本期內容:AlphaGo演算法論文《精通圍棋博弈的深層神經網路和樹搜索演算法》漢譯(DeepMind圍棋人工智慧團隊2016.1.28發表在《自然》雜誌的nature16961原文翻譯,人工智慧之機器學習經典收藏版)、公號附錄(大數據存儲單位和數據簡化DataSimp公眾號簡介)。
精通圍棋博弈的深層神經網路和樹搜索演算法
作者:
①戴維·斯爾弗
1*
,②黃士傑
1*
,③克里斯·J.·麥迪遜
1
,④亞瑟·格斯
1
,⑤勞倫特·西弗瑞
1
,⑥喬治·范登·德里施
1
,⑦朱利安·施立特威澤
1
,⑧揚尼斯·安東諾婁
1
,⑨吠陀·潘聶施爾萬
1
,⑩馬克·蘭多特
1
,?傘德·迪勒曼
1
,?多米尼克·格魯
1
,?約翰·納姆
2
,?納爾 卡爾克布倫納
1
,?伊利亞·薩茨基弗
2
,?蒂莫西·李烈克萊普
1
,?馬德琳·里奇
1
,?科瑞·卡瓦口格魯
1
,?托雷·格雷佩爾
1
,和?戴密斯·哈薩比斯
1
作者單位說明:1谷歌DeepMind,英國倫敦EC4A 3TW,新街廣場5號。2谷歌,美國加利福尼亞州94043,景山,劇場路1600號。*這些作者對這項工作作出了同等貢獻。
中文翻譯者說明*:
原文發表在《自然》2016年1月28日第529卷,484-489頁,保留所有權利。?英國麥克米倫出版公司2016版權。本文漢語譯者基於「忠於原文」原則全文翻譯。同時參考自然雜誌官網http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html,由十五部分組成:摘要、導言、策略網路的監督學習、策略網路的強化學習、估值網路的強化學習、基於策略網路和估值網路的搜索演算法、AlphaGo博弈算力評估、討論、方法、參考文獻、致謝、作者信息、擴展數據圖像和表格、補充資料和網站評論。本文翻譯到算力評估。網站提示:郵件可發至戴維·斯爾弗(davidsilver@google.com)或Demis Hassabis戴密斯·哈薩比斯(demishassabis @google.com)。
歡迎讀者閱讀原文,加強學習理解、掌握應用核心信息技術。時間倉促,疏漏之處難免,敬請提出寶貴意見。中文譯者:秦隴紀-數據簡化DataSimp(貢獻3/5以上),姬向軍-陝西師範大學,楊武霖-中國空間技術研究院,池紹傑-北京工業大學。(轉載本公號文章請註明作者、出處、時間等信息,如「此文轉自:數據簡化DataSimp英譯組秦隴紀等人;?微信公號:數據簡化DataSimp;2016.3.15Tue譯著?。」字樣,詳情郵件諮詢QinDragon2010@qq.com,本文正在投稿,轉載請保留本信息。歡迎數據科學和人工智慧學界、產業界同仁賜稿。)
摘要:
由於海量搜索空間、評估棋局和落子行為的難度,圍棋長期以來被視為人工智慧領域最具挑戰的經典遊戲。這裡,我們介紹一種新的電腦圍棋演算法:使用「估值網路」評估棋局、「策略網路」選擇落子。這些深層神經網路,是由人類專家博弈訓練的監督學習和電腦自我博弈訓練的強化學習,共同構成的一種新型組合。沒有任何預先搜索的情境下,這些神經網路能與頂尖水平的、模擬了千萬次隨機自我博弈的蒙特卡洛樹搜索程序下圍棋。我們還介紹一種新的搜索演算法:結合了估值和策略網路的蒙特卡洛模擬演算法。用這種搜索演算法,我們的程序AlphaGo與其它圍棋程序對弈達到99.8%的勝率,並以5比0擊敗了人類的歐洲圍棋冠軍。這是計算機程序第一次在標準圍棋比賽中擊敗一個人類職業棋手——以前這被認為是需要至少十年以上才能實現的偉業。
導言:
完美信息類遊戲都有一種最優值函數v*(s),從所有遊戲者完美對弈時每一棋盤局面或狀態s,判斷出遊戲結果。這類遊戲可以通過遞歸計算一個約含b
d
種可能落子情況序列的搜索樹,求得上述最優值函數來解決。這裡,b是遊戲廣度(每個局面可合法落子的數量),d是遊戲深度(對弈步數)。在國際象棋(b≈35,d≈80)
1
,特別是圍棋(b≈250,d≈150)
1
等大型遊戲中,雖然窮舉搜索並不可取
2,3
,但有兩種常規方法可以減少其有效搜索空間。第一種方法,搜索深度可以通過局面評估來降低:用狀態s截斷搜索樹,將s的下級子樹用預測狀態s結果的近似值函數v(s)≈v*(s)代替。這種做法在國際象棋
4
,跳棋
5
和奧賽羅
6
中取得了超過人類的性能;但由於圍棋
7
的複雜性,這種做法據信在圍棋中變得棘手。第二種方法,搜索廣度可以用局面s中表示可能落子a的策略函數p(a|s)產生的概率分布的弈法抽樣來降低。例如,蒙特卡洛走子演算法
8
搜索到最大深度時無任何分支,而是用策略變數p為對弈雙方的長弈法序列採樣。大體上,這些走子行為提供了一種有效的局面評估,在五子棋
8
、拼字遊戲
9
和低水平業餘圍棋比賽
10
中均實現了超越人類水平的性能。
蒙特卡洛樹搜索(MCTS)
11
,
12
用蒙特卡洛走子來估算一個搜索樹中每個狀態的值。隨著更多模擬情況的執行,該搜索樹生長變大、相關值變得更加準確。隨著時間的推移,通過選擇那些較高估值的子樹,搜索過程中選擇弈法的策略也得到了提高。該策略漸進收斂於最優弈法,對應的估值結果收斂於該最優值函數
12
。當下最強的圍棋程序都基於MCTS,通過預測人類高手落子情況而訓練的一些策略,來增強性能
13
。這些策略大都把此搜索過程限制在高概率弈法,以及走子時的弈法採樣。該方法已經在很強的業餘博弈中取得了成功
13–15
。然而,前期工作僅限於淺層策略
13–15
,或某些基於一種帶輸入型特徵值的線性函數組合的估值函數。
近來,深度卷積神經網路在視覺領域達到前所未有的高性能:例如圖像分類
17
、人臉識別
18
、雅達利遊戲
19
。他們用重疊排列的多層神經元,逐步構建圖像的局部抽象表徵
20
。我們在圍棋中採用類似架構:通過把棋局看做為一個19×19的圖像,使用若干卷積層構造該局面的表徵值。用這些神經網路,我們來減少有效深度及搜索樹廣度:用一個估值網路評估棋局,用一個策略網路做弈法取樣。
我們用一種由機器學習若干階段組成的管道來訓練這些神經網路(圖1)。開始階段,我們直接使用人類高手的落子弈法訓練一種有監督學習(SL)型走棋策略網路pσ。此階段提供快速、高效的帶有即時反饋和高品質梯度的機器學習更新數據。類似以前的做法
13,15
,我們也訓練了一個快速走棋策略pπ,能對走子時的弈法快速採樣。接下來的階段,我們訓練一種強化學習(RL)型的走棋策略網路pρ,通過優化那些自我博弈的最終結果,來提高前面的SL策略網路。此階段是將該策略調校到贏取比賽的正確目標上,而非最大程度的預測準確性。最後階段,我們訓練一種估值網路Vθ,來預測那些採用RL走棋策略網路自我博弈的贏家。我們的程序AlphaGo,用MCTS有效結合了策略和估值網路。
圖1:神經網路訓練管道和架構
左邊圖1a,一種快速走子策略pπ和監督學習(SL)策略網路pσ被訓練,用來預測一個局面數據集中人類高手的落子情況。一種強化學習(RL)策略網路pρ按該SL策略網路進行初始化,然後對前一版策略網路用策略梯度學習來最大化該結果(即贏得更多的比賽)。通過和這個RL策略網路自我博弈,產生一個新數據集。最後,一種估值網路vθ由回歸訓練的,用來預測此自我博弈數據集裡面局面的預期結果(即是否當前玩家獲勝)。右邊圖1b,AlphaGo神經網路架構的示意圖。圖中的策略網路表示:作為輸入變數的棋局s,通過帶參數σ(SL策略網路)或ρ(RL策略網路)的許多卷積層,輸出合法落子情況a的概率分布或,由此局面概率圖來呈現。此估值網路同樣使用許多帶參數θ的卷積層,但輸出一個用來預測局面s?預期結果的標量值vθ(s?)。1、策略網路的監督學習
訓練管道第一階段,我們按以前的做法用監督學習預測圍棋中高手的落子情況
13,21–24
。此SL策略網路pσ(a|s)在帶有權重數組變數σ和整流器非線性特徵值數組的卷積層間交替使用。最終的softmax層輸出一個所有合法落子情況的概率分布a。此策略網路的輸入變數s是一個棋局狀態的簡單標識變數(見擴展數據表2)。策略網路基於隨機採樣的棋盤情形-操作對(s,a)做訓練:採用隨機梯度升序法,在選定狀態s時,取人類落子a的最大相似度,
我們用KGS圍棋伺服器上的3000萬種棋局,訓練了一個13層策略網路,稱之為SL策略網路。對比其他研究團體提交的44.4%頂尖水準,該網路在一個公開測試數據集上預測高手落子情況:採用全部輸入型特徵值可達57.0%精度,只採用原始棋局和落子歷史數據做為輸入可達55.7%(全部結果在擴展數據表3)
24
。準確性上小的改進,可導致算力大幅提高(圖2a);較大網路亦可實現更好的精度,但在搜索過程中的評價會變慢。我們也訓練了一個快速、但低準確度的走子策略pπ(a|s),採用一種帶權重π的小圖式特徵量的線性softmax層(參見擴展數據表4),這樣,僅用2微秒選擇一種弈法可以達到24.2%的精確度,而不是此策略網路的3毫秒。
圖2:策略和估值網路的算力和準確性。
圖2a,標尺圖展示作為一個他們訓練精確性函數的策略網路博弈算力。每個卷積層分別有128,192,256和384個過濾器的策略網路在訓練期間被定期評估;此圖顯示AlphaGo運用那種策略網路與比賽版AlphaGo對戰的勝率。圖2b,該估值網路和不同策略走子弈法之間的估值精度比較。從人類專家博弈中做局面和結果採樣。每局都由一個單一向前傳遞的估值網路vθ,或100步走子情況的平均結果做評估,用均勻隨機走子,快速走子策略pπ,SL策略網路pσ或RL策略網路pρ等使局面充分被評估。此預測值和實際博弈間的均方差,繪製在博弈階段(多少落子已經在給定局面)。
2、策略網路的增強學習
訓練管道第二階段,旨在用策略梯度型增強學習(RL)來提高之前的策略網路
25,26
。這種RL策略網路pρ在結構上與SL策略網路相同,其權重ρ被初始化為相同值:ρ=σ。我們使其在當前策略網路pρ和某個隨機選擇的上次迭代產生的策略網路之間進行對弈。這種方法的訓練,要用隨機化的存有對手穩定態的數據池,來防止對當前策略的過度擬合。我們使用報酬函數r(s),對所有非終端時間步長t<T時,賦值為0。其結果值zt?=?±?r(sT)是博弈結束時的終端獎勵:按照當前博弈者在時間步長t時的預期,給勝方+1、敗方?1。權重在每一次步長變數t時,按照預期結果最大值的方向,進行隨機梯度升序更新
25
。
博弈中我們評估該RL策略網路的性能,從弈法輸出概率分布對每一次落子採樣為。與SL策略網路正面博弈時,RL策略網路贏得了80%以上。我們還用最厲害的開源圍棋程序Pachi
14
來測試。那是一種複雜的蒙特卡洛搜索程序——KGS伺服器上排名第二的業餘段位選手,每個落子要執行10萬次模擬。不用任何搜索,RL策略網路贏得了85%與Pachi的對弈。對照以前的頂尖水平,僅基於卷積網路的監督學習與Pachi
23
對弈只能贏得11%、與較弱程序Fuego
24
對弈為12%。
3、估值網路的增強學習
最後階段的訓練管道聚焦在對棋局的評估,用一個估值函數v
p
(s)做估計,給棋局s中兩個使用策略p的博弈者預測結果
28,29
,
30
。
理想情況下,我們想知道完美博弈v
*
(s)中的該最優值函數;實踐中,我們用值函數代替做估算,作為最強策略用在RL策略網路pρ。我們用帶權重數組θ的估值網路vθ(s)對此估值函數做近似,. 該神經網路具有一種與此估值函數相似的結構,但輸出一個單一預測,而不是一個概率分布。我們用狀態-結果對(s, z)回歸,訓練該估值網路權重,使用隨機梯度降序來最小化該預測值vθ(s)和相應結果z間的均方差(MSE),
用包含全部博弈的數據集,來預測對弈結果的幼稚做法,會導致過度擬合。其錯誤在於:連續棋局是緊密相關的,不同處只有一枚棋子,但其回歸目標被該完整對弈所共用。我們用這種方法在KGS數據集做過訓練,該估值網路記住了那些博弈結果,並沒有推廣到新棋局,相比此訓練集上的0.19,此測試集上達到了0.37的最小均方差(MSE)。為了緩解這個問題,我們生成了一個新的含有3000萬明顯不同棋局的自我博弈數據集,其每個採樣都來自於某一單獨對弈。每一場對弈都是在上述RL策略網路與自身之間進行,直到博弈結束。在該數據集上的訓練,採用訓練和測試數據集分別可達到0.226和0.234的均方差,這表明最小的過擬合。圖2b顯示了上述估值網路的棋局評估精度,相比使用快速走子策略pπ的蒙特卡洛走子程序,此估值函數一貫都是更加準確。一種vθ(s)單一評價函數也接近使用RL策略網路Pρ的蒙特卡洛程序的精度,且使用少於15000次的計算量。
4.基於策略網路和估值網路的搜索演算法
AlphaGo在一種採用前向搜索選擇弈法的MCTS演算法里,結合使用策略和估值網路(圖3)。每個搜索樹邊界(s, a)存儲:弈法值Q(s, a),訪問計數N(s, a),和前驅概率P(s, a)。從當前根狀態出發,該搜索樹用模擬(指已完成的博弈中做無備份降序)做遍歷。在每次模擬的每個時間步長t,從狀態st內選出一個弈法at,
當滿足,最大弈法值加上與前驅概率成正比、但與訪問計數成反比的獎勵值:,能有效促進對搜索空間的探索。當這個遍歷在步驟L,搜索一個葉節點sL時,該葉節點可能被展開。該葉節點的局面sL僅通過SL型策略網路pσ處理一次。該輸出概率被存儲為每次合法弈法a的前驅概率。這個葉節點通過兩種不同方式被評估:一種是通過估值網路vθ(sL);第二種是,通過一種隨機落子的結果值zL,直到使用快速走子策略pπ在步長T時結束博弈。這些評價被組合起來,用一種混合參數λ,進入一個葉節點估值V(sL):
模擬結束時,遍歷過的所有邊界其弈法值和和訪問計數就會被更新。每個邊界累加其訪問計數值,和所有經過該邊界做的模擬的平均估值:
式中是其第i次模擬的葉節點,1(s, a, i)代表第i次模擬中一個邊界(s, a)是否被訪問。當該搜索結束時,本演算法選擇這次初始局面模擬的訪問計數最多的弈法來落子。
圖3:AlphaGo的蒙特卡洛樹搜索。
圖3a,每次模擬都遍歷帶最大弈法值Q的那個邊界節點,與一個由那個邊界節點存儲的前驅概率P產生的獎勵值u(P)相加。圖3b,此葉節點可能被展開;新節點採用策略網路pσ,其輸出概率值被存儲在每個弈法的前驅概率P中。圖3c,模擬結束後,此葉節點被兩種方法評估:採用估值網路vθ;和博弈最後用快速落子策略pπ進運行一次走子,然後用函數r計算此贏家的估值。圖3d,弈法值Q被更新,用來追蹤所有估值r(·)的中間值和那個弈法下面的子樹vθ(·)。值得注意的是,此AlphaGo的SL策略網路pσ比那個加強型RL策略網路pρ表現地更好,主要原因在於人類選擇最有前景落子中一種可變化的弈法,而RL僅對該單次落子做最優化。然而,從強化後的RL策略網路中推導的估值函數,在AlphaGo的性能要優於SL策略網路推導出的估值函數。
跟傳統啟發式搜索相比,策略和估值網路需要高出幾個數量級的計算量。為了有效結合MCTS和深度神經網路,AlphaGo採用非同步多線程搜索,在多CPU上執行模擬、多GPU並行計算策略和估值網路。本最終版AlphaGo使用了40個搜索線程、48個CPU和8個GPU。我們也應用了一種分散式AlphaGo版本,部署在多台機器上、40個搜索線程、1202個CPU和176個GPU。方法章節提供非同步和分散式MCTS全部細節。
5.AlphaGo博弈算力評估
為了評估AlphaGo,我們在幾個版本的AlphaGo和其它幾種圍棋程序之間運行了一場內部競賽,包括最強商業軟體Crazy Stone
13
,和Zen,和最強開源程序Pachi
14
和Fuego
15
。所有這些程序基於高性能MCTS演算法。此外,我們納入了開源程序GnuGo,一種使用優於MCTS的頂級水平搜索演算法的圍棋程序。在比賽中,所有軟體每一步都只有5s中的計算時間。
此比賽結果(看圖4a)顯示出單機版AlphaGo比以前任何圍棋程序都高數個段位,贏得495場和其它圍棋程序博弈中的494場(99.8%)的勝利。為了給AlphaGo提供更大的挑戰,我們讓AlphaGo在博弈中讓四子(那意味著,對手可以任意落子),與Crazy Stone,Zen和Pachi對弈,分別贏得77%,86%和99%的讓子對弈。AlphaGo分散式版本明顯性能更強,與陣單機版AlphaGo贏得77%的對弈,與其它程序則贏得100%的對弈。
圖4:AplhaGo的賽事評估
圖4a,一場不同圍棋程序間比賽的結果(參考擴展數據表6,7,8,9,10,11)。每個程序每步落子大約有5秒的計算時間。給AlphaGo提供一次巨大的挑戰,一些程序(和高棋比相形見絀)被允許比所有對手先行四手(即,在每場遊戲開始的時候可以自由落子)。程序在國際棋類評級Elo標準37
下被評價:230分的差距相當於79%的贏率,這大致相當於KGS
38
上一個業餘段位級別的優勢;近似對應人類顯示出的級別,水平線顯示那個程序達到的在線KGS排名。與人類歐洲杯冠軍樊麾的博弈也包括進來了;這些對弈須用更多控制時間。展示了95%的穩定差距。圖4b,單機版AlphaGo性能,在一個單機上,測試不同功能的組合。單獨使用策略網路的那個版本沒有任何搜索性能。圖4c,採用搜索線程和多GPU的AlphaGo,其MCTS擴展性研究,用非同步搜索(淺藍)或者分散式搜索(深藍),每次落子2秒。
我們還審估了僅用估值網路(λ?=?0)或僅用走子弈法(λ?=?1)的AlphaGo變種(見圖4b)。即使無走子弈法,AlphaGo的性能也遠超所有別的圍棋程序,表明估值網路在圍棋蒙特卡洛評估中提供了一種可行選擇。而且,混合了兩者的評估()時性能最佳,對弈其他變種的勝率≥95%。這表明兩種局面考核機制是互補的:估值網路用最強但不實用的慢速pρ近似得到對弈結果,而走子弈法能夠用較弱但更快的落子策略pπ準確計分和評估對弈結果。圖5視覺化出AlphaGo真實對弈局面的評估情形。
圖5:在對陣樊麾的非正式博弈中AlphaGo如何選擇其落子
以下每一個統計,做大估值的位置用一個橘色圓圈指示。圖5a,根局面s的所有後繼s′的評估,使用該估值網路vθ(s′);評估到的勝率顯示為頂部評估。圖5b,來自根局面s中樹的每個邊界(s, a)的弈法估值Q(s, a);僅估值網路評估(λ?=?1)平均值以上。圖5c,弈法估值Q(s, a),僅走子估值平均值以上。圖5d,直接來自SL策略網路的落子可能性;通過一個百分比(如果高於0.1%)報告。圖5e,從該模擬根變化選擇的弈法百分比頻率。圖5f,來自AlphaGo搜索樹的主要變化(採用最大訪問計數值的路徑)。落子弈法呈現在一個編號序列里。AlphaGo選擇哪個紅色圓圈指示的落子弈法;樊麾用白色方塊指示的落子位置回應;他賽後評論說,他偏愛AlphaGo預測的落子(標記1)。最後,我們評估了分散式AplhaGo版本,對弈一位職業2段樊麾——2013、2014和2015屆歐洲圍棋冠軍。在2015年10月5-9日,AlphaGo和樊麾在一次正式的五局比賽中競賽。AlphaGo以5:0贏得比賽(圖6和擴展數據表1)。這是一個計算機圍棋程序在沒有讓子的情況下,首次在全規格圍棋中擊敗一個人類專業選手——以前被認為是需要至少十年以上才能實現的偉業。
圖6:來自AlphaGo和歐洲圍棋冠軍樊麾之間的比賽博弈
落子弈法被顯示在在一個數字序列,對應於他們下棋的次序。相同棋位交叉點的重複多次落子被成對顯示棋盤下面。當重複多次落子發生,在用第二次落子數字區分的一個棋位交叉點上,用每對第一個落子數字來做標示。(見「補充信息」)6.討論
本文中,我們開發了一種基於深度神經網路和樹搜索合體的圍棋程序,它可在最強的人類棋手水平博弈,從而實現人工智慧的一個「大挑戰」
31,32,33
。基於一種通過監督和強化學習的全新組合訓練的深度神經網路,我們第一次開發了圍棋的有效落子弈法和局面位置估值函數。我們已經介紹了一種新的搜索演算法,成功結合蒙特卡洛走子弈法和神經網路估值。我們的程序AlphaGo將這些組件整合在一起,成為上規模的高性能樹搜索引擎。
在與樊麾的那場比賽,比起深藍和卡斯帕羅夫國際象棋對弈
4
所做計算,AlphaGo做過的估算少幾千次;其補償如下方面:通過更加智能地選擇那些局面,使用策略網路,和更加準確的估算,使用估值網路——一種也許更近似於人類玩法的方法。其次,相比於深藍依賴於人工評估函數,AlphaGo神經網路通過採用監督和強化學習方法的純遊戲博弈來直接訓練。
在一些面向人工智慧困難的方法上,圍棋是可效仿的
33
,
34
:一個具有挑戰性的決策任務,一個棘手的搜索空間,和一個複雜到用策略或估值函數直接逼近似乎不可行求的最優解。計算機圍棋的前期主要突破——MCTS的引入,導致在很多其他領域的相應發展,比如,常見遊戲博弈、經典規劃、部分觀測計劃、調度,和約束滿足類
35,36
。通過用策略和估值網路結合樹搜索,AlphaGo最終達到一名專業圍棋手水平,給其他看似棘手的人工智慧領域,帶來實現現今人類水平性能的希望。
7、方法
7.1 提出問題
許多完美信息類遊戲,如國際象棋,跳棋,黑白棋,五子棋和圍棋,可定義為馬爾可夫遊戲的變種
39
。在這些遊戲中,有一個狀態空間S(狀態包括遊戲當前玩家表示);一個弈法空間A(s)——定義任何給定狀態s?∈?S中的合法弈法;一個狀態轉換函數f(s, a, ξ)——在狀態s、用隨機輸入ξ(例如,擲骰子),定義選擇弈法a的後繼狀態;和最後的獎勵函數r
i
(s)——描述狀態s中選手i獲得的獎勵。我們把注意力限制到兩選手的零和博弈,r
1
(s)?=??r
2
(s)?=?r(s),與確定性狀態轉換,f(s, a, ξ)?=?f(s, a),和一個除在終止時間步長T時刻的零回報。遊戲zt?=?±r(sT)的結果是在時間步長t,來自當前玩家視角的遊戲最後時刻的最終獎勵。策略p(a|s)是合法弈法上的概率分布。一個估值函數是當雙方選手的所有弈法,是通過相應策略p選擇的,即,所期待的結果。零和博弈有一個唯一最優值函數v*(s),決定來自雙方對手完美博弈後狀態s的結果。
7.2 前期工作
最優值函數可通過minimax(或等價negamax)搜索
40
遞歸計算。大多數遊戲對於窮盡minimax樹搜索來說太大了;然而,遊戲可以用一個近似值函數v(s)?≈?v
*
(s)替代終端獎勵來截短。帶有α-β修剪
40
的深度優先minimax在國際象棋
4
、跳棋
5
和黑白棋
6
已經達到超過人類的性能,但在圍棋
7
中不是很有效。
強化學習可以學習直接逼近從自我博弈遊戲得到的最優值函數
39
,大多數前期工作都集中在一種帶權重θ的特徵值φ(s)確定的一個線性組合vθ(s)?=?φ(s)?·?θ。權重,用國際象棋
42
,
43
、跳
44
,
45
棋和圍棋
30
中的時間差分學習
41
來確定;或用奧賽羅
6
和拼字遊戲
9
中的一種線性回歸。時間差分學習也被用來訓練神經網路來逼近最優值函數,在五子棋
46
中實現超過人類的性能;用卷積網路在小棋盤圍棋
28
,
29
,
47
上實現較弱學徒級性能。
一種minimax搜索的替代方法是蒙特卡洛樹搜索(MCTS)
11
,
12
,用一個雙精度近似值估計內部節點的最優值。第一次近似,採用次蒙特卡洛模擬估算一個模擬策略P
n
的值函數。第二次近似,在minimax最優弈法處採用一種模擬策略P
n
。模擬策略根據搜索控制函數選擇弈法,如UCT
12
——即選擇具有更高弈法值的子樹Q
n
(s, a)?=??V
n
(f(s, a)),加一個鼓勵探索的獎勵值u(s, a);或在狀態s的搜索樹缺位時,用快速落子策略pπ(a|s)採樣。隨著執行更多模擬以及搜索樹生長地更深,該模擬策略通過日益精確的統計變得見多識廣。在極限情況下,兩個近似值變得確切,MCTS(如,用UCT)收斂
12
到最優值函數。當前最強圍棋程序基於MCTS
13
,
14
,
15
,
36
。
先前MCTS結合了一種使用收窄搜索樹子域做高概率落子的策略
13
;或偏向高概率落子獎勵項
48
。MCTS也已結合了估值函數,用於在新擴展節點初始化弈法值
16
,或混合minimax估值的蒙特卡洛估值
49
。相反,AlphaGo對估值函數的使用是基於截尾蒙特卡洛搜索演算法
8
,
9
,對弈結束前終止落子,並用估值函數代替端節點獎勵。AlphaGo的局面評估用截斷走子混合全局走子,某些方面類似於著名的時間差分學習演算法TD(λ)。AlphaGo採用更慢但更強大的策略和估值函數的特徵值,也不同於前期工作;深層神經網路的估值比用線性特徵表示慢了幾個數量級,因此必須採用非同步運行。
MCTS的性能很大程度上由走子策略的質量決定。以前的做法集中在手工模式
50
或通過監督學習
13
、強化學習
16
,模擬平衡
51
,
52
或在線適應
30
,
53
來學習落子策略;然而,眾所周知,基於走子的局面估計往往是不準確的
54
。AlphaGo採用相對簡單的走子弈法,而不是更直接地使用估值網路替代該挑戰性難題——局面評估。
7.3 搜索演算法
為將大型神經網路有效整合進AlphaGo,我們實現了一個非同步策略和估值MCTS演算法(APV-MCTS)。每個搜索樹節點s包含了所有合法弈法的邊(s, a)。每個邊節點存儲一個統計集合。
其中P(s, a)是先驗概率,Wv(s, a)和Wr(s, a)是總弈法值的蒙特卡洛估值,累計超過Nv(s, a)和Nr(s, a)葉評價和走子獎勵,Q(s, a)是邊緣的結合平均弈法值。在獨立搜索線程並行執行多次模擬。APV-MCTS演算法運行的四個階段如圖3所示。(圖3在前文)
7.3.1 選擇(圖3a)。
每個模擬的入樹階段由搜索樹的根部開始,在時間步長L時當模擬達到一個葉節點處完成。在每一個時間步長,,依據此搜索樹的統計選擇一種弈法,利用一種PUCT演算法變體
48
,,其中cpuct是常數,決定搜索水平;這個搜索控制策略最初偏向選擇高先驗概率和低的訪問計數的弈法,但現在越來越偏向那些弈法值弈法。
7.3.2 評估(圖3c)。
葉位置sL被添加到一個通過該估值網路評估函數vθ(sL)評估的隊列;除非它之前被評估過。每個模擬第二次走子階段開始於葉節點sL並持續到對弈結束。在每一個t?≥?L這種時間步長里,弈法由雙方玩家通過走子策略選定。當對弈到最終狀態,結果是從最後的得分來計算。
7.3.3 備份(圖3d)。
在搜索樹的每一次模擬中,走子統計數據以假設輸掉次遊戲、採用, 對數據進行更新。這種虛擬輸棋的方法會降低其他線程同步處理相同情形的次數。在模擬結束後,走子統計數據將沿著路徑反向更新,用, 的輸出結果代替虛擬輸棋的結果。與此過程非同步的同時,葉節點估值結束並完成一個獨立反向路徑的初始化。第二反向路徑由估值網路的輸出值來更新:,,。上述針對每一個狀態-行為的評估都採用蒙特卡洛加權平均,並引入參數對估值網路和走子評估進行綜合考慮。所有的數據更新都採用無鎖技術。
7.3.4 擴展(圖3b)
當訪問計數高於閾值時,後續狀態將加入到搜索樹。新的節點根據進行初始化,採用樹策略(類似於走子策略但有更多的優勢,參見附錄數據表4)為行動選擇提供前驅概率存儲位置。當前位置參數存儲於一個基於策略網路的非同步GPU評估的隊列。前驅概率由SL策略網路和數值為的Softmax計算得出。該結果自動替代先前的前驅概率存儲位置。閾值採用實時動態更新以保證加入到隊列的位置的頻率與GPU評估策略網路的頻率相匹配。為了最大限度的減少每一次評估時間,位置由基於最小批處理數為1的策略網路和估值網路給出。
我們也採用了分散式APV-MCTS演算法,該構架由一個主控計算機執行主搜索任務,其他遠程的CPU計算機執行非同步走子,剩下的遠程計算機GPU執行非同步策略網路和估值網路計算。在該構架中,所有的搜索樹都存儲在主控制計算機上,且僅在每次模擬處理搜索樹內部節點時才執行。葉節點數據在遠程計算機CPU之間進行通信,在每次模擬的走子階段執行。遠程計算機的GPU計算網路特徵並評估策略網路和估值網路的結果。每一步計算完成後,策略網路的前驅概率返回到主控計算機,計算過程中新擴展的節點數據替代原有的優先順序數據。同時,走子網路和數值網路的輸出值分別返回主控計算機,並在新生成的搜索路徑中備份。
每一次搜索結束時,AlphaGo選擇最大訪問計數的路徑,相比於選擇最大弈法值,該方式對異常值的敏感程度更小。後續步驟依然使用搜索樹:對應於已使用了的落子方案的子節點變成新的根節點,在該子節點之下的子樹將保留它原有的數據,並捨棄剩下的搜索樹。對弈版的AlphaGo在對手落子期間繼續搜索,如果基於行動最大化的訪問計數與基於行動最大化的行動值之間的存在嚴重分歧,繼續搜索可擴大搜索的範圍。在中級遊戲中,AlphaGo使用修改後的時間控制方案。當整體評估顯示只有10%的概率()贏得棋局時,AlphaGo選擇認輸。
AlphaGo並未採用在大多數基於蒙特卡洛的圍棋程序中所採用的基於快速走子或快速行動-數值評估的啟發式學習策略。在使用策略網路作為預備知識的情況下,這些有偏差的啟發式學習策略並沒有其它優勢。此外,AlphaGo也不採用輪番擴展、動態貼目或開場書等方案。
7.4 走子策略
走子策略是基於快速遞進計算的線性softmax演算法,它包括「已使用」和 「未使用」兩種模式。 「未使用」模式是一個以為中心的大小圖像的二進位特徵匹配模式。該圖像由周圍點的顏色(黑、白、空)和自由數確定。 「已使用」模式以當前落子位置為S的情況下的上一步的落子位置為中心,對一個由12個點組成的鑽石形圖像進行二進位特徵匹配。此外還封裝了一小部分手動的圍棋規則(如附錄數據表4所示)。與策略網路類似,走子策略的權重在Tygem伺服器上通過學習800萬次人類的圍棋棋局進行訓練,並採用隨機學習使學習日誌最大化。在每一個空棋盤上、一個CPU每一秒鐘進行1000次落子的模擬。
研究表明,本文提出的落子策略的手動植入的知識量比現有最新的Go程序少。同時模擬過程中採用如前所述的搜索樹和策略網路的MCTS探尋高性能的行動選擇。本文提供一種緩存搜索樹上所有的走子方案然後在走子策略中採用相同的走子方案的新技術,這就是所謂的最優的自助式學習。在每一次對樹的遍歷中,概率最高的行動、圍繞上一次落子和當前落子的一個的圖像特性參數(顏色、自由數和棋子數)會被存儲到散列表中。每一次走子,模式特性都會匹配散列表,如果匹配成功則採用最高概率的走子方案。
7.5 對稱性
在前面的工作中,圍棋的對稱性採用在卷積積分區間使用推理和反推的恆定濾波演算法進行表徵。雖然該演算法在較小的神經網路中較為有效,但在大型神經網路中會嚴重影響性能,其原因是該演算法會阻止中段濾波對不對稱圖像的識別。同時,我們發現提出在模擬計算時,對每一個位置使用包含8個反射運動和旋轉運動的二面角集合進行動態變換,以識別圖像的對稱性。在顯式對稱組合中,由上述8個運動組成的最小運動集合同時傳送到策略網路和估值網路進行計算。估值網路的輸出值僅是它們的平均值,策略網路輸出的概率值所組成的平面坐標系經過旋轉或反射變成原來的坐標系,同時對8個運動參數進行平均處理以提供預估值。隨機選擇單次旋轉或反射也用在APV-MCTS的隱式對稱組合中。模擬過程中計算了葉節點的數值,在搜索過程對這些評估得到的參數做了平均。在計算策略網路也採用單次、隨機選擇的旋轉或反射運動:。
7.6 策略網路:分類
7.7 策略網路:強化學習
7.8 估值網路:回歸
7.9 策略/估值網路的特徵
7.10 神經網路架構
7.11 評價(略)
8、參考文獻
1. Allis, L. V. Searching for Solutions in Games and Artificial Intelligence. PhD thesis, Univ. Limburg, Maastricht, The Netherlands (1994)
2. van den Herik, H., Uiterwijk, J. W. & van Rijswijck, J. Games solved: now and in the future. Artif. Intell. 134, 277–311 (2002)
3. Schaeffer, J. The games computers (and people) play. Advances in Computers 52, 189–266 (2000)
4. Campbell, M., Hoane, A. & Hsu, F. Deep Blue. Artif. Intell. 134, 57–83 (2002)
5. Schaeffer, J. et al. A world championship caliber checkers program. Artif. Intell. 53, 273–289 (1992)
6. Buro, M. From simple features to sophisticated evaluation functions. In 1st International Conference on Computers and Games, 126–145 (1999)
7. Müller, M. Computer Go. Artif. Intell. 134, 145–179 (2002)
8. Tesauro, G. & Galperin, G. On-line policy improvement using Monte-Carlo search. In Advances in Neural Information Processing, 1068–1074 (1996)
9. Sheppard, B. World-championship-caliber Scrabble. Artif. Intell. 134, 241–275 (2002)
10. Bouzy, B. & Helmstetter, B. Monte-Carlo Go developments. In 10th International Conference on Advances in Computer Games, 159–174 (2003)
11. Coulom, R. Efficient selectivity and backup operators in Monte-Carlo tree search. In 5th International Conference on Computers and Games, 72–83 (2006)
12. Kocsis, L. & Szepesvári, C. Bandit based Monte-Carlo planning. In 15th European Conference on Machine Learning, 282–293 (2006)
13. Coulom, R. Computing Elo ratings of move patterns in the game of Go. ICGA J. 30, 198–208 (2007)
14. Baudi?, P. & Gailly, J.-L. Pachi: State of the art open source Go program. In Advances in Computer Games, 24–38 (Springer, 2012)
15. Müller, M., Enzenberger, M., Arneson, B. & Segal, R. Fuego – an open-source framework for board games and Go engine based on Monte-Carlo tree search. IEEE Trans. Comput. Intell. AI in Games 2, 259–270 (2010)
16. Gelly, S. & Silver, D. Combining online and offline learning in UCT. In 17th International Conference on Machine Learning, 273–280 (2007)
17. Krizhevsky, A., Sutskever, I. & Hinton, G. ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, 1097–1105 (2012)
18. Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. Face recognition: a convolutional neural-network approach. IEEE Trans. Neural Netw. 8, 98–113 (1997)
19. Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015)
20. LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015)
21. Stern, D., Herbrich, R. & Graepel, T. Bayesian pattern ranking for move prediction in the game of Go. In International Conference of Machine Learning, 873–880 (2006)
22. Sutskever, I. & Nair, V. Mimicking Go experts with convolutional neural networks. In International Conference on Artificial Neural Networks, 101–110 (2008)
23. Maddison, C. J., Huang, A., Sutskever, I. & Silver, D. Move evaluation in Go using deep convolutional neural networks. 3rd International Conference on Learning Representations (2015)
24. Clark, C. & Storkey, A. J. Training deep convolutional neural networks to play go. In 32nd International Conference on Machine Learning, 1766–1774 (2015)
25. Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn. 8, 229–256 (1992)
26. Sutton, R., McAllester, D., Singh, S. & Mansour, Y. Policy gradient methods for reinforcement learning with function approximation. In Advances in Neural Information Processing Systems, 1057–1063 (2000)
27. Sutton, R. & Barto, A. Reinforcement Learning: an Introduction (MIT Press, 1998)
28. Schraudolph, N. N., Dayan, P. & Sejnowski, T. J. Temporal difference learning of position evaluation in the game of Go. Adv. Neural Inf. Process. Syst. 6, 817–824 (1994)
29. Enzenberger, M. Evaluation in Go by a neural network using soft segmentation. In 10th Advances in Computer Games Conference, 97–108 (2003). 267
30. Silver, D., Sutton, R. & Müller, M. Temporal-difference search in computer Go. Mach. Learn. 87, 183–219 (2012)
31. Levinovitz, A. The mystery of Go, the ancient game that computers still can』t win. Wired Magazine (2014)
32. Mechner, D. All Systems Go. The Sciences 38, 32–37 (1998)
33. Mandziuk, J. Computational intelligence in mind games. In Challenges for Computational Intelligence, 407–442 (2007)
34. Berliner, H. A chronology of computer chess and its literature. Artif. Intell. 10, 201–214 (1978)
35. Browne, C. et al. A survey of Monte-Carlo tree search methods. IEEE Trans. Comput. Intell. AI in Games 4, 1–43 (2012)
36. Gelly, S. et al. The grand challenge of computer Go: Monte Carlo tree search and extensions. Commun. ACM 55, 106–113 (2012)
37. Coulom, R. Whole-history rating: A Bayesian rating system for players of time-varying strength. In International Conference on Computers and Games, 113–124 (2008)
38. KGS. Rating system math. KGS: Rating System Math
39. Littman, M. L. Markov games as a framework for multi-agent reinforcement learning. In 11th International Conference on Machine Learning, 157–163 (1994)
40. Knuth, D. E. & Moore, R. W. An analysis of alpha-beta pruning. Artif. Intell. 6, 293–326 (1975)
41. Sutton, R. Learning to predict by the method of temporal differences. Mach. Learn. 3, 9–44 (1988)
42. Baxter, J., Tridgell, A. & Weaver, L. Learning to play chess using temporal differences. Mach. Learn. 40, 243–263 (2000)
43. Veness, J., Silver, D., Blair, A. & Uther, W. Bootstrapping from game tree search. In Advances in Neural Information Processing Systems (2009)
44. Samuel, A. L. Some studies in machine learning using the game of checkers II - recent progress. IBM J. Res. Develop. 11, 601–617 (1967)
45. Schaeffer, J., Hlynka, M. & Jussila, V. Temporal difference learning applied to a high-performance game-playing program. In 17th International Joint Conference on Artificial Intelligence, 529–534 (2001)
46. Tesauro, G. TD-gammon, a self-teaching backgammon program, achieves master-level play. Neural Comput. 6, 215–219 (1994)
47. Dahl, F. Honte, a Go-playing program using neural nets. In Machines that learn to play games, 205–223 (Nova Science, 1999)
48. Rosin, C. D. Multi-armed bandits with episode context. Ann. Math. Artif. Intell. 61, 203–230 (2011)
49. Lanctot, M., Winands, M. H. M., Pepels, T. & Sturtevant, N. R. Monte Carlo tree search with heuristic evaluations using implicit minimax backups. In IEEE Conference on Computational Intelligence and Games, 1–8 (2014)
50. Gelly, S., Wang, Y., Munos, R. & Teytaud, O. Modification of UCT with patterns in Monte-Carlo Go. Tech. Rep. 6062, INRIA (2006)
51. Silver, D. & Tesauro, G. Monte-Carlo simulation balancing. In 26th International Conference on Machine Learning, 119 (2009)
52. Huang, S.-C., Coulom, R. & Lin, S.-S. Monte-Carlo simulation balancing in practice. In 7th International Conference on Computers and Games, 81–92 (Springer-Verlag, 2011)
53. Baier, H. & Drake, P. D. The power of forgetting: improving the last-good-reply policy in Monte Carlo Go. IEEE Trans. Comput. Intell. AI in Games 2, 303–309 (2010)
54. Huang, S. & Müller, M. Investigating the limits of Monte-Carlo tree search methods in computer Go. In 8th International Conference on Computers and Games, 39–48 (2013)
55. Segal, R. B. On the scalability of parallel UCT. Computers and Games 6515, 36–47 (2011)
56. Enzenberger, M. & Müller, M. A lock-free multithreaded Monte-Carlo tree search algorithm. In 12th Advances in Computer Games Conference, 14–20 (2009)
57. Huang, S.-C., Coulom, R. & Lin, S.-S. Time management for Monte-Carlo tree search applied to the game of Go. In International Conference on Technologies and Applications of Artificial Intelligence, 462–466 (2010)
58. Gelly, S. & Silver, D. Monte-Carlo tree search and rapid action value estimation in computer Go. Artif. Intell. 175, 1856–1875 (2011)
59. Baudi?, P. Balancing MCTS by dynamically adjusting the komi value. ICGA J. 34, 131 (2011)
60. Baier, H. & Winands, M. H. Active opening book application for Monte-Carlo tree search in 19×19 Go. In Benelux Conference on Artificial Intelligence, 3–10 (2011)
61. Dean, J. et al. Large scale distributed deep networks. In Advances in Neural Information Processing Systems, 1223–1231 (2012)
62. Go ratings. Go Ratings
9、致謝
我們要感謝:樊麾同意和AlphaGo對弈;T. Manning為此比賽做裁判;R. Munos和T. Schaul有助的意見與建議;A. Cain和M. Cant在視覺方面的工作;P. Dayan, G. Wayne, D. Kumaran, D. Purves, H. van Hasselt, A. Barreto and G. Ostrovski審核論文;以及其他DeepMind團隊的支持、想法和鼓勵。
10、作者信息
這些作者在這項工作作出了同等貢獻。
戴維·斯爾弗(David Silver)和黃士傑;
分公司:
1谷歌DeepMind,英國倫敦EC4A 3TW,新街廣場5號。
David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, Nal Kalchbrenner, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel & Demis Hassabis
2谷歌,美國加利福尼亞州94043,景山,劇場路1600號。
John Nham & Ilya Sutskever.
貢獻者有:
A.H.,G.v.d.D.,J.I.A.,M.La.,A.G.,T.G.和D.S.在AlphaGo設計和實施這項研究。C.J.M.,A.G.,L.S.,A.H.,I.A.,V.P.,S.D.,D.G.,N.K.,I.S.,K.K.和D.S.設計和訓練AlphaGo的神經網路。J.S.,J.N.,A.H.和D.S.設計和實施AlphaGo的評估框架。D.S.,M.Le.,T.L.,T.G.,K.K.和D.H.對該項目做管理和提建議。D.S.,T.G.,A.G.和D.H.撰寫本篇論文。
競爭性金融利益
作者聲明沒有競爭性金融利益。
對應的作者
·對應:戴維·斯爾弗(David Silver),或,戴密斯·哈薩比斯(Demis Hassabis)
11、擴展數據圖像和表格
(略)。
12、補充資料
本壓縮文件包含前文說的5場AlphaGo和樊麾之間正式比賽的博弈記錄。
13、評論
均為《自然》官方網站評價留言(略)。
附錄一、大數據存儲單位(TB以上)
計算機存儲最小的基本單位是bit,按順序給出所有計量單位:bit位(無法分割)、Byte位元組(10^0)、KB千位元組(10^1)、MB兆位元組(10^3)、GB吉位元組(10^6)、TB太位元組(10^9)、PB拍位元組(10^12)、EB艾位元組(10^15)、ZB澤位元組(10^18)、YB堯位元組(10^21)、BB(10^24)、NB(10^27)、DB(10^30)。大數據存儲單位大都TB以上,按照進率1024(2的十次方)來計算:
1 TB = 1,024 GB(Gigabyte吉位元組) = 1,048,576 MB(Megabytes兆位元組);
1 PB(Petabyte千萬億位元組,拍位元組) = 1,024 TB(Terabytes) = 1,048,576 GB;
1 EB(Exabyte百億億位元組,艾位元組) = 1,024 PB(Petabytes) = 1,048,576 TB;
1 ZB(Zettabyte十萬億億位元組,澤位元組) = 1,024 EB(Exabytes) = 1,048,576 PB;
1 YB(Yottabyte一億億億位元組,堯位元組) = 1,024 ZB(Zettabytes) = 1,048,576 EB;
1 BB(Brontobyte一千億億億位元組) = 1,024 YB(Yottabytes) = 1,048,576 ZB;
1 NB(N?Geopbyte?沒查到翻譯) = 1,024 BB(Brontobytes) = 1,048,576 YB;
1 DB(?沒查到) = 1,024 NB = 1,048,576 BB.
註:進位單位全稱及譯音 yotta [堯]它 Y. 10^21, zetta [澤]它 Z. 10^18, exa [艾]可薩 E. 10^15, peta [拍]它 P. 10^12, tera [太]拉 T. 10^9, giga [吉]咖 G. 10^6, mega [兆] M. 10^3「兆」為百萬級數量單位.(秦隴紀16科普版) 、
附錄二、數據簡化DataSimp公眾號
公號文章目前涉及數據簡化前工作,數據科學相關產學研論文和新聞,如數據產業現狀、信息和數據的流程簡化、數據標準化、小數據和大數據關聯簡化等方面。未來推送數據科學、人工智慧、大數據技術頂級團隊和技術信息;推往全球主要數據科學家所在地,中英文同步直播最新產學研信息。謀求儘快達到創業層次做數據行業實業。
公號用戶2016.2.29Mon預覽(包括附件新聞等1.5k字)首日關注43人,第2篇(6.7k字)正式亮相3.1Tue群發關注54人!第3篇(12.8k字)第三天總新增79總關注78人;3.2Wed凈增關注人數11,累積關注人數96。第4篇約13k字,突破100人關注。第5篇約14.4k字,統計新增關注170人,晚上總用戶302人以上。第6篇(9.7k字)3.7Mon凈增49關注人數,累計關注311人,總用戶數329人。第7篇(4.8k字)3.10Thu新增32人關注,總用戶數361人;3.11Fri新增53人關注,總用戶數414人,新消息295人。第8篇(9.8k字)3.15Tue總用戶數470。各群已發紅包幾十次感謝大家關注,每增百級關注發紅包,歡迎大家關注並請分享朋友圈!
數據簡化DataSimp公眾號合伙人:1)具備研究生學歷和能力,身處數據科學相關行業;2)對數據科學和數據簡化相關研究有濃厚興趣和充裕時間,每天可投入半小時,或每周有2、3次發文編輯時間;3)從美國、英國、德法、新加坡、日韓等地文章和活動出發,各國均可以找到本地兼職編輯合伙人一起翻譯整理;4)接受有數據科學和AI基礎的科技媒體記者、新媒體愛好者投稿撰稿。目前6位合伙人(中美韓),尚缺圖像美工、網頁設計、英德法日韓翻譯各一位。
1、設計公眾號LOGO、文末二維碼及打賞碼組合點陣圖:1)數據簡化(data simplification)LOGO要求顯示中英文字:數據Data。LOGO可採用數據「Data」、「DataSimp」變體或縮寫DS為基礎,簡單明了勾勒出對數據做簡化的內涵和形象,做成雙色組合(靜態)和動畫(三色)2個版本的。靜態點陣圖版可參考新智元標誌的布局(其布局顏色設計太模糊不可取),動態有光影閃過效果即可。LOGO用在微信公眾號圖標尺寸8cm,12cm,15cm,30cm,50cm的正方形二維碼中心的圖片位。2)二維碼及打賞碼組合點陣圖:公號二維碼(正中是LOGO)及打賞碼(小圖,大概是公號二維碼的3/4左右)組合點陣圖包含點陣圖和圖下說明文字,用在文末提醒和吸引讀者關注和打賞。優秀者邀請為創始美工設計合伙人,歡迎網頁設計師參與投稿。
2、跨平台H5網頁設計:用於跨多種操作系統終端平台(PC桌面電腦、蘋果電腦、平板電腦、安卓手機、蘋果手機端等)的H5頁面設計優化,需要有大量設計素材和經驗。目前階段「數據簡化DataSimp」微信公眾號頁面單調、配圖不到位。未來公號全面推向微博、博客、知乎、豆瓣等門戶網站及BAT科技類媒體,需要加強兼容各平台的頁面設計。
我們的口號是:有了數據簡化,信息變得簡單。
歡迎學界、業界愛好者推薦最新或重要的數據科學和行業方面文章(關於本領域專家、技術論文、公司產品、事務活動的),抑或你有什麼好的想法,都可以發郵件寫信給我。原創者投稿發文章時署名(筆名亦可),翻譯、整理文章需註明出處和譯者、編輯,高質量主力文源作者可加入數據簡化DataSimp公號合伙人。投稿郵箱QinDragon2010@qq.com,歡迎大家投稿。
如果覺得本號文章有估值,請及時關注。(右邊小圖可打賞,數額不限。商用請打賞)
Data Simplification share: Technologies of data mining, such as data cleaning, data transformation and data reduction, status of data resources and foundation of data simplification, Big Data Reduction field, big data resource reduction which is process of converting experimental data into useful, condended information. 智能公號「數據精簡DataSimp」(賬號ChiefDataAnalyst):內容精頻次低、文字多極少圖、純乾貨收藏版!加強數據科學知識,歡迎關注,回復語音、文字、圖片可對話聊天提問,挑戰比阿爾法狗AlphaGo更厲害的語音圖文多媒體數據人工智慧。歡迎關注,回復,點贊,分享朋友圈,轉發,轉載本公眾號文章。(請註明作者、出處、時間等信息,如「此文轉自:數據簡化DataSimp英譯組秦隴紀等人;微信公號:數據簡化DataSimp;2016.3.15Tue譯著。」字樣,詳情郵件諮詢QinDragon2010@qq.com)本公號文章保留一切權利,如有引文出處不明或遺漏、版權問題等請給公號回復消息留言;投稿郵箱QinDragon2010@qq.com,歡迎數據科學和人工智慧學界、業界同仁賜稿。
推薦閱讀:
※我是黃士傑,AlphaGo人肉臂
※AlphaGo 在圍棋對弈中戰勝人類,對建築界有哪些啟示?
※柯潔1/4子惜敗,機器之心獨家全程對話AlphaGo開發者導師 Martin Müller
※如果阿爾法狗和人類一起打爐石那麼誰會贏?
TAG:AlphaGo |