一大波 Master 正在靠近

本文原載於 科技蜘蛛 - 知乎專欄 和同名公眾號(微信id:techspider)

一個不透露姓名的神秘 Master,突然出現橫掃人類圍棋高手,豪取60連勝。一份不完全的手下敗將名單 : 古力,柯潔,陳耀燁,范廷鈺,常昊,時越,羋昱廷,唐韋星,江維傑,柁嘉熹,周睿羊,朴廷桓,元晟溱,姜東潤,金志錫,朴永訓,井山裕太。。。。

我猜 DeepMind 團隊肯定有成員看過中國武俠小說,一名神秘殺手於月黑風高間殺遍江湖,武林腥風血雨,尊嚴盡喪。正在各種傳言盛囂塵上之時,殺手現身。絕妙的營銷。一個技術頂尖還懂搞噱頭的團隊,就像你身邊某個智商情商雙爆表,多金,長的還帥的同事,你恨不恨!

其實除了AlphaGo,近幾年還有一些很優秀的人工智慧圍棋程序,它們也經常和人類棋手過招,各有勝負,只是宣傳力度遠不如Google。在 DeepMind 的 AlphaGo 異軍突起之前,人工圍棋軟體的佼佼者們,基本被法國和日本等國佔據。它們有共同的基本思路,也有各自獨特的亮點。其中 Facebook 的 darkforest 提供詳細的論文和代碼,別的電腦圍棋程序則比較神秘。

Facebook 的黑暗森林 (Darkforest)

黑暗森林是 Facebook AI Research 的兩位華人研究者共同完成的人工智慧圍棋程序,命名來自劉慈欣的《三體II:黑暗森林》。田淵棟博士自己在知乎上謙虛的說 (原話),要是 DeepMind 決定在2015年10月份戰勝樊麾後馬上公開,或者他自己再拖一會兒,決定不投ICLR 而等到2016年的 ICML,那就被滅得連渣都不剩了。如果把科研者的虛懷若谷先放一邊的話,人工智慧的日新月異也可見一斑。

和 AlphaGo 一樣,黑暗森林也是基於深度神經網路的模型 (12層),所以也和 AlphaGo 具有相似的優勢和缺陷。優勢就不再贅述了,缺陷主要存在於對局部策略的選擇上。為了彌補這一缺陷,黑暗森林也選擇了蒙特卡洛樹搜索作為對深層網路的補充。

黑暗森林經歷了三個版本的演進。第一代 darkforest 體現了相比傳統蒙克卡洛搜索的優勢,第二代 darkforest2 達到了穩定的 KGS 3d 的水平,之後,在參考了 alphaGo 的演算法之後,作者又在 darkforest2 的基礎上加入了蒙特卡洛演算法,開發出第三代 darkfmcts3,性能得到了進一步提升,差不多達到 KGS 5d 的水平。其實相比 DeepMind 人數眾多的團隊,Darkforest 的開發團隊只有兩人,能取得這樣的性能已相當不容易。t

相比 AlphaGo 的策略網路每次只預測下一步走棋,Darkforest 可以預測接下去 k 步棋 (predict long-term moves),包括自己的和對手的棋,這是它獨特而強大的地方。個人猜測,當時AlphaGo和李世石下棋的時候,有時會走出一些無用的「電腦手」,一方面是 DCNN 的固有弊端 (Darkforest的論文中也提到類似的問題),另一方面也可能就是因為缺乏長遠規劃。另一個獨特的地方是,Darkforest 的結構採用了多個 softmax 輸出,目的是訓練時可以增強監督。為了提高收斂速度,Darkforest 還使用了最新的深度殘差網路 ResNet。

Darkforest 比 AlphaGo 欠缺的是預測大局的估值網路,這部分是AlphaGo 的獨創,個人猜測也是它擁有良好大局觀的原因之一。

業界良心,黑暗森林的訓練源碼是開源的,感興趣的請猛擊 Github 鏈接facebookresearch/darkforestGo

日本的 Zen

Zen 是目前最著名的圍棋程序之一, 2009年發布了第一個版本,最新版本發佈於2016年6月。和黑暗森林與 AlphaGo 的團隊開發不同,Zen 是日本程序員Yoji Ojima單獨開發的圍棋程序,硬體部分則由 Kato Hideki 實現。Zen 以劣勢的硬體設備 (單機Mac Pro 8 cores, 當然最新也有mini cluster 或 GPU 版本),連續多年在各種圍棋人工智慧比賽中奪得冠軍。Zen 19K2 也是第一個達到 9D 水準的機器。

法國的 CrazyStone

CrazyStone 由法國計算機科學家 Rémi Coulom 單獨開發,採用的也是蒙特卡洛搜索方法,在 Grid5000 大規模計算平台上運行。CrazyStone 2013年被讓4子擊敗石田芳夫,2014年被讓4子擊敗依田紀基。圖為 Rémi Coulom 和依田紀基正在對決。

2016年5月,CrazyStone 的最新版本加入了深度學習模塊,使性能大幅提高,達到 KGS 7d 水準,對戰沒有深度學習的CrazyStone 2013版本的勝率達到 90%。Unbalance Corporation還推出了商業版本, 花80美元你就可以擁有一個職業棋手水準的專職陪練!

法國和台灣合作的 MoGo

MoGo 是一款由法國INRIA (法國國家信息與自動化研究所) 和一個台灣的團隊共同開發的圍棋軟體。2009年於台灣,MoGo在被讓7子的條件下在19*19全尺寸棋盤上擊敗了周俊勛九段。 MoGo採用的技術主要有:蒙特卡洛方法,基於Armed Bandits 的樹搜索演算法 (在當時是革命性的),以及高性能計算集群 (和Crazy Stone一樣在Grid5000大規模計算平台上運行)。最近 MoGo 貌似沒有更新一步的動作。

韓國的DolBaram

作為在圍棋領域和智能科技領域均有相當積累的國家,韓國的一家規模並不大的公司 NuriGrim 決定向日本和法國挑戰,開發出了 DolBaram。在2016年的 UEC Cup 上,DolBaram 取得了第二名的戰績。在流傳出的有限的信息中,可以知道 DolBaram 和 AlphaGo 一樣,也採用了深度學習方法。

可以看出,AlphaGo 的成功對人工圍棋軟體這個行業的影響是很明顯的,深度學習和蒙特卡洛結合的方法成為了主流。而圍棋之後,類似的方法在別的需要複雜決策的領域的應用,比如醫療,政府決策,智慧城市等,才是更令人激動的。正是人類智慧才創造了人工智慧,你大爺終究是你大爺。

——END——

本文為原創文章,如需轉載請聯繫科技蜘蛛微信公眾號後台。

部分圖片來自網路,如有侵權,請聯繫我們刪除。

WeChat ID:techspider


推薦閱讀:

柯潔輸掉人機大戰不可怕,計算機悔棋、掀棋盤才可怕
如何打造一個AI遊戲玩家?(AI遊戲代碼資源庫—隨時更新)
柯潔惜敗阿法狗|Timer周報170528期
AlphaGo 與深度學習

TAG:人工智能 | AlphaGo | 机器学习 |