如何看待 AlphaGo Zero 超越 Master?

「在進行了3天的自我訓練後,AlphaGo Zero 在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界冠軍的韓國九段棋士李世乭。經過 40 天的自我訓練後,AlphaGo Zero 變得更加強大,超越了「Master」版本的 AlphaGo——Master 曾擊敗世界上最優秀的棋士、世界第一的柯潔。」 Via:新智元 http://mp.weixin.qq.com/s/Sfv-jzQAkN0PsZOGZUQhkQ

論文 :《不使用人類知識掌握圍棋》(DOI:10.1038/nature24270)


AlphaGo Zero在圍棋上的獲勝在於它不是建立在人類的經驗或者已知策略的基礎上發展出來的,而是跳出框架獨立學習摸索出來的。

這就說明了跳出人類已知的框架來看問題,或者跳出傳統思維方式來看待問題的重要性。

有時候,研究問題不如研究人類如何研究問題以及如何探索新方法有意思、有意義。


強化學習在有限維里已經達到遠超人類的水平了,但在更難的無限維……看看星際2 https://github.com/deepmind/pysc2 什麼時候能被玩出來吧


比較好奇的是,該版本的兩狗對戰是否已經達到100比零,棋譜是否完全一樣,如果是…………


論文里這麼說的(加粗)

AlphaGo Master is the program that defeated top human players by 60–0

in January 2017. It was previously unpublished, but uses the same neural

network architecture, reinforcement learning algorithm, and MCTS algorithm

as described in this paper. However, it uses the same handcrafted features and

rollouts as AlphaGo Lee and training was initialized by supervised learning from

human data.

AlphaGo Zero is the program described in this paper. It learns from selfplay

reinforcement learning, starting from random initial weights, without using

rollouts, with no human supervision and using only the raw board history as input

features. It uses just a single machine in the Google Cloud with 4 TPUs (AlphaGo

Zero could also be distributed, but we chose to use the simplest possible search

algorithm).


哦,DeepMind打星際的絕招不是飛房子嘛?

PS棋類選手的經濟價值會大幅下降


3天寫c++的水平超越溫酒,21天輕鬆登頂世界……


Residual network真是天才一般啊。這次AlphaGo Zero能在3天訓練好,並且只用單個機器(僅僅4個TPU,與李世乭對戰的可是用了48個TPU的集群),很大都是這個演算法的貢獻吧


有一個很有意思的現象。

在AI圍棋打敗人類之前,想要維護人類尊嚴的保守派普遍認為,依靠傳統靠暴力搜索的計算機已經被實踐證明無法下贏人類,並且差距天差地別,所以圍棋是人類智慧的象徵,是人工智慧無法超越人類智慧的典型例子。電腦幾十年內不可能超越人類。

然而被master無情的打臉。

然後。。下圍棋就不是智能的體現了~~

於是保守派又有了新的理由,圍棋世界的規則和行為是簡單且有限的,通過一定的演算法就可以學習到最優解。所以電腦下贏人類依然不能證明AI已經超越了人類。

而且持這個觀點的人於其是否理解機器學習演算法無關~機器學習界大牛也一樣分成兩派

所以說,除非人類大腦的機制被完全破解,否則,只要大腦還有沒被理解的部分,就會被當做「人類特有的智慧」的象徵;而AI無論達到什麼樣的高度,只要神秘的不再神秘,都會被認為「這不是智能」。

這事跟技術無關,跟人類特有的優越感、和對自我價值的信仰有關。


日心說,進化論,精神分析,alphago zero.

人類只是一種碳基生物,別給自己加太多戲.


圍棋的模型相對簡單,圍棋本身是人類創造的一個完全隔離的小世界,這個小世界所有的規則都是確定的,規則的數量非常少,目標也是確定可量化的,只是到達目標的路徑過於龐大,但是是明確的。在這種小世界中,用暴力遍歷搜索得出的結果一定是最完備和最優的。但是限於計算能力,就需要人類的輔助經驗設計,減小不必要的搜索,也就是演算法中的剪枝,這樣的壞處就是計算結果並不是最完備和最優的,只要能夠戰勝人,這就達到目的了。

輔助經驗設計的實現形式有幾種:

  1. 最容易想到的就是把人類總結出來的所有規律量化出來,逐條加進去,好處是簡單粗暴,壞處就是人類總結的這些規律特別多,無法量化,同時還在不斷發展過程中。如果僅僅靠這些總結出來的規律就能打敗人類的最高水平者,那麼總結出來的規律當中一定包含了人類更高水平者都不知道的規律,這顯然是矛盾的。又或者通過更深的預測步數,就是人類能在規定時間內看4步,計算機看40步,這樣做的前提是,人類總結的規律覆蓋到所有真實規律的一定程度。這是一條路,太普通,遠遠沒有達到讓人驚艷的地步。
  2. 第一種形式中假設的規律可量化本身就是無法落地的過程,因為很多規律很抽象,就是所謂的大局觀,於是出現了Master和AlphaGo這樣的結構,卷積結構,其實這個卷積結構就是人類輔助的經驗設計,是完全根據人的規律量化出來的可擬合人類經驗的落地結構,同時配合人類歷史上的棋譜,讓這些可落地的結構的參數從隨機值變為有意義的值,這個所謂的訓練過程,就是一個空間映射過程,將棋譜空間映射到卷積的參數空間。這條路的要打敗人類,本質上靠的是強大的計算能力,人類經驗中剪枝發生在離樹根較近的位置,而計算機則可以把這個剪枝位置上移,更加接近於樹的節點位置,是可以打敗人類的。
  3. 第二種形式本質是把所有人類歷史棋譜空間賦值到卷積參數空間,而人類的棋譜空間本身就是整個搜索樹中的某一些枝幹而已,如果直接敞開這個限制,在全空間搜索,配合更靠近搜索樹節點的剪枝位置,那結果一定會遠遠好於前兩種,這裡可以看到,這種方法也並沒有完全摒棄人類的可輔助經驗設計,這個輔助經驗設計就是卷積結構。

AlhpaGo Zero 離人們潛意識裡理解的智能有多遠,挺遠的,它僅僅是對於一個完全隔離的小世界的逼近最完備暴力搜索的次優搜索演算法,中間依然用了人類最重要的經驗,只是這個經驗換了一種形式,那就是卷積結構,論文效果非常好,只是題目有點兒浮誇了,DeepMind最近的論文題目有點兒UC風了,比如:

再比如:


更新,我的一個老師發的,來源不詳

這就是之前說的,圍棋的規則確定,輸贏評價標準也確定,所以做起來也比較容易。只是性能和時間的問題。而在規則不定,評價函數不定的領域,人工智慧還有很長的路要走呀!

不過局部最優解依舊讓我感到興奮。

看到評論我不得不修改一下回答。不知道是不是我說的不清楚讓大家產生了誤解。

(1)我沒有絲毫貶低人類的意思。也沒有認為人類過去積累的經驗是錯誤的。我只是覺得,這些經驗結論可能是局部最優。不是說他們沒價值,他們對我們人類超級有價值,只是可能還有更好的答案。

(2)我不認為承認人類的局限性是貶低人類的表現。就像我們就是跑不快,所以需要汽車一樣。發現在自己的局限之處,找到工具來彌補才能到更遠的地方。我們的偉大之處正在於我們有那麼多局限之處卻能一點點去克服。

(3)我並不覺得,即使假如有一天人工智慧能在各個方面做得非常好,人類就沒有意義了。至少對人類來說,人類本身就是目的,就是意義。

有了汽車可以去更遠的地方,但是去哪裡,要不要去這些問題還是掌握在我們自己手中。其次,即使有了汽車,腿也沒有失去意義。因為有的時候走路本身就是意義,而不是最終會到哪裡,多快到。

就像探索世界,不管最後的得到的是什麼答案,是多優的答案,哪怕是沒有答案也沒關係。人類的探索本身就是意義。

(4)我沒有看棋譜,也沒有下圍棋。我只看了相關報道,粗略看了論文。

(5)人工智慧現在的能力還非常有限。別的答案裡面也提到了,圍棋是有既定規則的,走法和評估方法是確定的,所以實現自我學習比較容易。而其他領域的探索還有相當長的路要走,能走多遠誰也不知道。我只是從這件事情上看到一點點願景而已。

(6)任何問題歡迎指正,但還希望大家不要誤解我的意思。

最後,啦啦啦,我也正在這個領域裡面努力學習,希望以後也可以做出激動人心的東西造福這個世界。

----------------------------原答案-----------------------------

僅個人感受,歡迎交流,不喜勿噴。

Zero擊敗了學習人類經驗的Go,其中非常值得關注的一點是,他的的某些走法和專業圍棋手非常不同,走得很 詭異

這意味著之前AlpGo學習的是人類兩千年積累的知識,但那只是一個局部最優解。而Zero自學幾天獲得了一個更優解。這相當於超越了兩千年來一代代圍棋人積累的經驗。

我們現在得到的各種所謂的真理,公理定理,可能都只是一個局部最優解。而我們人類被壽命,智力,認知特點等等因素所限制,如果只依賴自身,只能以極其緩慢的速度前行,甚至可能遇到永遠無法逾越的屏障。而現在Ai將有可能完全突破人類的局限,帶我們更快的去得到更優解。這就像是神一樣的存在,帶人類打開新世界的大門。這一點太激動人心!


李版alphago:凌厲剛猛,無堅不摧。與天下群雄爭鋒

alphago master:誤傷義士不詳,乃封盤術手

alphago zero:重劍無鋒,大巧不工,恃子橫行天下

下一任alphago:漸進無境勝有境之界…嗚呼,群雄束手,長劍空厲,但求一敗而不得,不亦悲夫


一大波憂患意識濃烈的科幻思想家即將到來


今天早上被一條重大新聞刷屏:

Nature- Mastering the game of go without human knowledge, 阿爾法元超越自己的大哥-阿爾法狗。 這一代演算法被deepmind命名為Alphago Zero, 中文阿爾法元,「元」 含有起點,創世之意。 總之,就是從零開始 ,其實這個元字用意很深, 一方面說, 這個演算法是不需要人類數據指導,也不需要它哥哥(阿法狗)指導,就自己演化出來。 另一方面也可以理解為它可以開啟新紀元。

當然, 同時谷歌也宣傳了它的TPU, 只需要4台TPU運行幾天的功夫就可以了。 那麼, 這次的大新聞是不是一個谷歌精心策劃的商業廣告,還是真的隱藏天機。鐵哥就來給大家解讀一下阿法元和其背後的深度強化學習,看看這次的大新聞算不算得從零到一。

如果大家了解計算機學下棋的事情,就會了解到幾十年前,我們就已經用窮舉法來解決棋類問題了,在國際象棋這類遊戲里, 計算機會以比人腦快的多的速度推演兩軍對峙的未來,在運用零和遊戲里固有的減少風險策略, 在1996年就可以讓人類棋手甘拜下風。

窮舉法不適用圍棋,因為跟其燦若宇宙星辰的可能性搜索空間(每一步19*19可能,若干步驟後就是天文數字,這種由於可能性爆炸導致的悲劇也稱為維度災難),被稱為人工智慧界的mission impossible。 而在2015年, 夢幻被粉碎,原因在於深度卷積網路的幽靈終於潛入到了棋類遊戲領域。 深度學習最擅長把高維度的問題自動的降維,從而解決了剛說過的維度災難,如宇宙星辰般的搜索空間瞬間被壓榨到很小,在此時的機器演算法面前, 圍棋無非是一個當年的國際象棋。

然而當時立下首要功勛的深度卷積網路,卻需要學習三千萬組人類數據進行訓練, 而整個訓練過程需要的能量據說要耗費幾噸煤炭。

人們說,你秒殺人類智商的阿法狗無非是比人類看棋譜的速度快,難道還真的懂圍棋嗎? 你所作的頂多是模仿,裡面的強化學習到底有多少作用, 真的不知道。

然而今天,阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智慧的技術角度看, 這是強化學習的勝利, 在不進行監督學習的情況下, 就可以達到一個高於人類的境地。

為什麼強化學習如此重要? 讓我們先比較一下監督學習和強化學習的基本思想。 監督學習, 強化學習和無監督學習是機器學習的三大框架。 某一個意義說,監督學習是給定輸入和輸出,機器來學習輸入和輸出的關係,一個好的監督學習演算法猶如一個預言家, 它能夠根據自己之前見過的輸入輸出關係來預測未知的輸入。

強化學習呢? 強化學習的三元素是狀態,行為和環境獎勵。 強化學習條件下, 學習者每一步看到的是它決策的行為結果, 然後導致下一步行動,為了最終遊戲的勝利。 一句話說:強化學習強在決策。 監督學習是預言家,強化學習是決策家。

我們一比就明白, 強化學習更像是一個日常決策中的人。我們看到一個老虎,監督學習幫你識別出來它是老虎,那麼你可能剛說出來就被它吃了。 而強化學習告訴你趕緊跑,你可能活下來。 監督學習讓你成為復讀機,而強化學習讓你稱之為生物。

再深一點想,其實學習是為了生存,是贏得game of life(想想那些不太讀書就能過得很好生活的真是深諳強化學習的道理)。 強化學習賦予機器以靈魂。監督學習的那些任務反而是在這個宗旨之下產生的。

回到圍棋, 我們看看強化學習如何決策: 我們在好好理解一些一下「強化」 二字, 強化的意味是: 強化優勢經歷,反過來,就是弱化劣勢經歷。當你走了一部棋導致不好結果,之後被選入這一步棋的概率就降低, 而導致勝利的選擇被不停的強化,直到你每次都延著最佳路徑前進。這聽起來很像進化, 而與進化的區別是,進化是嚴酷的客觀環境對隨機變化的生物的選擇,而強化學習里的單元可以通過梯度下降主動調整策略。

既然強化學習那麼牛, 為什麼阿法狗還用監督學習這個拐棍呢?一句話說,強化學習太難了!

強化學習有兩大難題:

1, 獎勵時間的不確定性: 今天的努力,可能明天回報, 可能十年後才有回報, 今天帶來獎勵的事情,明天可能就導致悲劇(比如吸毒很爽未來地獄) 對於遊戲里的每一次決策, 你都無法獲得立即的反饋,相比監督學習時時可以得到對和錯的答案,這個信息實在太弱了, 用來指導學習,那是慢慢的(如何利用這個或有或無的信息,強化學習的一系列方法圍繞而來,比如Q-learn)。  

2, 探索與收益的平衡難以掌握: 有的人一輩子抱殘守缺,7歲玩泥巴未來就永遠玩泥巴。 有的人一輩子都在探索不同的方向,但是換來換去最終庸庸碌碌。而只有恰當把握探索收益平衡的,比如說27歲前讀書去不同國家,27歲開始認準一個方向成為大佬,30歲前各種風流倜儻,30歲選個知書達理另一半從一而終。 強化學習始終面臨是探索更多空間,還是開始用現在經驗收益的矛盾。 

這兩點放到圍棋這個搜索空間猶如宇宙星辰的遊戲里,估計學習時間也要用生物進化的尺度算, 然而阿爾法元所用的強化學習演算法,號稱解決了這個問題。

仔細看它和它哥哥阿爾法狗的差別沒那麼大, 只不過這一次的神經網路完全由強化學習訓練, 和蒙特卡羅樹得融合可以算是完美。

之前的阿爾法狗有策略和估值網路(都是深度卷積網路),策略負責把棋盤現在的狀態轉化為可能的行為概率, 這個東西被稱為策略(policy,是由每個可能的行為概率構成的向量,簡稱策略向量) ,估值則是輸入目前的棋盤狀態得到最終結果的概率。 這兩個網路在這一次被合成一個巨大的深度殘差網路(卷積網路的一種)。

Nature圖: 深度卷積網路計算概率

深度卷積網路擅長整體對圖像信息進行編碼, 我們可以把這個巨大的殘差網路所作的事情看成白日夢者對未來的總體規劃。 多層卷積本身的天性決定它擅長從這種19*19的格子圖像總結出意思來,強化學習的信息一旦可以訓練網路,就會產生意想不到的效果。而之後MCTS蒙特卡羅樹則對這種初步的結論進行實踐修正。

在這裡回顧一下蒙特卡洛樹是怎麼工作的,說到蒙特卡洛, 這是大名鼎鼎的隨機抽樣方法。所謂樹,大家一定可以想到決策樹,樹的節點是某一刻的狀態,而枝杈代表一個決策(行為),而這裡的蒙特卡洛樹即生成整個決策樹的過程,通過大量的實驗(猶如蒙特卡洛抽樣的過程)得到每個決策行為取勝的概率。

決策樹從一個狀態s出發,每個分支代表一個可能行為(a),而且有一個代表最終贏率的分數與之對應,我們選擇分數最高的那個行為繼續展開(下一次行動),得到新的狀態,用相同的規則行動,直到遊戲結束, 最終贏的走法加一分, 輸的走法減一分,依次往複模擬無數次後,就會得到從s出發不同決策贏得比賽的概率。 這個過程酷似進化選擇演算法, 就是讓那些有優勢的選擇有更高的繁殖子代概率, 最終勝出。雖說這僅僅是阿爾法元的一小步,卻包含了著名的Q-learning和馬爾科夫決策樹的思想。

我們來看每一步決策神經網路和蒙特卡洛樹是怎麼結合的: 決策分為搜索階段和行為階段。假定現在我處在狀態s,在搜索階段神經網路對我所能做的所有行為(a)進行根據對未來的猜測進行預判,生成贏棋的概率v和策略向量p(s,a)。 當然這個預判開始很不靠譜, 蒙特卡洛樹在此基礎通過無數次模擬實踐展開來(注意均是在狀態s上),來實踐出靠譜的策略向量pi(s,a)。

有了神經網路的幫助,蒙特卡羅樹展開不是瞎展開, 也不是從零開始,每一個樹的新分支上,我們都通過神經網路給它一個是正確步驟的先驗概率(P)和初始的贏率(V),代表走它通向勝利的概率。在神經網路助攻下,蒙特卡洛樹可以更快的更新策略向量(每個行為選擇的概率)。此時搜索階段結束, 我們從這個策略向量里通過抽樣得到我們最終進行的行為,是為行為階段。 這下一步棋還真不容易啊!

Nature圖: 策略更新的方法

最終當遊戲結束的時候,神經網路的權重開始更新,這個更新的過程里,我們把整個遊戲的過程分成很多小段, 比較神經網路預測的概率和蒙特卡洛樹算出來的(策略向量之間的差異),以及預測結果與最終結果的差距進行梯度下降(梯度由如下公式得到,此處混合之前的策略和估值網路)。

這樣周而復始,我們可以推斷,最終神經網路的預測將越來越靠譜,和蒙特卡洛樹給出的分析越來越一致。 而圍棋的套路也會被一一發明出來,所謂無師自通。

Nature圖: 看看右下的圖,是不是很像人類選手常用的招!

為什麼說阿爾法元敢叫元? 如果從技術角度看,這一次的阿爾法元沒有那麼多新的東西,而是在之前基礎上讓強化學習進行的更徹底了,然而它所展示的深度強化學習的應用未來,卻是十分誘人的。

圖: 強化學習的勝利(藍)對比監督學習(紫)和監督+強化學習(虛線)

首先,我們看到, 並不是每一件機器學習的事情, 都需要和數據,尤其是需要大量人力的標註數據死磕, 而是可以通過恰當的設立模擬器(比如此處用到的蒙卡樹) 來彌補。阿爾法元不是不需要數據,而是數據都是自己模擬產生的。 模擬+深度強化學習, 在簡單的遊戲規則下,一些複雜的行為範式可以進化出來,而且可以比人類設計的還好, 這, 你就可以大開腦洞了。

這件事在很多設計性的工作里實在是太誘人了。 無論是設計新材料,建築,還是衣服,這些可變維度很高的事物,你都可以想像設立一個模擬模擬環境,再設立一個相應的神經網路去做各種嘗試,最終設計出的結果有一個獎懲函數反饋,來讓這個網路來學習。這就打破了深度學習創業只和手裡有大量數據的壟斷者相關的夢魘。

這裡的深度強化技術, 也才只展示了冰山一角, 在一類被稱為SLAM的技術上, 深度強化學習被證明了強大的控制能力, 它能夠驅動機器人在非常複雜的空間里進行探索無需GPS,對於這一類深度學習任務, 有別於alphago的任務,因為圍棋屬於完全信息的博弈, 而真正的空間探索,是通過感知系統探測到的不完全信息, 通過記憶在時間尺度上的綜合,這一點,只有搬出大名鼎鼎的LSTM來對付了。

能夠控制運動的深度強化學習,遲早會改變工業界,它不僅是無人車裡的核心技術, 更是對話,推薦系統, 金融交易, 甚至是圖像識別的利器,幾乎各類需要監督學習的事情,說到底強化學習都有實力。 你如果製造一個聊天機器人, 你當然希望它能夠揣測你的意圖和你談情說愛而不是背書。 你要一個推薦系統, 你當然不需要它天天給你推你剛看過的小黃片,而是帶著你探索一段BBC-性的秘密。 所以, 強化學習, 是人工智慧的大勢所趨啊。

更有甚者,我們可以設立一個具有類似地球的物理環境的地方,讓配備了深度強化學習系統的虛擬生物進行各種活動,看它們能否利用這個環境發現和利用其中的物理定律。

歡迎關注巡洋艦的深度學習課程, 深度強化學習將是重點:巡洋艦新年深度學習訓練營計劃, 這麼課程, 將真正帶你手把手的領略深度強化學習的魅力, 看你能不能自己動手設計個阿爾法元


如果有「人」學數學2小時,之前連小學數學都不會,僅僅2個小時,就是高數水平。任意一門學科,人類用一年,它學1小時就行,可怕不可怕?在不遠的未來,一定會實現。

人窮盡一生所追求的,在機器大腦那裡不值一提。最先是記憶力,現在有誰要和計算機比記憶力嗎?哪位勇士站出來,我把我的千元機拿出來和你比。然後是計算力,最後是學習能力。

可以肯定的說,阿法狗三天圍棋成神僅僅是學習能力的一個很低的里程碑,既不代表未來的常規學習速度,也無法作為宇宙極限學習速度的參考。

可能有人覺得我說的誇張,三天成神還很低級?是的,從原理上就是低級的。我直言不諱的說,大數據就是低級低效的學習,難道有人會認為題海戰術能領悟知識的真諦?

學習速度固然以思考運算速度為基礎,但計算機的運算速度是有明顯瓶頸的,液氮冷卻超頻到8Ghz,單線程也就這樣了,把一個晶元做到整張晶圓片那麼大效率也並不會提升,反而因為距離增大而頻率下降,做厚則降低散熱速度。

而另一點,就是學習效率了,可以從單位運算的學習效率為標準,也可以以單位信息吸收效率為標準,根據兩者標準不同而有不同的學習方式和其意義,前者是運算力匱乏的選擇,而後者是學習素材匱乏的選擇。人類的正常學習傾向素材匱乏型,總算力隨著時間積累,而有效素材則越來越少。而快速反應會傾向算力匱乏型,遭遇突發事件時容不得細想,只能去猜測發生了什麼。

不管哪樣都和大數據不沾邊,大數據學習的高算力資源和海量數據是極為奢侈的,人類學習沒那條件,高算力意味著更加耗能的大腦,而海量數據意味著更長的學習周期,生物界競爭斷絕了這種生物產生的可能。

算力匱乏型學習會捨棄部分甚至絕大部分素材和信息,最短時間裡提煉知識核心框架。

素材匱乏型學習會窮舉素材數據和知識庫的一切組合。

人的記憶力和運算能力是由身體狀態所決定的,理解力由學識多少和理解方式決定,學習就是記憶、理解和應用。

通用型人工智慧,以最樸素本質的設計原則,即不要求它去做某一項具體工作,僅僅是學習,甚至是漫無目的的學習。人工智慧的理解能力會隨著學識的增長而增長,理解效率也會因為理解方式的進步而提升,最終將達到一個極為恐怖的程度。

人類的腦容量是極為有限的,如果不信大可以回憶5年前的今天,其實一個月前就可以,想想那天都做了什麼,一件一件寫下來,也可以回憶下自己看過的任意一本書的任意寫滿字的一頁。我不否認計算機也有記憶力瓶頸,晶元和線路內的電流速度就是瓶頸,不過地球那麼大計算機是極其遙遠的未來才能夠展望的,當下暫時認為計算機的記憶力是無窮的。回憶力暫且不談,是演算法問題。

到這裡可能還有人想不明白這和2小時從小學數學通關大學數學有什麼關係,又或者如何能以遠爆阿法狗的速度通關圍棋。

現在有那麼一個活了相當於人類10000歲的人工智慧,它的一生就是不停地學習,作為人類眼中的知識之神,它第一次接觸圍棋,開始學習圍棋。雖然它從來沒有接觸圍棋,根本就沒有聽說過,圍棋對它來說就是完全陌生的X棋Y棋。但是,它不是沒有下過其他的棋,可以把棋牌遊戲的演算法和規律拿來套用測試,這樣就省了很多時間。

就算不談現成演算法和圍棋棋譜素材,只要理解規則,就可以根據規則推算獲勝的演算法。從一人一子輪番下的角度,平均子佔地效率高就能獲勝,繼而出現兩個分支,一是減少對手的子,也就是吃子,另一個是佔據更有效率的點。

吃子上,可以利用先手優勢,也就是先手吃子法。也可以利用附近的落子,形成以多打少。還有專攻對手失誤、換子等等。

佔地效率上,根據圍棋盤旋轉重合的特點,把圍棋盤比作一個靶子,靠邊的是1環,往裡是2環,直到10環為一點,環數越高位置越少。每一個子都會對內環、外環和同環附近產生影響力輻射,欲使個子影響力最大,就應當子的內環和外環等數目或接近,也就是落子棋盤中環。1和2環總共是(18+16)×4=136個空為外環區,9、8、7、6和5環總共有(2+4+6+8+10)×4=120個空為內環區,3和4環有(12+14)×4=104個空,為中環區。中環區的爭奪是勝負的關鍵!

然而棋盤只是被近似的看做環,並不是真正的環,每一環都是個正方形,環上子的影響力也有所不同,每一環的角位受其內環角位的影響最小(斜相鄰),角位和本、外環各有兩個相鄰,角位對外環施加的影響力最大。外環區受邊界影響,缺少對外環影響力,也沒有來自更外環的影響力,雖然很容易防守圈地,但是缺乏進攻能力。

到這裡,是一子未落,僅僅是根據棋盤規則本身就推算出來的!繼續對棋盤規則本身進行細緻的解讀,完全依靠數學邏輯的推演,一局不用下也是可以破解圍棋的。

我的知識遠不如設想中學習了一萬年時長的人工智慧,所以未來真實情況要比我所設想的更加驚世駭俗。

60年前的計算機,算力還不如現在的計算器,二十年前發射的宇航器算力不如智能手錶,現在的阿法狗性能比不上20年後的小管家是很正常的。

只是那時候人還能做什麼工作呢?我想來想去,也就只剩藥物實驗、心理和社會研究了。


感覺人類發展到了一個一不小心那個領域發展過速就會搞死自己的危險階段。。。


悲劇啊,並不是zero的演算法和硬體牛逼,只是因為人類經驗拖了哥哥的後腿。。

不知道還有哪些其他領域裡人類的科技樹一步步點歪了,雖然每一步在當時看起來都是最優解


fate zero里,master再牛逼,也是要有servant的。。目前來看,沒電一切白搭。


ai趕緊統治人類吧,我快受不了他們了


這新聞倒是印證了我之前對於職業發展的一些思考。

只是普通數據工作者的職業,不適用於大神們。

大佬的話要聽。之前吳恩達在O』reilly舉辦的AI Conference上就說了,強化學習和非監督學習是新時代的扛把子。

演算法職位的細分已經出現。繼深度學習演算法工程師之後,目測市面上即將出現強化學習演算法工程師,並且動輒也標個年薪百萬,並且長年招不到人。

演算法和數據都很重要,演算法工程師的數學能力和工程能力,兩手都要抓,兩手都要硬。演算法至上還是數據為王的爭論會越來越少,更多時候是針對具體情境下的資源優先順序。

人工智慧要取代人類什麼的,說說就好了。圍棋這種規則性問題,很難,但是很適合機器。倒是我們看上去簡單的事,識別感知一類的,機器學習的突破到現在還是有限。嗯,莫拉維克悖論。

搞這一行,就像等風來。像搭上一架超音速飛機,發展特別特別快。一兩個月就蹦一打新名詞,理論、框架、工具層出不窮。別慌,別焦慮,做自己喜歡的領域就好了,深度/強化學習,監督/非監督學習,都是有效手段,自己手上的場景和問題才是目的。不要趕潮流,數據的潮流,真不是普通人能趕上的。


推薦閱讀:

為何圍棋這麼好卻只在中日韓盛行?
圍棋的棋盤為什麼那麼大?
如何評價李昌鎬?
從圍棋專業角度來看,如何復盤李世石對弈 AlphaGo 的第一局,都有哪些關鍵之處?
怎麼樣解讀《建國大業》中的這局圍棋?

TAG:人工智慧 | 圍棋 | 機器學習 | AlphaGo | GoogleDeepMind |