如何看待最新的圍棋人工智慧AlphaGo Zero?

AlphaGo Zero 無師自通 全靠自我學習進步 通過三天的自我學習左右互搏,已100比0 的成績打敗AlphaGo。人工智慧真的完成了從0到1 的蛻變了嗎?


今天早上被一條重大新聞刷屏:

Nature- Mastering the game of go without human knowledge, 阿爾法元超越自己的大哥-阿爾法狗。 這一代演算法被deepmind命名為Alphago Zero, 中文阿爾法元,「元」 含有起點,創世之意。 總之,就是從零開始 ,其實這個元字用意很深, 一方面說, 這個演算法是不需要人類數據指導,也不需要它哥哥(阿法狗)指導,就自己演化出來。 另一方面也可以理解為它可以開啟新紀元。

當然, 同時谷歌也宣傳了它的TPU, 只需要4台TPU運行幾天的功夫就可以了。 那麼, 這次的大新聞是不是一個谷歌精心策劃的商業廣告,還是真的隱藏天機。鐵哥就來給大家解讀一下阿法元和其背後的深度強化學習,看看這次的大新聞算不算得從零到一。

如果大家了解計算機學下棋的事情,就會了解到幾十年前,我們就已經用窮舉法來解決棋類問題了,在國際象棋這類遊戲里, 計算機會以比人腦快的多的速度推演兩軍對峙的未來,在運用零和遊戲里固有的減少風險策略, 在1996年就可以讓人類棋手甘拜下風。

窮舉法不適用圍棋,因為跟其燦若宇宙星辰的可能性搜索空間(每一步19*19可能,若干步驟後就是天文數字,這種由於可能性爆炸導致的悲劇也稱為維度災難),被稱為人工智慧界的mission impossible。 而在2015年, 夢幻被粉碎,原因在於深度卷積網路的幽靈終於潛入到了棋類遊戲領域。 深度學習最擅長把高維度的問題自動的降維,從而解決了剛說過的維度災難,如宇宙星辰般的搜索空間瞬間被壓榨到很小,在此時的機器演算法面前, 圍棋無非是一個當年的國際象棋。

然而當時立下首要功勛的深度卷積網路,卻需要學習三千萬組人類數據進行訓練, 而整個訓練過程需要的能量據說要耗費幾噸煤炭。

人們說,你秒殺人類智商的阿法狗無非是比人類看棋譜的速度快,難道還真的懂圍棋嗎? 你所作的頂多是模仿,裡面的強化學習到底有多少作用, 真的不知道。

然而今天,阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智慧的技術角度看, 這是強化學習的勝利, 在不進行監督學習的情況下, 就可以達到一個高於人類的境地。

為什麼強化學習如此重要? 讓我們先比較一下監督學習和強化學習的基本思想。 監督學習, 強化學習和無監督學習是機器學習的三大框架。 某一個意義說,監督學習是給定輸入和輸出,機器來學習輸入和輸出的關係,一個好的監督學習演算法猶如一個預言家, 它能夠根據自己之前見過的輸入輸出關係來預測未知的輸入。

強化學習呢? 強化學習的三元素是狀態,行為和環境獎勵。 強化學習條件下, 學習者每一步看到的是它決策的行為結果, 然後導致下一步行動,為了最終遊戲的勝利。 一句話說:強化學習強在決策。 監督學習是預言家,強化學習是決策家。

我們一比就明白, 強化學習更像是一個日常決策中的人。我們看到一個老虎,監督學習幫你識別出來它是老虎,那麼你可能剛說出來就被它吃了。 而強化學習告訴你趕緊跑,你可能活下來。 監督學習讓你成為復讀機,而強化學習讓你稱之為生物。

再深一點想,其實學習是為了生存,是贏得game of life(想想那些不太讀書就能過得很好生活的真是深諳強化學習的道理)。 強化學習賦予機器以靈魂。監督學習的那些任務反而是在這個宗旨之下產生的。

回到圍棋, 我們看看強化學習如何決策: 我們在好好理解一些一下「強化」 二字, 強化的意味是: 強化優勢經歷,反過來,就是弱化劣勢經歷。當你走了一部棋導致不好結果,之後被選入這一步棋的概率就降低, 而導致勝利的選擇被不停的強化,直到你每次都延著最佳路徑前進。這聽起來很像進化, 而與進化的區別是,進化是嚴酷的客觀環境對隨機變化的生物的選擇,而強化學習里的單元可以通過梯度下降主動調整策略。

既然強化學習那麼牛, 為什麼阿法狗還用監督學習這個拐棍呢?一句話說,強化學習太難了!

強化學習有兩大難題:

1, 獎勵時間的不確定性: 今天的努力,可能明天回報, 可能十年後才有回報, 今天帶來獎勵的事情,明天可能就導致悲劇(比如吸毒很爽未來地獄) 對於遊戲里的每一次決策, 你都無法獲得立即的反饋,相比監督學習時時可以得到對和錯的答案,這個信息實在太弱了, 用來指導學習,那是慢慢的(如何利用這個或有或無的信息,強化學習的一系列方法圍繞而來,比如Q-learn)。  

2, 探索與收益的平衡難以掌握: 有的人一輩子抱殘守缺,7歲玩泥巴未來就永遠玩泥巴。 有的人一輩子都在探索不同的方向,但是換來換去最終庸庸碌碌。而只有恰當把握探索收益平衡的,比如說27歲前讀書去不同國家,27歲開始認準一個方向成為大佬,30歲前各種風流倜儻,30歲選個知書達理另一半從一而終。 強化學習始終面臨是探索更多空間,還是開始用現在經驗收益的矛盾。 

這兩點放到圍棋這個搜索空間猶如宇宙星辰的遊戲里,估計學習時間也要用生物進化的尺度算, 然而阿爾法元所用的強化學習演算法,號稱解決了這個問題。

仔細看它和它哥哥阿爾法狗的差別沒那麼大, 只不過這一次的神經網路完全由強化學習訓練, 和蒙特卡羅樹得融合可以算是完美。

之前的阿爾法狗有策略和估值網路(都是深度卷積網路),策略負責把棋盤現在的狀態轉化為可能的行為概率, 這個東西被稱為策略(policy,是由每個可能的行為概率構成的向量,簡稱策略向量) ,估值則是輸入目前的棋盤狀態得到最終結果的概率。 這兩個網路在這一次被合成一個巨大的深度殘差網路(卷積網路的一種)。

Nature圖: 深度卷積網路計算概率

深度卷積網路擅長整體對圖像信息進行編碼, 我們可以把這個巨大的殘差網路所作的事情看成白日夢者對未來的總體規劃。 多層卷積本身的天性決定它擅長從這種19*19的格子圖像總結出意思來,強化學習的信息一旦可以訓練網路,就會產生意想不到的效果。而之後MCTS蒙特卡羅樹則對這種初步的結論進行實踐修正。

在這裡回顧一下蒙特卡洛樹是怎麼工作的,說到蒙特卡洛, 這是大名鼎鼎的隨機抽樣方法。所謂樹,大家一定可以想到決策樹,樹的節點是某一刻的狀態,而枝杈代表一個決策(行為),而這裡的蒙特卡洛樹即生成整個決策樹的過程,通過大量的實驗(猶如蒙特卡洛抽樣的過程)得到每個決策行為取勝的概率。

決策樹從一個狀態s出發,每個分支代表一個可能行為(a),而且有一個代表最終贏率的分數與之對應,我們選擇分數最高的那個行為繼續展開(下一次行動),得到新的狀態,用相同的規則行動,直到遊戲結束, 最終贏的走法加一分, 輸的走法減一分,依次往複模擬無數次後,就會得到從s出發不同決策贏得比賽的概率。 這個過程酷似進化選擇演算法, 就是讓那些有優勢的選擇有更高的繁殖子代概率, 最終勝出。雖說這僅僅是阿爾法元的一小步,卻包含了著名的Q-learning和馬爾科夫決策樹的思想。

我們來看每一步決策神經網路和蒙特卡洛樹是怎麼結合的: 決策分為搜索階段和行為階段。假定現在我處在狀態s,在搜索階段神經網路對我所能做的所有行為(a)進行根據對未來的猜測進行預判,生成贏棋的概率v和策略向量p(s,a)。 當然這個預判開始很不靠譜, 蒙特卡洛樹在此基礎通過無數次模擬實踐展開來(注意均是在狀態s上),來實踐出靠譜的策略向量pi(s,a)。

有了神經網路的幫助,蒙特卡羅樹展開不是瞎展開, 也不是從零開始,每一個樹的新分支上,我們都通過神經網路給它一個是正確步驟的先驗概率(P)和初始的贏率(V),代表走它通向勝利的概率。在神經網路助攻下,蒙特卡洛樹可以更快的更新策略向量(每個行為選擇的概率)。此時搜索階段結束, 我們從這個策略向量里通過抽樣得到我們最終進行的行為,是為行為階段。 這下一步棋還真不容易啊!

Nature圖: 策略更新的方法

最終當遊戲結束的時候,神經網路的權重開始更新,這個更新的過程里,我們把整個遊戲的過程分成很多小段, 比較神經網路預測的概率和蒙特卡洛樹算出來的(策略向量之間的差異),以及預測結果與最終結果的差距進行梯度下降(梯度由如下公式得到,此處混合之前的策略和估值網路)。

這樣周而復始,我們可以推斷,最終神經網路的預測將越來越靠譜,和蒙特卡洛樹給出的分析越來越一致。 而圍棋的套路也會被一一發明出來,所謂無師自通。

Nature圖: 看看右下的圖,是不是很像人類選手常用的招!

為什麼說阿爾法元敢叫元? 如果從技術角度看,這一次的阿爾法元沒有那麼多新的東西,而是在之前基礎上讓強化學習進行的更徹底了,然而它所展示的深度強化學習的應用未來,卻是十分誘人的。

圖: 強化學習的勝利(藍)對比監督學習(紫)和監督+強化學習(虛線)

首先,我們看到, 並不是每一件機器學習的事情, 都需要和數據,尤其是需要大量人力的標註數據死磕, 而是可以通過恰當的設立模擬器(比如此處用到的蒙卡樹) 來彌補。阿爾法元不是不需要數據,而是數據都是自己模擬產生的。 模擬+深度強化學習, 在簡單的遊戲規則下,一些複雜的行為範式可以進化出來,而且可以比人類設計的還好, 這, 你就可以大開腦洞了。

這件事在很多設計性的工作里實在是太誘人了。 無論是設計新材料,建築,還是衣服,這些可變維度很高的事物,你都可以想像設立一個模擬模擬環境,再設立一個相應的神經網路去做各種嘗試,最終設計出的結果有一個獎懲函數反饋,來讓這個網路來學習。這就打破了深度學習創業只和手裡有大量數據的壟斷者相關的夢魘。

這裡的深度強化技術, 也才只展示了冰山一角, 在一類被稱為SLAM的技術上, 深度強化學習被證明了強大的控制能力, 它能夠驅動機器人在非常複雜的空間里進行探索無需GPS,對於這一類深度學習任務, 有別於alphago的任務,因為圍棋屬於完全信息的博弈, 而真正的空間探索,是通過感知系統探測到的不完全信息, 通過記憶在時間尺度上的綜合,這一點,只有搬出大名鼎鼎的LSTM來對付了。

能夠控制運動的深度強化學習,遲早會改變工業界,它不僅是無人車裡的核心技術, 更是對話,推薦系統, 金融交易, 甚至是圖像識別的利器,幾乎各類需要監督學習的事情,說到底強化學習都有實力。 你如果製造一個聊天機器人, 你當然希望它能夠揣測你的意圖和你談情說愛而不是背書。 你要一個推薦系統, 你當然不需要它天天給你推你剛看過的小黃片,而是帶著你探索一段BBC-性的秘密。 所以, 強化學習, 是人工智慧的大勢所趨啊。

更有甚者,我們可以設立一個具有類似地球的物理環境的地方,讓配備了深度強化學習系統的虛擬生物進行各種活動,看它們能否利用這個環境發現和利用其中的物理定律。

歡迎關注巡洋艦的深度學習課程, 深度強化學習將是重點:巡洋艦新年深度學習訓練營計劃, 這麼課程, 將真正帶你手把手的領略深度強化學習的魅力, 看你能不能自己動手設計個阿爾法元


很多人一直抱有這樣的想法:

AI再厲害,在XX領域也不會成功的,這個XX,曾經是圍棋、美術、音樂、新聞等……

如今,alpha go能在圍棋上達到這個成就,足以堵住很多人的嘴了。

強如柯潔、李世石,人類在某個領域的頂尖代表,花了十幾年時間鑽研圍棋,依然敗給一個自學幾天的程序。

很多人努力一兩年能通過司考、很多人努力3年能達到120分的高考數學、影像學醫學生認真學習幾年的影像分析可以順利畢業……

在我看來,這些「難度」低於圍棋的事情,被AI攻克只是時間問題,或者說Google(或其他人)想不想去攻克罷了。

今年,某個團隊研發的解數學題軟體,調試幾個月時間,參加文科高考,能達到105分。試問,每年全國800萬高考考生,能達到同等水平的有幾萬?我個人看法是文科數學105分可能相當於理科數學90分,那麼大約是本一線左右水平吧。而本一率大約是10%左右。

條件1 一個只是初級階段的軟體在高考數學這個領域能打敗全國90%的人。(姑且大致這麼認為吧,別鑽牛角尖。)

條件2 以人數算的話,這個社會上的很多人的工作內容的難度,我認為,並不超過高考數學。(這其中的所謂「難度」,至少包含了記憶力、邏輯推理能力、紀律性)

推論3 既然AI能在一個「難度」高的領域打敗很多人,那麼,在「相對難度」低的領域當然同樣可以打敗很多人。

我覺得這是一個合情推理。

將來,某一天,我大喊一聲:「我要寫一篇有關低碳經濟的發言稿,AI你把各級領導近5年內的所有相關內容講話資料給我整理出來,並且以我的身份寫一篇發言稿。」AI在5秒鐘之內給我完成了。

如果這樣的事情發生的話,會有多少文秘工作者下崗?

我覺得,並不遙遠。


阿法狗攻克圍棋並不會讓人覺得人工智慧很厲害,越是年輕的人越覺得沒什麼。

今年出生的人長大會覺得電腦在圍棋方面打敗人類是很了不起的事情嗎?

怎麼會?我出生以前電腦就打敗人類了啊?像圍棋這種變化那麼多的遊戲,人類打不過電腦才正常吧?

圍棋不再被認知為智力,而會被認知為計算。

任何我出生時已有的事物,都是平平無奇的世界的一部分。


第一次工業革命,機器化大生產時代到來,資本家獲得前所未有的權力,而工人階級淪為了無產階級。

馬克思列寧主義開始盛行,最終共產主義實踐產生了蘇聯。

新興的力量很快推翻了幾千年的貴族和君王。世界的格局徹底改變。

人工智慧的崛起,無數鍵盤前面的小白領要被掃出大門,變成什麼階級?

短期一代人內,社會會劇烈震蕩,結構變化。如果人類的統治權沒有被剝奪,那長期幾代人之後,社會重新調整,新的階級新的職業會出現,社會分工會更加明細,圍繞人工智慧形成龐大的產業和經濟。

而人的受教育程度會更加深,而教育也必須適應改革可以更高效的培養出適合更加複雜時代的新人。


目前AI只能對特定遊戲規則通過試錯總結策略的能力,充其量就是下棋無敵、打牌無敵。

根據谷歌公司的說法,星際2項目還差得很多。德撲的1維選擇用暴力試錯學習還可以做到,非回合制的星際2每一秒的操作選項可能高達幾億,並且不斷增加。

如果說能攻剋星際2,這裡的攻克不是通過毫秒運營、完美操作戰勝人類,而是機器從0開始理解星際2的玩法。

那樣機器學習才算是進入了新境界。

希望未來十年,AI能有理解基本科學原理、思考科學可能性的能力。從此科學研究可能會在AI的指引下走出新的路。

最基礎是精妙的實驗設計,人類未察覺的驚人巧合,常人難以計算的數學關係(巴耳末內心毫無波動甚至想暴力計算)。不光這些塵屑和小氣泡將是AI開荒拓土的領域,物理的烏雲可能也要由AI掃去。

科學的未來一片光明!


ai還是很難具有發散思維,但反正人類大部分技術性腦力工作會被代替的!既使ai的發展50年內思維不可能發散到能獨立寫出憤怒的小鳥但10年後能按照大工程師所需拿代碼拿封裝庫這種問題對於google來說我想並不算難,人類雖然不會被征服但會被代替,而被代替者因為消耗資源太高而被裁掉將會產生大量的階級衝突,為了緩解衝突讓機器代替生產人類得到資源得到享受於是人類開始更多的發明創造人類技術得到飛越的進步,大發明家大財閥大科學家滅掉拖累星球的人口後開始製造不死之身開始向宇宙進發。。


早在6,7年前,我和同事們就期待這樣的場景:

早上對著電腦喊一聲:2號機,給我出一個方案本冊,分析圖,效果圖,可實施性分析,都要有哦,還要有藝術范兒。

第二天,方案本冊已經列印好了。。。

那是多麼幸福。。。

估計有生之年可以看見啊。


謝邀,人類真是了不起啊。


「這狗與狗的差距呀,比狗與人還大」— zero說到


推薦閱讀:

「深藍」大敗卡斯帕羅夫與Alpha Go和李世石的對決中表現的「人機大戰」意義一樣嗎?差距在哪?
圍棋少年裡面主角的原型?
對於當今圍棋界,你心目中的第一人是誰?誰可能成為下一個王者?為什麼你有這種判斷呢?
你所知道的最冷的圍棋知識是什麼?

TAG:人工智慧 | 編程 | 圍棋 | 深度學習DeepLearning | AlphaGo |