如何看待阿爾法元戰勝阿爾法狗?

https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html


今天早上被一條重大新聞刷屏:

Nature- Mastering the game of go without human knowledge, 阿爾法元超越自己的大哥-阿爾法狗。 這一代演算法被deepmind命名為Alphago Zero, 中文阿爾法元,「元」 含有起點,創世之意。 總之,就是從零開始 ,其實這個元字用意很深, 一方面說, 這個演算法是不需要人類數據指導,也不需要它哥哥(阿法狗)指導,就自己演化出來。 另一方面也可以理解為它可以開啟新紀元。

當然, 同時谷歌也宣傳了它的TPU, 只需要4台TPU運行幾天的功夫就可以了。 那麼, 這次的大新聞是不是一個谷歌精心策劃的商業廣告,還是真的隱藏天機。鐵哥就來給大家解讀一下阿法元和其背後的深度強化學習,看看這次的大新聞算不算得從零到一。

如果大家了解計算機學下棋的事情,就會了解到幾十年前,我們就已經用窮舉法來解決棋類問題了,在國際象棋這類遊戲里, 計算機會以比人腦快的多的速度推演兩軍對峙的未來,在運用零和遊戲里固有的減少風險策略, 在1996年就可以讓人類棋手甘拜下風。

窮舉法不適用圍棋,因為跟其燦若宇宙星辰的可能性搜索空間(每一步19*19可能,若干步驟後就是天文數字,這種由於可能性爆炸導致的悲劇也稱為維度災難),被稱為人工智慧界的mission impossible。 而在2015年, 夢幻被粉碎,原因在於深度卷積網路的幽靈終於潛入到了棋類遊戲領域。 深度學習最擅長把高維度的問題自動的降維,從而解決了剛說過的維度災難,如宇宙星辰般的搜索空間瞬間被壓榨到很小,在此時的機器演算法面前, 圍棋無非是一個當年的國際象棋。

然而當時立下首要功勛的深度卷積網路,卻需要學習三千萬組人類數據進行訓練, 而整個訓練過程需要的能量據說要耗費幾噸煤炭。

人們說,你秒殺人類智商的阿法狗無非是比人類看棋譜的速度快,難道還真的懂圍棋嗎? 你所作的頂多是模仿,裡面的強化學習到底有多少作用, 真的不知道。

然而今天,阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智慧的技術角度看, 這是強化學習的勝利, 在不進行監督學習的情況下, 就可以達到一個高於人類的境地。

為什麼強化學習如此重要? 讓我們先比較一下監督學習和強化學習的基本思想。 監督學習, 強化學習和無監督學習是機器學習的三大框架。 某一個意義說,監督學習是給定輸入和輸出,機器來學習輸入和輸出的關係,一個好的監督學習演算法猶如一個預言家, 它能夠根據自己之前見過的輸入輸出關係來預測未知的輸入。

強化學習呢? 強化學習的三元素是狀態,行為和環境獎勵。 強化學習條件下, 學習者每一步看到的是它決策的行為結果, 然後導致下一步行動,為了最終遊戲的勝利。 一句話說:強化學習強在決策。 監督學習是預言家,強化學習是決策家。

我們一比就明白, 強化學習更像是一個日常決策中的人。我們看到一個老虎,監督學習幫你識別出來它是老虎,那麼你可能剛說出來就被它吃了。 而強化學習告訴你趕緊跑,你可能活下來。 監督學習讓你成為復讀機,而強化學習讓你稱之為生物。

再深一點想,其實學習是為了生存,是贏得game of life(想想那些不太讀書就能過得很好生活的真是深諳強化學習的道理)。 強化學習賦予機器以靈魂。監督學習的那些任務反而是在這個宗旨之下產生的。

回到圍棋, 我們看看強化學習如何決策: 我們在好好理解一些一下「強化」 二字, 強化的意味是: 強化優勢經歷,反過來,就是弱化劣勢經歷。當你走了一部棋導致不好結果,之後被選入這一步棋的概率就降低, 而導致勝利的選擇被不停的強化,直到你每次都延著最佳路徑前進。這聽起來很像進化, 而與進化的區別是,進化是嚴酷的客觀環境對隨機變化的生物的選擇,而強化學習里的單元可以通過梯度下降主動調整策略。

既然強化學習那麼牛, 為什麼阿法狗還用監督學習這個拐棍呢?一句話說,強化學習太難了!

強化學習有兩大難題:

1, 獎勵時間的不確定性: 今天的努力,可能明天回報, 可能十年後才有回報, 今天帶來獎勵的事情,明天可能就導致悲劇(比如吸毒很爽未來地獄) 對於遊戲里的每一次決策, 你都無法獲得立即的反饋,相比監督學習時時可以得到對和錯的答案,這個信息實在太弱了, 用來指導學習,那是慢慢的(如何利用這個或有或無的信息,強化學習的一系列方法圍繞而來,比如Q-learn)。  

2, 探索與收益的平衡難以掌握: 有的人一輩子抱殘守缺,7歲玩泥巴未來就永遠玩泥巴。 有的人一輩子都在探索不同的方向,但是換來換去最終庸庸碌碌。而只有恰當把握探索收益平衡的,比如說27歲前讀書去不同國家,27歲開始認準一個方向成為大佬,30歲前各種風流倜儻,30歲選個知書達理另一半從一而終。 強化學習始終面臨是探索更多空間,還是開始用現在經驗收益的矛盾。 

這兩點放到圍棋這個搜索空間猶如宇宙星辰的遊戲里,估計學習時間也要用生物進化的尺度算, 然而阿爾法元所用的強化學習演算法,號稱解決了這個問題。

仔細看它和它哥哥阿爾法狗的差別沒那麼大, 只不過這一次的神經網路完全由強化學習訓練, 和蒙特卡羅樹得融合可以算是完美。

之前的阿爾法狗有策略和估值網路(都是深度卷積網路),策略負責把棋盤現在的狀態轉化為可能的行為概率, 這個東西被稱為策略(policy,是由每個可能的行為概率構成的向量,簡稱策略向量) ,估值則是輸入目前的棋盤狀態得到最終結果的概率。 這兩個網路在這一次被合成一個巨大的深度殘差網路(卷積網路的一種)。

Nature圖: 深度卷積網路計算概率

深度卷積網路擅長整體對圖像信息進行編碼, 我們可以把這個巨大的殘差網路所作的事情看成白日夢者對未來的總體規劃。 多層卷積本身的天性決定它擅長從這種19*19的格子圖像總結出意思來,強化學習的信息一旦可以訓練網路,就會產生意想不到的效果。而之後MCTS蒙特卡羅樹則對這種初步的結論進行實踐修正。

在這裡回顧一下蒙特卡洛樹是怎麼工作的,說到蒙特卡洛, 這是大名鼎鼎的隨機抽樣方法。所謂樹,大家一定可以想到決策樹,樹的節點是某一刻的狀態,而枝杈代表一個決策(行為),而這裡的蒙特卡洛樹即生成整個決策樹的過程,通過大量的實驗(猶如蒙特卡洛抽樣的過程)得到每個決策行為取勝的概率。

決策樹從一個狀態s出發,每個分支代表一個可能行為(a),而且有一個代表最終贏率的分數與之對應,我們選擇分數最高的那個行為繼續展開(下一次行動),得到新的狀態,用相同的規則行動,直到遊戲結束, 最終贏的走法加一分, 輸的走法減一分,依次往複模擬無數次後,就會得到從s出發不同決策贏得比賽的概率。 這個過程酷似進化選擇演算法, 就是讓那些有優勢的選擇有更高的繁殖子代概率, 最終勝出。雖說這僅僅是阿爾法元的一小步,卻包含了著名的Q-learning和馬爾科夫決策樹的思想。

我們來看每一步決策神經網路和蒙特卡洛樹是怎麼結合的: 決策分為搜索階段和行為階段。假定現在我處在狀態s,在搜索階段神經網路對我所能做的所有行為(a)進行根據對未來的猜測進行預判,生成贏棋的概率v和策略向量p(s,a)。 當然這個預判開始很不靠譜, 蒙特卡洛樹在此基礎通過無數次模擬實踐展開來(注意均是在狀態s上),來實踐出靠譜的策略向量pi(s,a)。

有了神經網路的幫助,蒙特卡羅樹展開不是瞎展開, 也不是從零開始,每一個樹的新分支上,我們都通過神經網路給它一個是正確步驟的先驗概率(P)和初始的贏率(V),代表走它通向勝利的概率。在神經網路助攻下,蒙特卡洛樹可以更快的更新策略向量(每個行為選擇的概率)。此時搜索階段結束, 我們從這個策略向量里通過抽樣得到我們最終進行的行為,是為行為階段。 這下一步棋還真不容易啊!

Nature圖: 策略更新的方法

最終當遊戲結束的時候,神經網路的權重開始更新,這個更新的過程里,我們把整個遊戲的過程分成很多小段, 比較神經網路預測的概率和蒙特卡洛樹算出來的(策略向量之間的差異),以及預測結果與最終結果的差距進行梯度下降(梯度由如下公式得到,此處混合之前的策略和估值網路)。

這樣周而復始,我們可以推斷,最終神經網路的預測將越來越靠譜,和蒙特卡洛樹給出的分析越來越一致。 而圍棋的套路也會被一一發明出來,所謂無師自通。

Nature圖: 看看右下的圖,是不是很像人類選手常用的招!

為什麼說阿爾法元敢叫元? 如果從技術角度看,這一次的阿爾法元沒有那麼多新的東西,而是在之前基礎上讓強化學習進行的更徹底了,然而它所展示的深度強化學習的應用未來,卻是十分誘人的。

圖: 強化學習的勝利(藍)對比監督學習(紫)和監督+強化學習(虛線)

首先,我們看到, 並不是每一件機器學習的事情, 都需要和數據,尤其是需要大量人力的標註數據死磕, 而是可以通過恰當的設立模擬器(比如此處用到的蒙卡樹) 來彌補。阿爾法元不是不需要數據,而是數據都是自己模擬產生的。 模擬+深度強化學習, 在簡單的遊戲規則下,一些複雜的行為範式可以進化出來,而且可以比人類設計的還好, 這, 你就可以大開腦洞了。

這件事在很多設計性的工作里實在是太誘人了。 無論是設計新材料,建築,還是衣服,這些可變維度很高的事物,你都可以想像設立一個模擬模擬環境,再設立一個相應的神經網路去做各種嘗試,最終設計出的結果有一個獎懲函數反饋,來讓這個網路來學習。這就打破了深度學習創業只和手裡有大量數據的壟斷者相關的夢魘。

這裡的深度強化技術, 也才只展示了冰山一角, 在一類被稱為SLAM的技術上, 深度強化學習被證明了強大的控制能力, 它能夠驅動機器人在非常複雜的空間里進行探索無需GPS,對於這一類深度學習任務, 有別於alphago的任務,因為圍棋屬於完全信息的博弈, 而真正的空間探索,是通過感知系統探測到的不完全信息, 通過記憶在時間尺度上的綜合,這一點,只有搬出大名鼎鼎的LSTM來對付了。

能夠控制運動的深度強化學習,遲早會改變工業界,它不僅是無人車裡的核心技術, 更是對話,推薦系統, 金融交易, 甚至是圖像識別的利器,幾乎各類需要監督學習的事情,說到底強化學習都有實力。 你如果製造一個聊天機器人, 你當然希望它能夠揣測你的意圖和你談情說愛而不是背書。 你要一個推薦系統, 你當然不需要它天天給你推你剛看過的小黃片,而是帶著你探索一段BBC-性的秘密。 所以, 強化學習, 是人工智慧的大勢所趨啊。

更有甚者,我們可以設立一個具有類似地球的物理環境的地方,讓配備了深度強化學習系統的虛擬生物進行各種活動,看它們能否利用這個環境發現和利用其中的物理定律。

歡迎關注巡洋艦的深度學習課程, 深度強化學習將是重點:巡洋艦新年深度學習訓練營計劃, 這麼課程, 將真正帶你手把手的領略深度強化學習的魅力, 看你能不能自己動手設計個阿爾法元


直接搬運兩個網址,

第一個來自於微信公眾號,知社學術圈,有比較中肯的評價。

今日Nature: 人工智慧從0到1, 無師自通完爆阿法狗100-0 | 深度解析

第二個是DeepMind的官方網站,有詳盡的說明和資料,可供查閱。

https://deepmind.com/blog/alphago-zero-learning-scratch/


抖個機靈:終於知道當年為啥是虛竹破解珍瓏棋局了

--------------------------------------

從門外漢的角度來說,我覺得阿爾法元算是突破了我對人工智慧的認識。

以前我一直覺得人工智慧不過是憑藉對於海量數據的快速檢索和演算能力從人類已經創造出來的所謂標註樣本中選取最優解罷了,所謂機器學習也需要依靠人類已經完成的樣本作為標杆,然而現在阿爾法元的出現顯然推翻了我的觀點:人類給出的樣本本就不是最優解,人工智慧自己創造的樣本反而更加完善。這時候我才真的覺得人工智慧當得起「智能」二字。至於未來發展會怎樣,是福是禍,我這樣的門外漢只能表示,惶恐並期待著。

------------------

更新:

很多人都覺得這次阿爾法元只是又做了一次大型運算而已,並不算是大的突破。雖然我也認為此次阿爾法元仍然是倚仗自己超強的運算能力完成的圍棋走子,但是相比於阿爾法狗依憑人類標註樣本走子,阿爾法元此次純粹靠自己幾乎窮極所有可能解後達成的走子結果,已經有了一定程度上的所謂「黑箱」的特質。這也是為什麼我說在我看來,它真正能夠擔得起「智能」二字了:阿爾法狗的棋招或許還能找到憑據,然而阿爾法元的落子結果可能人類真的很難去追溯了。

聽說矽谷現在已經出現了「拜AI教」,不知道AI今後會不會代替人類成為地球上新的霸主,也不知道到那時候,AI自己的歷史中,是不是也有一個像古猿Lucy一樣的,被稱為是「最早祖先」的角色。如果有的話,我投阿爾法元一票 (?&>?&


阿爾法元是會人工智慧的一小步;

是人類的一大步。

除了感覺或現象之外,世界本身是無法認識的。

眾所周知,亞里士多德是著名的哲學家、科學家,被稱為「百科全書式的科學家」。但我們所知的亞里士多德科學領域的主要論斷錯誤居多,著名的有天體學:地球是宇宙的中心。物理學:力是維持物體運動的原因。他是錯了嗎,在我們今天看來,是的。但是我們要知道,亞里士多德世界觀的確立是建立在當時能觀測到的客觀事實上,換句話說,亞里士多德是根據說觀測的結果加以合理的邏輯推理、科學方法來得到的一系列假說。

反過來說,那我們今天所得到的科學就是正確的了嗎,會不會隨著科技的發展,有不同的參考系給我們提供呢,或者是否可以通過觀測得到一個新的世界。答案是肯定的。

科學並不是正確的,科學的意義只是不斷的靠近、接近真相,更可怕的是,在探索真相的過程中,限於認知水平、人類邏輯學的局限性,距離真相可能會忽遠忽近、曲線接近,而真正的真相可能人類最終都難以達到。

應用人類邏輯的機器,可以加快人類探索的進程,在時間軸上縮短了時間。而阿爾法元,應用了自身的邏輯系統,四十天擊敗了用人類邏輯系統的阿爾法狗,也順理成章地擊敗了利用人類邏輯學習了幾千年的人類。

阿爾法元只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。

原因就是突破了原有系統的束縛,建立了新的機器邏輯系統。更深層次的,這個機器的邏輯系統可以自我更迭,其速度會超出人類的想像。

機器邏輯的自我更迭也會解放人類,人類不再需要去指導、糾正機器的學習,而是讓機器自我學習、自我更迭。而阿爾法元的成功就是機器學習的一大步,相信利用機器來探索世界的大門也會慢慢打開。

對於人類來說,解放了人類。人類的發展讓科學家所需的基礎知識越來越多,愛因斯坦26歲就解決了光電效應、迎來了著名的「愛因斯坦奇蹟年」。可是現在物理方向的研究人員,往往26歲還沒有完成基礎知識的積累,更別說在年輕的時候有所突破了。矛盾的是,往往學習完了基礎知識也會過了大腦最適宜產出的年齡了。是時間限制了人類的進步,隨著人類的發展,毫無疑問地想產生突破所需的基礎知識會越來越多,以此更替阻礙人類的進步。而機器的學習是迅速的,成果是可以迅速讀取的,快速而有效,解放了人類的大腦。

我們對機器學習的發展充滿期待。比如,商用可控核聚變,將讓人類探索宇宙變成了可能。人類艾滋病、白血病的攻克,會讓人類可以擺脫更多疾病的干擾。相信通過人工智慧,人類生活水平的上升、文明程度的提高將指日可待。


意識AI的黎明

大數據時代的黃昏


人類依賴過去經驗,徹底輸給了人工智慧。毫不費力。改變的不是機器系統,而是錯就拋棄,對就執行的深度學習,這讓我想到了西門吹雪。

好比,很多智商很高的人,讀書很多,聰明的人,會很在意別人的看法,過分在意可能出現的不好後果,患得患失優柔寡斷,導致執行力差,錯失機會,不敢冒險,過得很糾結。

如果換作阿爾法元,就會過濾掉所有負面的推導和別人的看法,通過內在驅動力,執行並得到反饋,如果是負面反饋,能夠很快過濾掉。在下一次機會到來了繼續上陣,而不會有一朝被蛇咬十年怕井繩的人類消極心態。

這樣的機器容易過得純粹從容淡定優雅。


阿爾法元畢竟還是要靠規則來找最優解,但是人類社會許多東西,規則都是不定的,怎麼能替代人呢,最後還的人類來抽象規則,然後告訴它,讓它替我們在規則內找最優解,這樣它還是我們的一個工具,等到什麼時候,它能自己發現規律,有自我覺悟時,再來顫抖吧


莫名恐懼,想到了《黑鏡》。

又想到自己會不會只是一個數據流,或者我們生活的世界只是一個遊戲,每個人都是NPC罷了。

其實小的時候做夢醒來,也會想到底夢是真的,還是現實是真的的,後來長大了發現早在幾千年前,莊周就思考過這個問題了。


那給出數學公理,會不會很快演化到超過我們當前的數學水平。


上帝無所不知無所不能,人類正在製造和培養上帝,上帝是人類製造的!!!


麻吉亞巴庫吶!

這是否意味著人工智慧具有自主創造知識的能力?

如果人工智慧可以學會編程是否意味著人工智慧將成為互聯網之神?


突然覺得,這樣下去,希望這幫牛逼的科學家不要出現反社會人格的人

PS:如果我只是一段代碼,請把我刪除吧,謝謝


阿法狗擊敗柯潔雖然毫無懸念,但我還是受到了震撼。

這次阿法元與阿法狗的對局,100-0,我作為人類的自信心受到了暴擊。

照這樣下去,未來應該是程序員的時代了,昌平那個小學足以證明這一點,更慘的是,我害怕未來應該是AI的世界了,人類的作用,給機器人打工?可能還被AI嫌棄。然後突然好羨慕那些演員模特,她們或許會成為唯一不失業的群體,如果機器人需要的話。。。。。。

對比阿法元和阿法狗的數據演算法模式,局部最優和全局最優,突然對我這個弱爆了的人類有了一些些啟示。

人類自身在規劃人生的時候,跳出局限,以全局最優的模式規劃,可能完爆。

看過《56up》《Why Poverty?》這些紀錄片後,更加印證了這個模式的正確性。

所謂富人思維與窮人思維的差異,其實就是「全局觀哲學」和「局部最優哲學」的差異。

最讓人悲痛的是,作為沒有滿足生理需求的人,很少能夠跨越需求完成全局觀的構建,那些白手起家的成功人士,大概在開始的時候就受到了全局觀的啟蒙。

如是。


感覺像哥倫布發現新大陸一樣震撼。新大航海時代的序幕拉的更開了!!


阿爾法狗之父揭秘:阿爾法狗再進化後 震驚整個金融圈https://news.baidu.com/news?fr=mohomessid=0from=844buid=pu=sz%401320_2001%2Cta%40iphone_1_11.0_3_604bd_page_type=1#/detail/1531551117666520563


個人認為如果有一天人工智慧被賦予生命特徵的時候,便是其真正誕生之日。當其誕生日起,人類社會會發生巨大改變。


未來就和國際象棋給CPU跑分一樣 圍棋也能用來評價智能系統 沒必要過度解讀


阿爾法元不再需要人類提供的先驗知識,卻戰勝了阿爾法狗,那是不是以後文獻綜述參考文獻什麼的都不需要了?


感覺不久的將來很多工作會被人工智慧取代,包括一部分創造型的工作


遲早有一天出現一個可以自主學習編寫人工智慧的程序。然後人類就成了一種觀賞性動物。


用博弈演算法產生數據,並實用數據進行增強學習。增強學習的增強版本,信息對稱博弈已經趨向於最優了吧。


給定規則然後在實戰中推演最優解,說是脫離大數據,可本質上不還是在歸納和總結棋譜么,不過是演算法更加優質了,我覺得這種"深度學習"還是依賴人類的預設機械地進行的。

基於這種學習模式或許可以推演出已知甚至未知的基礎科學定理,但對定理的應用推演才是AI質變的關鍵。

比如:

1.給出公理

2.AI推演出碳基生命不滿足適者生存

3.殺光所有人類

然而第三步是AI自己決定執行還是AI設計師決定執行才是最關鍵。

等什麼時候AI能自我創新,脫離人類預設之後,那才算是里程碑。


這是我的觀點。

我並沒有說新的事物就是人工智慧。

但是跟這個肯定有很大關係。

拭目以待。


推薦閱讀:

如何看待 AlphaGo Zero 超越 Master?
為何圍棋這麼好卻只在中日韓盛行?
圍棋的棋盤為什麼那麼大?
如何評價李昌鎬?
從圍棋專業角度來看,如何復盤李世石對弈 AlphaGo 的第一局,都有哪些關鍵之處?

TAG:人工智慧 | 圍棋 | 深度學習DeepLearning | AlphaGo |