精選報告 |多年後你會發現,這是我們踏入「母體」的第一步

場長點評:圍棋一直是低估人工智慧者的心理防火牆,這一次,牆塌了。

1月28日,Google DeepMind團隊在最新一期《Nature》上發表論文稱,其名為AlphaGo(阿爾法圍棋)的人工智慧系統,在沒有任何讓子的情況下以5比0完勝歐洲圍棋冠軍、職業圍棋二段樊麾。這條消息引起了各方的高度關注。

我們的確挺震驚的,打個拔高一點的比方,就像《三體》3里,維德給程心展示,用曲率驅動把一根頭髮吹動了,程心當時還很木然(就像現在很多人都還不以為然,不就贏了個職業二段了),但維德和他的小夥伴們非常興奮,曲率真的可以驅動啊!以後就可以驅動飛船實現光速飛行啊!(當然,從點科技樹的角度說,光速飛行比人工智慧更牛逼了)

為什麼我們給了這麼高的評價呢?有些人可能會不以為然,計算機不是很多年以前就戰勝國際象棋的世界冠軍了么?這不就是又搞定了一種棋么。我們先來大概的解釋一下。

圍棋和國際象棋有很大的不同,這導致了計算機的智能程度有很大的差別:

1. 國際象棋可以一定程度暴力遍歷,圍棋不行。

國際象棋就64格,最大只有2^155種局面,稱為香農數,大致是10^47。雖然沒法全部去遍歷(也沒必要),但實際只要把開局庫和殘局庫多輸一些進去,結合一些中盤的策略選擇和部分遍歷就很牛了。

但圍棋最大有3^361 種局面,大致的體量是10^170,而已經觀測到的宇宙中,原子的數量才10^80。(圍棋壓根沒有殘局庫這個概念,千古無同局)。所以圍棋的AI肯定沒法用遍歷的方法,只能讓它學人去思考。

2. 國際象棋目標是清晰的,圍棋是模糊的。

國際象棋的最終目標很清晰,就是吃掉對方的王,而過程中的階段性目標也很簡單,吃個車很好,吃個馬也不錯;但圍棋不是,圍棋不是以吃掉對方几個子,也不是圍了多大一個空。圍棋在對弈過程中,有厚薄、味道、形狀等各種概念,很難量化的判斷,而是很模糊的。

模糊判斷一直是人類相對計算機的優越感,要蠻算八位數的乘除法,人完全沒法和計算機比。但要判斷些模糊的指標,那計算機就一籌莫展了。

所以,1997年深藍就戰勝了國際象棋冠軍,但圍棋的AI的頂尖水平仍然很差,下個普通的業餘棋手也常下不過。

早在1986年,台灣應昌期老先生就懸賞了140萬美元,獎勵給能戰勝職業棋手的圍棋程序(那會的140萬啊,比這次谷歌開給AlphaGo和李世石比賽開出的100萬美元值錢多了)。可是直到2000年懸賞截止,圍棋程序的水平依然非常臭。

2015年11月,電腦程序世界冠軍「石子旋風」和中國著名棋手連笑下,一直被打到讓6子才贏了一盤,感覺離戰勝人類還很遙遠(其實那時候AlphaGo已經和樊麾下完5盤了,為了在Nature發論文當時尚未公開)。但這次AlphaGo橫空出世,展現出了巨大的飛躍進步。

具體的說,到底AlphaGo什麼樣的水平呢?眾說紛紜,有說它無懈可擊的,也有說樊麾放水的。耳聽為虛,作為一名曾經的低水平業餘愛好者,我下載了一個圍棋打譜軟體(很久很久沒打譜了,新買的電腦原本就沒裝這個),把那5盤棋各打了兩遍的譜。

我們看下來AlphaGo大致4個特點:

1. 招法很像人,而不是按部就班的。

這點很多人看了棋譜後都是這麼個感受。以前的AI下圍棋經常會神經質,下得好好的,突然某一步就下得很奇怪,一看就知道是電腦。但AlphaGo一直很有章法,無論是佔地、對殺、打入、侵消、棄子、收官,都有模有樣,如果不看說明,根本看不出哪一方是電腦。

這裡再補充一個細節,在看第二局時,我由於沒看說明,看開局真的以為AlphaGo是白棋。因為那局一開始就下了個大雪崩的定式(圍棋里一個比較複雜的定式),走下來感覺是黑棋吃虧了。

我當時以為肯定是電腦背了定式,而樊麾記不清楚了就被欺負了,結果居然是反的。做圍棋AI,最簡單直接的想法肯定是多背點開局的定式,但AlphaGo肯定沒有這麼做。谷歌團隊說沒有讓AlphaGo去學習很多圍棋知識,看了棋譜我相信是真的。

2. 局部作戰能力很強失誤不多

5盤棋下來,除了第一句是鋪地磚式的按部就班,後面4盤雖然都沒有大規模的對殺,但每盤都有些小範圍的戰鬥。從結果來看都是樊麾脆敗。每每樊麾下出一些無理手、隨手,馬上就被電腦抓住機會擴大戰果。

而電腦的失誤很少(我這水平能發現的很少,或者說被樊麾抓住機會的很少),除了少數像剛才說到的第2局大雪崩定式處理時有低級失誤(我感覺應該是27扳和31點下得不對)。

3. 喜歡實地,追求簡明

總的來說,AlphaGo比較喜歡實地,很少去取勢。5盤棋里,第2,、第4盤它是執黑的,但也就第4盤下了個三連星,取了點外勢,也不是太想圍空,下著下著就又去四處打入賺實地了。其他幾局就更明顯了。當然,這個也沒什麼不對。很多職業高手也都喜歡實地,甚至是酷愛實地。

AlphaGo還有個很重要的特點就是追求簡明。除了喜歡取實地外,其他時候也都經常會去主動定型,儘可能地讓局面明晰。這和高手的特點不太一樣,一般來說,高手都不喜歡定型,這樣留有味道,未來有多種可能性(尤其它接下來的對手李世石特別喜歡把局面複雜化,亂中取勝)。

AlphaGo這麼一定要定型,會失去一些機會,有時會有點緩。但這個也不算很大的弱點,估計這個和演算法有關,它把局面定型了才能判斷到底哪個局面更優。

4. 還會打劫

看有個採訪,問著名職業棋手李喆,如果是他,如何對付AlphaGo。他說覺得有兩個突破口,一個是布局,一個是打劫。布局我覺得的確是,5盤裡AlphaGo沒有表現出任何布局的才能來,但布局並不關鍵,當年李昌鎬布局也很平庸,照樣靠官子贏回來。

而對於打劫,很多認為AI無法戰勝人類的觀點,很重要的依據就是圍棋有個很複雜的事情就是經常會打劫,AI肯定會暈。但這次和樊麾對局的第5局是出現了打劫的。過程中AlphaGo找劫、應劫都有模有樣,來回了十幾手,最後是樊麾消劫形成轉換。過程中應對沒有問題。所以,我感覺打劫並不會成為AlphaGo的軟肋。

綜合來說,AlphaGo的實力已經很強了。專業人士有的評價是強業餘,有的評價是職業初段,或接近職業。

這個其實我覺得並不重要,重要的是,計算機已經在模仿人類一樣去思考,已經在模糊判斷決策方面做得比很多人好了——雖然樊麾的水平並不算高,這5盤棋里有很多低級失誤。

但說實話,90%的愛好者,下一輩子棋,也趕不上樊麾的水平(像我這樣的水平,仔細打譜擺棋能發現很多低級失誤,但真要自己去下失誤會更多)。AI不就是用來替代人工么?所以,AlphaGo能戰勝90%的人類,就已經足夠了。

馬上3月份,AlphaGo就要挑戰人類的世界圍棋冠軍李世石了。網上預測誰勝誰負爭得不可開交。但其實我覺得結果已經不重要(作為一名曾經的圍棋愛好者,我真心的希望李世石能贏,那麼多年從來沒盼過李世石贏啊,第一次盼他啊)。這個比賽的勝負,營銷的意義更大。對於一個AI演算法來說,已經實現了里程碑式的進步了。

回到開頭舉的《三體》3的例子,曲率已經能驅動一根頭髮了,接下來什麼時候能驅動一本書,一張桌子,並沒有那麼重要。

那麼AlphaGo到底有什麼高深的演算法,讓它的水平出現了質的飛躍?接下來我們解讀一下自己花200元買的谷歌那篇發在Nature的論文,說說我們的理解。以下部分稍微有點生澀,不喜歡研究演算法的朋友可以跳過。

從演算法原理來講,在象棋、圍棋這類大型博弈遊戲中,存在著b^d個可能行動序列,其中b和d分別是某一狀態s下的博弈寬度和深度。從寬度來看,圍棋每一狀態的可選步法要遠大於象棋。

從深度來看,象棋的勝負點是清晰的,於是可以從某一狀態截取子集,深度可以縮減。但對於情況更加複雜,難以判斷勝負點的圍棋來講,這一位置選擇的方法就行不通了。

此前最為先進的圍棋程序都採用蒙特卡洛樹搜索演算法(MCTS),該演算法使用蒙特卡洛演算法的模擬結果來估算一個搜索樹中每一個狀態的值,隨著模擬次數增加,相關的值也會變得越來越精確。通過選擇值更高的子樹,選擇策略也會不斷進化。以下是GoogleDeepMind的示意圖,上圖為計算機眼中的國際象棋落子思路,下圖為圍棋落子思路。

在此次對戰中,AlphaGo所需要考慮的位置更少了,因此計算次數甚至遠少於1997年的深藍(數千倍),可以說AlphaGo的「思考」方式更接近人類。這是深度學習、蒙特卡洛等多種演算法結合創新所帶來的,從「計算」到「智能」的超越。

具體來講,AlphaGo採用了深度神經網路和樹搜索的結合方案。

1)採用類似深度卷積網路(使用多層神經元,安排在交疊的區塊中來構建抽象和本地化的圖片)的架構,用19*19的圖像來表現棋盤,使用卷積層來構建位置表示,從而減少搜索樹的有效深度和寬度。

2)使用ValueNetworks(價值網路)來評估位置,使用PolicyNetwork(策略網路)來選擇步法。如下圖。

3)在訓練過程中,首先使用人類棋手的棋譜來訓練可監督學習策略網路pσ,以及快速決策網路pπ;之後訓練強化學習策略網路RLpρ,通過自我對抗模擬(即自己和自己下棋,左右互搏)來改善pσ,將策略調整至贏棋而非預測準確率最大化;最後訓練價值網路vθ,用來預測pρ所得到的策略中哪種是最佳策略。

因此,在AlphaGo中,蒙特卡洛樹搜索演算法結合了經過訓練的策略網路和價值網路,具備了不斷學習、智能判斷的能力,是一種演算法的創新應用。當然,這一切的基礎仍然存在於蒙特卡洛樹演算法、神經網路等現有技術的基礎之上,AlphaGo的能力一部分是建立在無數人類專家的棋譜之上的,但它也通過自己和自己對弈的左右互博來提高了自己,它自己和自己下了2000萬局了。

看完整個演算法,可能有些人會覺得這個演算法沒什麼啊。不就是機器學習么?可能有些演算法的優化,相比過去並沒有很大的創新啊?

是的,我個人覺得。谷歌這篇論文,如果不是因為列了一下贏了歐洲冠軍5盤的實驗成果,別說作為Nature的封面論文了,發在Nature上都有困難,或者說作為一篇SCI也是有點水的那種。(當然,不排除谷歌隱藏了一些技術細節上的獨門秘笈,但至少在論文里看不出)。

那麼大家就會想, 既然谷歌在演算法上並無大的創新,為何在戰績上全面碾壓了現有程序?

按論文介紹,AlphaGo對陣幾個全球頂尖的圍棋程序,Crazy Stone,Zen和Pachi,勝率分別達到77%、86%和99%。

從採訪Facebook智能圍棋Darkforest負責人田淵棟博士的來看,他分析,和Facebook團隊比起來,主要是因為谷歌起步早,投入大,專家人數也比他們多得多,像一作David Silver和二作Aja Huang都長期從事計算機圍棋的研究工作。而在谷歌和Facebook之前,尚無頂尖的IT公司從事這方面的研究。

多說一句,往後,Facebook也是圍棋AI領域的有力競爭者。就在谷歌在Nature發論文那天,Facebook的CEO馬克·扎克伯格就在其Facebook主頁發帖,正在緊鑼密鼓地研究圍棋AI。

小扎在主頁上還寫到,智能圍棋項目負責人田淵棟博士,辦公桌就在他桌子邊上20英尺(小札難道還沒有獨立辦公室么),他喜歡讓AI團隊離他近一點。小札對這個項目的重視可見一斑。(從行文看,小札當時應該還沒看到Nature那篇論文,看到之後估計會更著急)

如果懂一些技術和演算法的朋友,再延伸一點想,還會有個疑問。神經網路是80年代就已經提出來的演算法,當時曾經風靡一時,但後來衰敗得都快被遺棄了。

到2006年時,Hinton等人舊瓶裝新酒,提出了個深度學習的概念,這個領域又重新熱起來了,各種研究成果不斷湧現。那麼,現在的深度學習,和80年代的神經網路比,有什麼本質區別嗎?不就是個多層神經網路么?

我們大概了解梳理了下情況,當年神經網路衰敗,很重要的原因是訓練時間長,學習緩慢,效率低下,完全無法商用。而06年的深度學習,一個很重要的原因是計算機性能的大幅提高;當然,演算法機制方面也有很大的改進。

深度學習和普通的多層人工神經網路的區別在於,前者讓網路每一層都進行無監督學習,讓網路每一層都自己提煉特徵。

很多模糊信息的抽象歸納,人類都還做不到,所以沒法直接給神經網路直接明晰的輸入輸出,但計算機通過無監督學習來提煉特徵可以進行抽象。(80年代的人可能也有過這種想法,但當時的硬體條件實現不了,所以沒被重視)。

用本文開頭那個例子來說,這次AlphaGo擊敗了樊麾,就像是曲率驅動了那根頭髮;那麼Hinton等人提出深度學習,就像是AA和程心從雲天明的童話里悟出了曲率驅動。

最後一個問題,這麼牛逼的人工智慧技術,能用來幹嘛呢?

谷歌說到底是個商業機構,雖然那些研究院的KPI是發多少Nature,Science,但董事會看的還是最終有多少商業產出。

簡單的說,以前的計算機只能用來做精確的計算,但現在能夠對模糊判斷做出最佳決策的話,計算機基本能做各種人能做的事情了。相比人類來說,計算機唯一不具備的是情感,但於工作而言,沒有情感不是壞事啊。(有人會說計算機也沒有創造力,但其實不然,基於蒙特卡洛演算法和無監督學習,計算機也能進行創造,創造力有可能更強,只是它自己不知道自己是在做創造)

以下我們來腦洞大開一下。在大開之前,我們先界定一個概念。無危害人工智慧。

雖然計算機的智能程度接下來可能會變得很高,但畢竟有各種可能導致計算機出現失誤,或是未能理解人類的實際情況。比較好的應用場景是,即使計算機有失誤,也不會有太大的負面影響。所以,可以讓計算機去幫著偵查尋找線索,但不能讓計算機去法庭審判。

所以,現有的比較熱門的應用領域裡,也都是儘可能的先推進無危害人工智慧。比如谷歌不亦樂乎的無人駕駛,也會是很久以後的事情,最先啟動的是智能輔助駕駛;比如人臉識別,央行出台的文件也是將其作為輔助身份識別手段,而非充分的識別手段;比如自然語言處理,可以用服務機器人來一定程度替代客服,但不能用來寫論文或是商業策劃。

當然,這些應用還是太傳統,我們來進一步的腦洞大開一下:

產品設計/配方研發。最基本的,比如設計個工業產品的外形,設計個服裝、首飾的款式。計算機在經過大量樣本訓練培養了良好的審美觀後,就可以設計出優雅、時尚的造型款式。進一步的,比如設計飲料、食物、香水、煙草、化學品的配方,計算機都有可能獨闢蹊徑。人類到現在也沒弄明白中醫的陰陽五行是啥原理,也很難在古人的基礎上改進配方,但也許未來計算機可以。

情景預測/危機預警。諸如天氣預報、交通狀況等都可以預測,也包括危機預警,無論機器設備、車輛、人體健康狀況、恐怖分子活動等,出現問題之前都會有各種徵兆,計算機系統都可能提前預警。當然,所有深度學習的最大問題是足夠多的數據樣本,而這類預測預警的有效數據收集會相對麻煩一點。

大數據分析。大數據是現在已經被用爛的一個詞。很多所謂大數據的邏輯都是非常簡單直接的,無非是你買一次奶粉就給你推薦紙尿片。或者逼格高一點是用戶畫像,也是人工設了一些簡單的邏輯規則,比如用iphone的收入高;家庭住址是內環小區的收入高;經常上京東的為男,經常上聚美優品的為女等等。(這裡不是說用戶畫像不對,而是現階段很多所謂的用戶畫像還太簡陋)。

但我相信,一個能夠在圍棋里計算上百種變化,識破職業棋手各種欺著與騙招的程序,可以把數據分析做得更加智能,能從蛛絲馬跡里判斷出網路騙子,能把各種數據融會貫通,分析出也許上京東的是公司女秘書,上聚美優品的其實是熱戀中的男孩。

寫作與創作。現在有些軟體也能寫個小詩啊啥的,(雖然詩風都很飄忽。但隨著深度學習能力的樣本擴大,自然語言處理能力的提高,未來計算機寫點應用文(諸如通知、海報、紀要、總結、請帖、條據等等)應該都沒問題,創作出一些格調優美的散文、歌曲也不排除。人類的文學家也許只能靠寫科幻、玄幻類小說了。

戰爭。這個不多說了……

金融。量化交易在國外已經相當盛行,但也未能完全替代基金經理和研究員,但不排除未來有一天。所謂看圖富三代,計算機的看圖能力肯定要遠強於人。人類投資交易最大的敵人是貪婪和恐懼,計算機都不會。個股可能還有些基本面需要人來調研分析,大勢的研判就真的可能不需要了。

過去的計算機,把我們從繁複枯燥的計算里解放出來;可以投入到更有創造性、更需要模糊判斷的領域;而人工智慧未來真的成熟後,我們還能幹嘛呢……

近年來,比爾蓋茨、霍金、馬斯克等人都極力反對人工智慧。我一直對此不以為然,感覺這三人主業都不是搞這個的,非要手伸這麼長對別的領域指手畫腳,要麼是杞人憂天,要麼是嘩眾取寵。

事實上他們也得到了很多負面的反饋,美國智囊團把他們三個提名為「勒德分子獎」(反對科技進步的負面獎)。但現在想來,也有一種可能,是他們知道的比我們更多,或是想的要更多……

來源:興業計算機團隊 作者:袁煜明 馬斯劼

推薦閱讀:

我們該如何看待婚前守貞?
當我們同在一起
我們一生有兩次暴富機會,錯過了第一次,千萬別再錯過眼下第二次!
我們夢寐以求的到底是什麼
關於生命意義的是個--我們都很好的活著

TAG:發現 | 報告 | 我們 |