AlphaGo打開新世界
早在2016年1月28日,《自然》雜誌發表論文,並以封面故事展示了由谷歌旗下人工智慧公司DeepMind研發的計算機圍棋程序「AlphaGo」,這項程序在此前一項競賽中以5比0的成績戰勝了歐洲圍棋冠軍樊麾,2016年3月又以4比1的成績戰勝了世界圍棋冠軍李世石。這是有史以來第一次,計算機程序在不讓子的情況下,在圍棋遊戲中擊敗人類專業高手,而這原本被認為是人工智慧在10年後才能達到的成就。
「AlphaGo以無數的棋譜數據為基礎『深度學習』,不斷完善,又通過自我模擬對局提高實力。此外,我們有針對性地進行了很多測試。所以短短几個月AlphaGO的棋力就能得到顯著的提高。」DeepMind公司的CEO兼谷歌副總裁戴密斯·哈薩比斯(Demis Hassabis)在接受採訪時表示。
人工智慧最難破解的遊戲
20多年來,人工智慧在大眾棋類領域同人類的較量一直存在。從上世紀90年代中期戰勝全世界跳棋頂尖高手的「Chinook」程序,到戰勝國際象棋大師卡斯帕羅夫的「深藍」,通過一代代的更新發展,在這類以智力博弈著稱的遊戲中,人工智慧打敗人類,創下紀錄。
然而,一直以來,圍棋卻是個例外。在這次AlphaGo取得突破性勝利之前,計算機圍棋程序雖屢次向人類高手發出挑戰,但其博弈水平遠遠低於人類。在同職業高段位頂尖棋手的較量中往往只能在「讓子」的情況下才能打個平手或是略勝一籌。2013年日本電腦圍棋「Crazy Stone」讓四子打敗了圍棋九段高手石田芳夫,2015年11月韓國專家林宰范研發的「DolBaram」程序在讓四子的情況下擊敗了前超一流棋手趙治勳九段。
出現這種情況的原因就在於圍棋特別複雜。國際象棋平均一回合有35種可能的下法,圍棋卻高達250種可能。而且每個走法之後還有另外250種走法。以此類推。這意味著,即使最大的超級計算機也難以預測出每個可能下法的結果。因為圍棋招法的變化太多了。正如戴密斯·哈薩比斯說的,「可能的位置比宇宙原子數量還要多。為了破解圍棋,你需要一種不光會計算的人工智慧。它需要多少模仿人類, 甚至是人類直覺。你需要會學習的東西。」
AlphaGo如何用「大腦」下棋
在此前一次次累積的失敗經驗過後,谷歌研究者開發出了這款名為「AlphaGo」的人工智慧程序,祭出了終極殺器——「深度學習」(Deep Learning)。Deepmind 公司在《自然》雜誌發表的論文中介紹了 AlphaGo 程序的細節。AlphaGo的核心是兩種不同的深度神經網路:「策略網路」(policy network)和 「值網路」(value network)。它們的任務在於合作「挑選」出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的範圍里,本質上和人類棋手所做的一樣。
其中,「值網路」負責減少搜索的深度,其作用是在當前局面下判斷下一步可以在哪裡走子。它有兩種學習模式。一個是簡單模式,它通過觀察 KGS(一個圍棋對弈伺服器)上的對局數據來訓練。粗略地說,這可以理解為讓大腦學習「定式」,也就是在一個給定的局面下人類一般會怎麼走,這種學習不涉及對優劣的判斷。另一個是自我強化學習模式,它通過自己和自己的海量對局來學習評價每一步走子的優劣。研究者們用許多專業棋局訓練人工智慧,其中監督學習(supervised learning)讓人工智慧和自己對弈,而強化學習(reinforcement learning)讓每次對弈都使AlphaGo 棋力精進。
另一個大腦「策略網路」負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。將這些信息放入一個概率函數,人工智慧就不用給每一步以同樣的重視程度,而可以重點分析那些有價值的棋著。
AlphaGo通過這兩個不同神經網路「大腦」合作來改進下棋。這些大腦多層神經網路跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網路處理圖片一樣。經過過濾,13 個完全連接的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
讓人工智慧具有「戰略思維」的一步
神經網路和機器學習在過去十年里躍進式的發展,確實讓人工智慧做到了許多之前只有人腦才能做到的事。但許多專家認為這並不意味著人工智慧的思維方式與人類相當。《與機器人共舞》作者、《紐約時報》資深科技記者馬爾科夫就認為,在圍棋的高手對決中,時常會有超出前人的神來之筆,人類的優勢就是比AlphaGo更好地應對這些招式。而人類的劣勢則在於我們會疲倦,會有心理情緒的波動,AlphaGo卻永遠不會有這樣的困擾。
同時有專家也指出,這兩個大腦的工作方式確實和人類很相似,一個判斷細部,一個縱覽全局。但 AlphaGo 最終將兩者結合的方式比較簡單粗暴:讓兩者各自評估一下每種可能的優劣,然後取一個平均數。這並不是人類的思維方式。
對人類來說,這兩種思考問題方式的結合要複雜得多。人們並不總是同時對事態做出宏觀和微觀的判斷,而是有時候側重於大局,有時候側重於細部。具體的精力分配取決於事態本身,也取決於人在當時的情緒、心理和潛意識的應激反應。這當然是人類不完美之處,但也是人類行為豐富性的源泉。
哈薩比斯在被問及AlphaGo能否感知「氣勢」、「外勢」、「厚味」等圍棋特有的要素時也承認:「這是無法用數理分析的部分,所以很難用演算法體現。是屬於計算機無法感知的人類獨有的領域。」
AlphaGo引入整體盤面評估確實是它勝於許多別的圍棋人工智慧的地方,但從根本上來說,這只是人們讓人工智慧具有「戰略思維」嘗試的第一步,還有太多可以改進的可能性。
不止遊戲那麼簡單
2014年年初,谷歌以4億美元的價格收購了這家創造出AlphaGo「神機」的深度學習演算法公司—DeepMind,公司創始人哈薩比斯是一位橫跨遊戲開發、神經科學和人工智慧等多領域的天才人物。7月,谷歌以DeepMind為主體與牛津大學的兩支人工智慧研究隊伍建立了合作關係。
DeepMind也很快發布了研究成果,它在10月份公布了一種新的模擬神經網路,旨在模仿人類大腦的工作記憶原理,擁有更加強大的歸納整理和聯想演繹等邏輯處理能力,從而帶來更快的任務處理速度,還可以通過訓練去自行處理任務,這種全新的深度學習演算法可用於計算機視覺和語音識別等領域。
正如深度學習創業公司Skymind的CEO兼創始人Chris Nicholson指出,圍棋證實這類人工智慧幾乎能用於解決任何可被視為某種遊戲的難題。
這就是谷歌要解決圍棋這個難題的原因。如果他們能夠解決如此複雜的問題,那麼,他們也能將研究所得作為跳板,邁向處理更實際現實生活問題的人工智慧。哈薩比斯說:「這些技術和機器人學是天作之合。它們能讓機器人更好地了解環境並對環境中不可預測的變化做出響應。」他相信,這些技術能增進科學研究,提供可以為研究人員指明下一個重大突破的人工智慧助手。
巨頭間的爭奪
對於AlphaGo與李世石的「人機大戰」,其實科技界的大佬更關心的是目前人工智慧對現有業務能力或競爭力的提升和科技企業轉型之需。
2015年,谷歌推出了一種名為「RankBrain」人工智慧的系統來處理複雜或罕見的搜索查詢,而谷歌利用所謂的「深度學習」人工智慧技術構建了「RankBrain」人工智慧系統,向其輸入了此前的問答信息,使其能向用戶做出最好的應答。
Facebook應用人工智慧就是為了在這個信息超載的時代保證人們的關係不會變成三分鐘熱度。Facebook的人工智慧將會為自家演算法提供協助,以便提供更多用戶感興趣的內容。2015年,Facebook推出了聊天應用助理「M」,希望能用一個界面替換多數的網路搜索和應用。
作為硬體廠商的蘋果公司,其未來業務還將以移動設備為核心,但僅僅依靠現有的交互方式將難以持續發展。2015年10月,蘋果公司收購了創業公司VocalIQ。VocalIQ是一家英國公司,該公司的技術可以理解自然語言,用戶能以休閑會話的方式與設備進行交互,而不是一般設備所理解的冷冰冰的提示性語言。蘋果通過該公司的技術來強化Siri功能。
對於傳統IT大佬微軟,其推出的「微軟小娜」與「微軟小冰」便是人工智慧在當下的兩種不同表現形態。兩個產品都是來自於微軟的人工智慧,前者讓Windows Phone變得更加易用與人性化,而後者則活躍在社交平台上,成為和用戶溝通的人工智慧機器人夥伴。比起其他初級的語音智能搜索,「小娜」更像一個智能的私人語音助理。需要說明的是,微軟為「小娜」進行了長時間的籌備,在整個研發過程中,微軟在締造「小娜」私人語音助理的時候真正把她當作「人」來研發。即自然語言理解讓「小娜」能夠聽懂我們所說的話,而機器學習能夠讓「小娜」像一個真的私人助理一樣,更加了解它的主人。藉由微軟「必應」提供的大數據支持,「小娜」能夠變得更加聰明。
另外一家傳統IT大佬IBM於2014年正式對外宣布旗下的Watson系統投入使用,而Watson背後的核心技術支撐正是認知計算,涵蓋了如排序學習、邏輯推理、遞歸神經網路等來自5個不同領域的技術,包括大數據與分析、人工智慧、認知體驗、認知知識、計算基礎架構。
對於這次「人機大戰」我們看到的不僅是人工智慧的飛速發展,更是對於各大科技巨頭現有業務競爭力提升或轉型的務實,從這個意義看,這些巨頭在「大戰」背後的「動作」更值得我們關注和研究。
來源:《機器人產業》雜誌
推薦閱讀:
※比人類更靠譜 DeepMind的AI會玩多人遊戲雷神之錘3了
※如何以武俠小說的手法描寫AlphaGo(Master)與職業棋手在2017年年初的六十盤對局?
※如何看待AlphaGo Zero?AI會取代人類嗎?
※★ALphaGO發明者是誰?AlphaGo是怎樣模擬人類「思考」的