標籤:

人機大戰勝負已定 AI潛力不可估量

  

【財新網】(記者 張嫣 崔箏)「抱歉,我沒能達到人們的預期。」2016年3月12日,在與看不見的對手AlphaGo在棋盤上廝殺四個多小時、第三次落敗之後,疲倦的李世石九段對媒體表示。

  在3月9日、10日兩局圍棋比賽中,李世石均敗給了谷歌旗下公司DeepMind研發的人工智慧圍棋程序AlphaGo。五局三勝制下,AlphaGo勝局已定,並將領走賽前約定的100萬美元獎金。

  這意味著,這場舉世矚目的人工智慧挑戰人類的圍棋之戰,人工智慧已經取得了無可爭議的勝利。

  五局三勝

  僅僅幾天時間,輿論對於AlphaGo的態度發生了幾乎反轉的變化。在人機大戰之前的種種預測中,多數人認為李世石勝算更大,亦有人工智慧的擁躉認為AlphaGo贏得其中一場即為可嘉的成就。

  第一場比賽中李世石投子認輸,輿論嘩然。人們開始意識到AlphaGo的強大,到3月10日,AlphaGo再勝一局,許多評論開始認為,李世石或許會繼續輸下去。

  李世石在第二局賽後對媒體表示,自己對第一場比賽感到驚訝,而第二場比賽落敗時已無話可說。「從比賽的一開始,沒有任何時刻讓我覺得佔優勢。」

  在總結李世石在前兩局比賽中的表現時,職業圍棋六段棋手李喆表示,李世石面對AlphaGo並沒有絲毫輕視,他做了非常充分的準備,拋開人類的偏見和自負,試圖理解AlphaGo運算的機理,並找出其中可能存在的弱點。在比賽伊始,他就對AlphaGo可能存在的弱點進行了直指要害的攻擊,並且在失敗後迅速調整,繼而展開了第二次、第三次針對性攻擊。

  李喆認為,正是李世石的策略針對性,使人們更好地理解了AlphaGo的強度和特點,以及不同於人類的決策模式。他在第二局中就已經找到了足以在中盤接近甚至抗衡AlphaGo的布局策略,使人類第一次見識到AlphaGo夢幻般的後半盤。」

  李世石連敗兩局,亦一些聲音認為他並未全力應戰,例如,幾場比賽中,他都沒有打「劫」這一招數。但隨著第三場棋局臨結束時,雙方出現的「劫爭」,這些傳言不攻自破。

  第三局比賽中,李世石執黑子先行,阿爾法執白子。比賽從棋盤左上角的廝殺揭開序幕,李世石不敢輕敵,對每一步都斟酌再三。1小時30分鐘時,李世石就已經用掉了一個小時來思考下子,而AlphaGo只使用了30分鐘不到。

  香港科技大學計算機系主任楊強對AlphaGo的第三場勝利一點也不意外,甚至認為,會再出現5:0的絕對勝出。

  「李世石很失望地沒有找到機器的弱點,因此人類和機器在這三盤中都沒有表現出進步。」楊強告訴財新記者,機器會繼續保持穩定的演算法,而人類卻還要面臨累積的心理壓力,進而影響突破和發揮。

  現年33歲的韓國職業九段棋手李世石曾多次獲得世界冠軍,以進攻性的棋風著稱,並善於從對手的呼吸和「能量」來尋找弱點並進行突破。但面對沒有心跳沒有呼吸的AlphaGo時,李世石顯然仍未找到這位新對手的弱點。

  李世石並非第一個輸給AlphaGo的職業棋手。早在去年10月,AlphaGo就以5:0的勝績擊敗了歐洲圍棋冠軍、職業二段樊麾。DeepMind賽前表示,在與李世石的對弈中,AlphaGo使用的是與去年同樣的演算法。

  誰製造了AlphaGo

  程序員們利用計算機去破解棋盤遊戲已有悠久歷史,從上世紀末起,計算機已經陸續在西洋雙陸棋、黑白棋、國際象棋等領域戰勝人類職業棋手。然而,變化無窮的圍棋一直被視為一種更依靠直覺的遊戲,人們原本預計,人工智慧在完整的圍棋比賽中戰勝專業選手將在十年後出現。

  2016年1月28日,《自然》雜誌發表論文,並以封面故事展示了由谷歌旗下人工智慧公司DeepMind研發的計算機圍棋程序「AlphaGo」,這項程序當時已經在一項競賽中以5比0的成績戰勝了歐洲圍棋冠軍樊麾。

  從上世紀90年代中期戰勝全世界跳棋頂尖高手的Chinook程序,到戰勝國際象棋大師卡斯帕羅夫的深藍,通過一代代的更新發展,在這類以智力博弈著稱的遊戲中,人工智慧刷新記錄,打敗人類,創下紀錄。

  然而,一直以來,圍棋卻是個例外。在這次AlphaGo取得突破性勝利之前,計算機圍棋程序雖屢次向人類高手發出挑戰,但其博弈水平遠遠低於人類。與計算國際象棋相比,計算圍棋要複雜得多。圍棋最大有3^361 種局面,大致的體量是10^170。而國際象棋最大只有2^155種局面,體量大致是10^47。圍棋一盤大約要下150步,每一步有250種可選的下法,那麼一盤圍棋需要計算250^150種情況,大致是10^360。這是一個過於龐大的數字,傳統蠻力搜索在圍棋這裡並不可行。

  因此,AlphaGo的設計更值得稱道。開發者大衛·斯爾弗(David Silver), 黃世傑(Aja Huang) 和 戴密斯·哈薩比斯(Demis Hassabis)運用深層卷積神經網路來縮小傳統蒙特卡洛樹搜索的廣度和深度,以挑選最佳招數。「Alpha Go」的核心也正是兩種不同的深層神經網路:策略網路(policy network)和價值網路(value network)。利用「價值網路」去計算局面,根據局勢對路線進行取捨;用「策略網路」選擇下子,減少不必要的棋步,在配合中選出有希望的好棋步,拋棄明顯差棋,從而將計算量控制在計算機可以完成的範圍內。

  此外,開發者們還用兩種方式同步訓練AlphaGo,一是用許多專業棋局進行訓練的監督式學習(supervised learning),然後讓「Alpha Go」和自己對弈,這種方法稱為強化式學習(reinforcement learning)。在這種不斷的學習,反思和練習下,在同其他圍棋程序進行的總計495局的較量中取得只輸一局的輝煌戰績。

  AlphaGo的創作者之一哈薩比斯早在十六七歲時,就已憑藉《主題公園》、《黑與白》等人工智慧遊戲開發者的身份而聲名鵲起,並成立了自己的遊戲工作室。而後他卻選擇從遊戲業退出,回到學校進修神經科學。

  2011年,哈薩比斯在特斯拉CEO埃隆·馬斯克(Elon Musk)等人的投資下,成立了一家人工智慧初創公司DeepMind,將機器學習和系統神經學的最先進技術結合起來,建立強大的通用學習演算法。三年後,DeepMind以4億英鎊的價格被谷歌收購。

  哈薩比斯事後對《衛報》透露,他和谷歌的接洽始於馬斯克的私人飛機,而在與谷歌洽談收購之際,Facebook也對DeepMind表示了興趣。在兩大科技公司的爭奪戰中,DeepMind也抬高了身價。

  目前,DeepMind總部位於倫敦,有約140名成員,其中包括業內最頂級的數位人工智慧專家。

  AI前景:無孔不入

  從打敗樊麾到打敗李世石,AlphaGo的成名速度,超過了任何一個人類棋手。

  「AlphaGo的勝利,具有非常大的意義,尤其是科普和帶動AI領域的研究。」上海紐約大學計算機科學教授、前微軟亞洲研究院副院長張崢告訴財新記者。AI,即為人工智慧(Artificial Intelligence)的英文縮寫,在全球關注人機圍棋大戰的這幾天,AI也成為輿論熱議的焦點。

  張崢表示,理論上,任何一個變化空間封閉而不是開放的問題,無論解空間有多大,都可以被類似AlphaGo的人工智慧演算法解決。但他同時指出,實際問題中,變化空間封閉的問題並不是那麼多的。所以AI還是有很多研究要做。

  AlphaGo的強化學習的機制是其成功的關鍵,楊強表示,這種強化學習在未來可以讓機器實現像生物一樣的自我學習能力。楊強介紹,他的團隊正在電子商務領域引入類似的演算法,提高電子商務對用戶興趣預測的準確程度,類似的預測,如相關商品推薦,在目前的一些應用中存在延遲,而引入策略網路和價值網路讓演算法實現強化學習後,這些推薦會更為即時精準。

  同樣致力於將AI應用於人臉識別的Face++研發負責人曹志敏也對財新記者表示,在AI研究領域,深度學習和強化學習正受到越來越多的關注,複雜的雙人或多人博弈遊戲,語音識別和語義理解、自動理解視頻語義內容等都是被探索的方向。

  「我認為我們成功地用AlphaGo給神經網路引入了「直覺」——如果你想這麼叫的話,而正是這些直覺讓某些人成為頂尖棋手。」哈薩比斯曾在AlphaGo首局戰勝李世石之後對美國科技媒體The Verge表示,而這種直覺的引入或將為未來造出能夠自己從環境中學習的機器——如能夠適應每座不同房屋、廚房的清掃機器人——打下鋪墊。

  「DeepMind的目的不只是打遊戲,儘管那非常有趣而且令人興奮。最終,我們希望能應用到現實世界中的重大問題。」哈薩比斯說。

  究竟哪些問題將被解決,哪些行業將被顛覆?張崢表示,人工智慧將「無孔不入,只有早晚的區別。」


推薦閱讀:

老年旅遊市場潛力大難處多扶持少
要想獲得財富,必須壓榨自己最好一點潛力
有這種手相的男人,一定是賺大錢的潛力股
如何證明自己嫁了個潛力股?

TAG:潛力 |