人機大戰勝負已定 AI潛力不可估量

07-01

【財新網】（記者張嫣崔箏）「抱歉，我沒能達到人們的預期。」2016年3月12日，在與看不見的對手AlphaGo在棋盤上廝殺四個多小時、第三次落敗之後，疲倦的李世石九段對媒體表示。

　　在3月9日、10日兩局圍棋比賽中，李世石均敗給了谷歌旗下公司DeepMind研發的人工智慧圍棋程序AlphaGo。五局三勝制下，AlphaGo勝局已定，並將領走賽前約定的100萬美元獎金。

　　這意味著，這場舉世矚目的人工智慧挑戰人類的圍棋之戰，人工智慧已經取得了無可爭議的勝利。

　　五局三勝

　　僅僅幾天時間，輿論對於AlphaGo的態度發生了幾乎反轉的變化。在人機大戰之前的種種預測中，多數人認為李世石勝算更大，亦有人工智慧的擁躉認為AlphaGo贏得其中一場即為可嘉的成就。

　　第一場比賽中李世石投子認輸，輿論嘩然。人們開始意識到AlphaGo的強大，到3月10日，AlphaGo再勝一局，許多評論開始認為，李世石或許會繼續輸下去。

　　李世石在第二局賽後對媒體表示，自己對第一場比賽感到驚訝，而第二場比賽落敗時已無話可說。「從比賽的一開始，沒有任何時刻讓我覺得佔優勢。」

　　在總結李世石在前兩局比賽中的表現時，職業圍棋六段棋手李喆表示，李世石面對AlphaGo並沒有絲毫輕視，他做了非常充分的準備，拋開人類的偏見和自負，試圖理解AlphaGo運算的機理，並找出其中可能存在的弱點。在比賽伊始，他就對AlphaGo可能存在的弱點進行了直指要害的攻擊，並且在失敗後迅速調整，繼而展開了第二次、第三次針對性攻擊。

　　李喆認為，正是李世石的策略針對性，使人們更好地理解了AlphaGo的強度和特點，以及不同於人類的決策模式。他在第二局中就已經找到了足以在中盤接近甚至抗衡AlphaGo的布局策略，使人類第一次見識到AlphaGo夢幻般的後半盤。」

　　李世石連敗兩局，亦一些聲音認為他並未全力應戰，例如，幾場比賽中，他都沒有打「劫」這一招數。但隨著第三場棋局臨結束時，雙方出現的「劫爭」，這些傳言不攻自破。

　　第三局比賽中，李世石執黑子先行，阿爾法執白子。比賽從棋盤左上角的廝殺揭開序幕，李世石不敢輕敵，對每一步都斟酌再三。1小時30分鐘時，李世石就已經用掉了一個小時來思考下子，而AlphaGo只使用了30分鐘不到。

　　香港科技大學計算機系主任楊強對AlphaGo的第三場勝利一點也不意外，甚至認為，會再出現5：0的絕對勝出。

　　「李世石很失望地沒有找到機器的弱點，因此人類和機器在這三盤中都沒有表現出進步。」楊強告訴財新記者，機器會繼續保持穩定的演算法，而人類卻還要面臨累積的心理壓力，進而影響突破和發揮。

　　現年33歲的韓國職業九段棋手李世石曾多次獲得世界冠軍，以進攻性的棋風著稱，並善於從對手的呼吸和「能量」來尋找弱點並進行突破。但面對沒有心跳沒有呼吸的AlphaGo時，李世石顯然仍未找到這位新對手的弱點。

　　李世石並非第一個輸給AlphaGo的職業棋手。早在去年10月，AlphaGo就以5：0的勝績擊敗了歐洲圍棋冠軍、職業二段樊麾。DeepMind賽前表示，在與李世石的對弈中，AlphaGo使用的是與去年同樣的演算法。

　　誰製造了AlphaGo

　　程序員們利用計算機去破解棋盤遊戲已有悠久歷史，從上世紀末起，計算機已經陸續在西洋雙陸棋、黑白棋、國際象棋等領域戰勝人類職業棋手。然而，變化無窮的圍棋一直被視為一種更依靠直覺的遊戲，人們原本預計，人工智慧在完整的圍棋比賽中戰勝專業選手將在十年後出現。

　　2016年1月28日，《自然》雜誌發表論文，並以封面故事展示了由谷歌旗下人工智慧公司DeepMind研發的計算機圍棋程序「AlphaGo」，這項程序當時已經在一項競賽中以5比0的成績戰勝了歐洲圍棋冠軍樊麾。

　　從上世紀90年代中期戰勝全世界跳棋頂尖高手的Chinook程序，到戰勝國際象棋大師卡斯帕羅夫的深藍，通過一代代的更新發展，在這類以智力博弈著稱的遊戲中，人工智慧刷新記錄，打敗人類，創下紀錄。

　　然而，一直以來，圍棋卻是個例外。在這次AlphaGo取得突破性勝利之前，計算機圍棋程序雖屢次向人類高手發出挑戰，但其博弈水平遠遠低於人類。與計算國際象棋相比，計算圍棋要複雜得多。圍棋最大有3^361 種局面，大致的體量是10^170。而國際象棋最大只有2^155種局面，體量大致是10^47。圍棋一盤大約要下150步，每一步有250種可選的下法，那麼一盤圍棋需要計算250^150種情況，大致是10^360。這是一個過於龐大的數字，傳統蠻力搜索在圍棋這裡並不可行。

　　因此，AlphaGo的設計更值得稱道。開發者大衛·斯爾弗（David Silver），黃世傑（Aja Huang）和戴密斯·哈薩比斯（Demis Hassabis）運用深層卷積神經網路來縮小傳統蒙特卡洛樹搜索的廣度和深度，以挑選最佳招數。「Alpha Go」的核心也正是兩種不同的深層神經網路：策略網路（policy network）和價值網路（value network）。利用「價值網路」去計算局面，根據局勢對路線進行取捨；用「策略網路」選擇下子，減少不必要的棋步，在配合中選出有希望的好棋步，拋棄明顯差棋，從而將計算量控制在計算機可以完成的範圍內。

　　此外，開發者們還用兩種方式同步訓練AlphaGo，一是用許多專業棋局進行訓練的監督式學習（supervised learning），然後讓「Alpha Go」和自己對弈，這種方法稱為強化式學習（reinforcement learning）。在這種不斷的學習，反思和練習下，在同其他圍棋程序進行的總計495局的較量中取得只輸一局的輝煌戰績。

　　AlphaGo的創作者之一哈薩比斯早在十六七歲時，就已憑藉《主題公園》、《黑與白》等人工智慧遊戲開發者的身份而聲名鵲起，並成立了自己的遊戲工作室。而後他卻選擇從遊戲業退出，回到學校進修神經科學。

　　2011年，哈薩比斯在特斯拉CEO埃隆·馬斯克（Elon Musk）等人的投資下，成立了一家人工智慧初創公司DeepMind，將機器學習和系統神經學的最先進技術結合起來，建立強大的通用學習演算法。三年後，DeepMind以4億英鎊的價格被谷歌收購。

　　哈薩比斯事後對《衛報》透露，他和谷歌的接洽始於馬斯克的私人飛機，而在與谷歌洽談收購之際，Facebook也對DeepMind表示了興趣。在兩大科技公司的爭奪戰中，DeepMind也抬高了身價。

　　目前，DeepMind總部位於倫敦，有約140名成員，其中包括業內最頂級的數位人工智慧專家。

　　AI前景：無孔不入

　　從打敗樊麾到打敗李世石，AlphaGo的成名速度，超過了任何一個人類棋手。

　　「AlphaGo的勝利，具有非常大的意義，尤其是科普和帶動AI領域的研究。」上海紐約大學計算機科學教授、前微軟亞洲研究院副院長張崢告訴財新記者。AI，即為人工智慧（Artificial Intelligence）的英文縮寫，在全球關注人機圍棋大戰的這幾天，AI也成為輿論熱議的焦點。

　　張崢表示，理論上，任何一個變化空間封閉而不是開放的問題，無論解空間有多大，都可以被類似AlphaGo的人工智慧演算法解決。但他同時指出，實際問題中，變化空間封閉的問題並不是那麼多的。所以AI還是有很多研究要做。

　　AlphaGo的強化學習的機制是其成功的關鍵，楊強表示，這種強化學習在未來可以讓機器實現像生物一樣的自我學習能力。楊強介紹，他的團隊正在電子商務領域引入類似的演算法，提高電子商務對用戶興趣預測的準確程度，類似的預測，如相關商品推薦，在目前的一些應用中存在延遲，而引入策略網路和價值網路讓演算法實現強化學習後，這些推薦會更為即時精準。

　　同樣致力於將AI應用於人臉識別的Face++研發負責人曹志敏也對財新記者表示，在AI研究領域，深度學習和強化學習正受到越來越多的關注，複雜的雙人或多人博弈遊戲，語音識別和語義理解、自動理解視頻語義內容等都是被探索的方向。

　　「我認為我們成功地用AlphaGo給神經網路引入了「直覺」——如果你想這麼叫的話，而正是這些直覺讓某些人成為頂尖棋手。」哈薩比斯曾在AlphaGo首局戰勝李世石之後對美國科技媒體The Verge表示，而這種直覺的引入或將為未來造出能夠自己從環境中學習的機器——如能夠適應每座不同房屋、廚房的清掃機器人——打下鋪墊。

　　「DeepMind的目的不只是打遊戲，儘管那非常有趣而且令人興奮。最終，我們希望能應用到現實世界中的重大問題。」哈薩比斯說。

　　究竟哪些問題將被解決，哪些行業將被顛覆？張崢表示，人工智慧將「無孔不入，只有早晚的區別。」