AlphaGo再勝！看似「沉迷遊戲」，但它真正想改變的是現實世界

02-08

這幾天，我們看到人機兩界「又啟戰端」。然而相比於上次AlphaGo大戰李世石，這次比賽的受關注度低了不少。大部分原因估計是大家早已猜到了比賽結局。畢竟從戰李世石，到化身Master大戰群豪連贏60場，再到今天的戰柯潔，它早已奠定了「棋神」的地位。

但旁觀者看到AlphaGo懟天懟地懟一切，貌似沉迷圍棋遊戲不能自拔，似乎這個「棋癮少年」擔不起人們對它的「吹捧」，不得不發出疑問說：so what？然後呢？

其實很多人的認識有一個誤區，錯把AlphaGo這類AI單純的看做一款遊戲軟體，所謂「人機大戰」就是個噱頭。但他們忽略了一個最重要的事實：某種程度上，遊戲正是對現實世界的一種抽象模擬，AI能在遊戲里成為一個主體，它同樣能在現實中成為主體！所以現在很多研究者選擇把遊戲作為一種研究工具，利用遊戲構造一個研究平台或虛擬環境，用於訓練、測試人工智慧技術，最終解決實際問題。

Facebook 人工智慧研究院研究員田淵棟在做客地平線大牛講堂時曾提到過，把遊戲作為AI研究的平台有兩個好處：

它可以生成無限多的帶標註的數據以供神經網路訓練，解決數據不足的問題；

遊戲的環境是完全可控的，難度可以調節，重複性也非常完美。

AlphaGo涉及到的技術應用領域十分廣泛，包括自動駕駛、氣候預測、工業、醫療等。AlphaGo之父、DeepMind創始人兼CEO哈薩比斯就曾透露過，他們正在使用AlphaGo系統的變體來服務其他行業，其中一種變體應用於醫療行業，著力解決蛋白質摺疊這一超難問題，令研發進度加快5到10年。此外他們還將演算法用於數據中心的製冷系統，讓功耗降低了40%；與倫敦醫院合作，尋找退行性疾病的早期癥狀。

DeepMind創始人兼CEO 傑米斯·哈薩比斯

去年我們看到的AlphaGo1.0巧妙地融合了蒙特卡洛樹搜索+監督學習+增強學習，4：1戰勝李世石震驚世人。看似完美，但它仍有許多可完善的地方，比如蒙特卡洛樹搜索仍是一種暴力計算，很依賴計算資源；監督學習仍是一種人類指導下的訓練，這是一種局限，畢竟對於強大的AI來說，3000萬棋譜的限制反而會錯過很多好棋。

而AlphaGo2.0正式把增強學習作為主力，系統完全從零狀態通過自我博弈來學習和提升棋力，這種完全不需要外界數據的自我學習，是人工智慧很激動人心的一個進步。AlphaGo2.0脫離了人類棋手歷史數據的束縛，也意味著完全捨棄了所謂「定式」。很多過去我們看來非常愚蠢的走法，卻在AlphaGo這裡演化成神之一手，真正是「無招勝有招」。難怪2017年新年前夜，柯潔與Master的比賽剛過去不久，他曾輾轉反側，一夜難眠，感慨人類數千年的實戰演練進化，卻被計算機證明全是錯的。他甚至覺得沒有一個人曾沾到圍棋真理的邊。

這兩天觀看比賽時，我們既心中早有答案，又希望看到奇蹟。小編曾在第一局看到柯潔中腹作戰效果不錯，但轉眼間十幾步後柯潔就被逼上絕路，當時心中也是跌宕不已，不禁感慨人類的任何「掙扎」似乎都是徒勞。同時，我們也期待主辦方另設的配對賽和團體賽，這種比賽類型想必會非常有趣。

AlphaGo最重要的創新就是對深度學習和增強學習結合，這讓機器具備了判斷和決策的能力，更關鍵的是它通過「左右互搏」實現了自我進化！而AlphaGo2.0更是進一步將增強學習的優勢發揮到極致。所謂增強學習，其實是主體（比如AI系統）和它所處環境（比如圍棋棋局）的一種博弈，通過二者之間的作用，反饋，改變，再作用，再反饋等一系列過程，完成訓練和建模。它幫助主體在特定環境下，如何最大化地實現某個目標。

對實際問題的AI研究，很多地方都會和AlphaGo有共通之處。比如自動駕駛的訓練，在基於真實駕駛數據的訓練之外，也可以採用simulation的方式進行增強訓練——虛擬一個類似賽車遊戲的交通環境，讓自動駕駛AI與這個環境不斷互動、博弈，從而實現汽車的自主學習。

最開始自動駕駛AI像小白一樣，在這個虛擬環境里橫衝直撞，只有小部分概率採用正確的駕駛策略。（這也是必須採用simulation進行增強學習訓練的原因之一，誰都不能承受現實環境下如此大規模的試錯成本）。錯誤的行車路線會收到負反饋，正確的路線收到正反饋，以此激勵AI採用正確的駕駛策略，做出越來越優的規劃。

這種方法的作用遠不止彌補真實駕駛數據不足。更為重要的是，它可以實現短時間內數百萬次的虛擬駕駛演繹，從而驗證、更新演算法，對這相比於成本巨大且耗時頗長的公路實測，無疑是非常節省的。另外，有研究者稱，真正安全可靠的完全自動駕駛系統需要汽車數十億千米的測試，simulation的方法可能是這個難題唯一的解。

這次大戰之前，柯潔曾略帶「悲壯」地表示這將是他最後三盤人機大戰，這也可能是人類的最後三盤人機大戰。人類曾站在智力最高點，遠遠的期盼著人工智慧走來，但剎那間它就與我們並齊，呼嘯而過。（但請放心，AI仍是我們握在手中的工具。）

這次比賽，其實更多的是一種儀式性的「驗證」——AI開始不依賴外界數據，可以在混沌中「自悟」出智慧。它幫助我們重新認識對「極限」的定義，就如王小川的評價，它在「重演一部進化史，重新認識智慧的邊界」。

那麼問題來了，這個進步是否會啟發其它領域的AI研究者，考慮在某些情況下解除一些先驗設定的經驗規則，讓機器自己學會一些創造性的行為呢？放棄做出這種避險動作???

- END -