AlphaGo再勝!看似「沉迷遊戲」,但它真正想改變的是現實世界
這幾天,我們看到人機兩界「又啟戰端」。然而相比於上次AlphaGo大戰李世石,這次比賽的受關注度低了不少。大部分原因估計是大家早已猜到了比賽結局。畢竟從戰李世石,到化身Master大戰群豪連贏60場,再到今天的戰柯潔,它早已奠定了「棋神」的地位。
但旁觀者看到AlphaGo懟天懟地懟一切,貌似沉迷圍棋遊戲不能自拔,似乎這個「棋癮少年」擔不起人們對它的「吹捧」,不得不發出疑問說:so what?然後呢?
其實很多人的認識有一個誤區,錯把AlphaGo這類AI單純的看做一款遊戲軟體,所謂「人機大戰」就是個噱頭。但他們忽略了一個最重要的事實:某種程度上,遊戲正是對現實世界的一種抽象模擬,AI能在遊戲里成為一個主體,它同樣能在現實中成為主體!所以現在很多研究者選擇把遊戲作為一種研究工具,利用遊戲構造一個研究平台或虛擬環境,用於訓練、測試人工智慧技術,最終解決實際問題。
Facebook 人工智慧研究院研究員田淵棟在做客地平線大牛講堂時曾提到過,把遊戲作為AI研究的平台有兩個好處:
它可以生成無限多的帶標註的數據以供神經網路訓練,解決數據不足的問題;
遊戲的環境是完全可控的,難度可以調節,重複性也非常完美。
AlphaGo涉及到的技術應用領域十分廣泛,包括自動駕駛、氣候預測、工業、醫療等。AlphaGo之父、DeepMind創始人兼CEO哈薩比斯就曾透露過,他們正在使用AlphaGo系統的變體來服務其他行業,其中一種變體應用於醫療行業,著力解決蛋白質摺疊這一超難問題,令研發進度加快5到10年。此外他們還將演算法用於數據中心的製冷系統,讓功耗降低了40%;與倫敦醫院合作,尋找退行性疾病的早期癥狀。
DeepMind創始人兼CEO 傑米斯·哈薩比斯
去年我們看到的AlphaGo1.0巧妙地融合了蒙特卡洛樹搜索+監督學習+增強學習,4:1戰勝李世石震驚世人。看似完美,但它仍有許多可完善的地方,比如蒙特卡洛樹搜索仍是一種暴力計算,很依賴計算資源;監督學習仍是一種人類指導下的訓練,這是一種局限,畢竟對於強大的AI來說,3000萬棋譜的限制反而會錯過很多好棋。
而AlphaGo2.0正式把增強學習作為主力,系統完全從零狀態通過自我博弈來學習和提升棋力,這種完全不需要外界數據的自我學習,是人工智慧很激動人心的一個進步。AlphaGo2.0脫離了人類棋手歷史數據的束縛,也意味著完全捨棄了所謂「定式」。很多過去我們看來非常愚蠢的走法,卻在AlphaGo這裡演化成神之一手,真正是「無招勝有招」。難怪2017年新年前夜,柯潔與Master的比賽剛過去不久,他曾輾轉反側,一夜難眠,感慨人類數千年的實戰演練進化,卻被計算機證明全是錯的。他甚至覺得沒有一個人曾沾到圍棋真理的邊。
這兩天觀看比賽時,我們既心中早有答案,又希望看到奇蹟。小編曾在第一局看到柯潔中腹作戰效果不錯,但轉眼間十幾步後柯潔就被逼上絕路,當時心中也是跌宕不已,不禁感慨人類的任何「掙扎」似乎都是徒勞。同時,我們也期待主辦方另設的配對賽和團體賽,這種比賽類型想必會非常有趣。
AlphaGo最重要的創新就是對深度學習和增強學習結合,這讓機器具備了判斷和決策的能力,更關鍵的是它通過「左右互搏」實現了自我進化!而AlphaGo2.0更是進一步將增強學習的優勢發揮到極致。所謂增強學習,其實是主體(比如AI系統)和它所處環境(比如圍棋棋局)的一種博弈,通過二者之間的作用,反饋,改變,再作用,再反饋等一系列過程,完成訓練和建模。它幫助主體在特定環境下,如何最大化地實現某個目標。
對實際問題的AI研究,很多地方都會和AlphaGo有共通之處。比如自動駕駛的訓練,在基於真實駕駛數據的訓練之外,也可以採用simulation的方式進行增強訓練——虛擬一個類似賽車遊戲的交通環境,讓自動駕駛AI與這個環境不斷互動、博弈,從而實現汽車的自主學習。
最開始自動駕駛AI像小白一樣,在這個虛擬環境里橫衝直撞,只有小部分概率採用正確的駕駛策略。(這也是必須採用simulation進行增強學習訓練的原因之一,誰都不能承受現實環境下如此大規模的試錯成本)。錯誤的行車路線會收到負反饋,正確的路線收到正反饋,以此激勵AI採用正確的駕駛策略,做出越來越優的規劃。
這種方法的作用遠不止彌補真實駕駛數據不足。更為重要的是,它可以實現短時間內數百萬次的虛擬駕駛演繹,從而驗證、更新演算法,對這相比於成本巨大且耗時頗長的公路實測,無疑是非常節省的。另外,有研究者稱,真正安全可靠的完全自動駕駛系統需要汽車數十億千米的測試,simulation的方法可能是這個難題唯一的解。
這次大戰之前,柯潔曾略帶「悲壯」地表示這將是他最後三盤人機大戰,這也可能是人類的最後三盤人機大戰。人類曾站在智力最高點,遠遠的期盼著人工智慧走來,但剎那間它就與我們並齊,呼嘯而過。(但請放心,AI仍是我們握在手中的工具。)
這次比賽,其實更多的是一種儀式性的「驗證」——AI開始不依賴外界數據,可以在混沌中「自悟」出智慧。它幫助我們重新認識對「極限」的定義,就如王小川的評價,它在「重演一部進化史,重新認識智慧的邊界」。
那麼問題來了,這個進步是否會啟發其它領域的AI研究者,考慮在某些情況下解除一些先驗設定的經驗規則,讓機器自己學會一些創造性的行為呢?放棄做出這種避險動作???
- END -
推薦閱讀:
※為什麼做stacking之後,準確率反而降低了?
※AI從業者需要應用的10種深度學習方法
※人工智慧和我們的存在
※財報季忙到吐血?AI助力大摩分析師(GT)
※我們讓終端側的人工智慧無處不在
TAG:人工智能 | 深度学习DeepLearning | 强化学习ReinforcementLearning |