深度增強學習前沿演算法思想
本文原載於《程序員》雜誌2017年1月刊
2016年AlphaGo計算機圍棋系統戰勝頂尖職業棋手李世石,引起了全世界的廣泛關注,人工智慧進一步被推到了風口浪尖。而其中的深度增強學習演算法是AlphaGo的核心,也是通用人工智慧的實現關鍵。本文將帶領大家了解深度增強學習的前沿演算法思想,領略人工智慧的核心奧秘。
前言
深度增強學習(Deep Reinforcement Learning,DRL)是近兩年來深度學習領域迅猛發展起來的一個分支,目的是解決計算機從感知到決策控制的問題,從而實現通用人工智慧。以Google DeepMind公司為首,基於深度增強學習的演算法已經在視頻遊戲、圍棋、機器人等領域取得了突破性進展。2016年Google DeepMind推出的AlphaGo圍棋系統,使用蒙特卡洛樹搜索和深度學習結合的方式使計算機的圍棋水平達到甚至超過了頂尖職業棋手的水平,引起了世界性的轟動。AlphaGo的核心就在於使用了深度增強學習演算法,使得計算機能夠通過自對弈的方式不斷提升棋力。深度增強學習演算法由於能夠基於深度神經網路實現從感知到決策控制的端到端自學習,具有非常廣闊的應用前景,它的發展也將進一步推動人工智慧的革命。
深度增強學習與通用人工智慧
當前深度學習已經在計算機視覺、語音識別、自然語言理解等領域取得了突破,相關技術也已經逐漸成熟並落地進入到我們的生活當中。然而,這些領域研究的問題都只是為了讓計算機能夠感知和理解這個世界。以此同時,決策控制才是人工智慧領域要解決的核心問題。計算機視覺等感知問題要求輸入感知信息到計算機,計算機能夠理解,而決策控制問題則要求計算機能夠根據感知信息進行判斷思考,輸出正確的行為。要使計算機能夠很好地決策控制,要求計算機具備一定的「思考」能力,使計算機能夠通過學習來掌握解決各種問題的能力,而這正是通用人工智慧(Artificial General Intelligence,AGI)(即強人工智慧)的研究目標。通用人工智慧是要創造出一種無需人工編程自己學會解決各種問題的智能體,最終目標是實現類人級別甚至超人級別的智能。
通用人工智慧的基本框架即是增強學習(Reinforcement Learning,RL)的框架,如圖1所示。
圖1 通用人工智慧基本框架
智能體的行為都可以歸結為與世界的交互。智能體觀察這個世界,然後根據觀察及自身的狀態輸出動作,這個世界會因此而發生改變,從而形成回饋返回給智能體。所以核心問題就是如何構建出這樣一個能夠與世界交互的智能體。深度增強學習將深度學習(Deep Learning)和增強學習(Reinforcement Learning)結合起來,深度學慣用來提供學習的機制,而增強學習為深度學習提供學習的目標。這使得深度增強學習具備構建出複雜智能體的潛力,也因此,AlphaGo的第一作者David Silver認為深度增強學習等價於通用人工智慧DRL=DL+RL=Universal AI。
深度增強學習的Actor-Critic框架
目前深度增強學習的演算法都可以包含在Actor-Critic框架下,如圖2所示。
圖2 Actor-Critic框架
把深度增強學習的演算法認為是智能體的大腦,那麼這個大腦包含了兩個部分:Actor行動模塊和Critic評判模塊。其中Actor行動模塊是大腦的執行機構,輸入外部的狀態s,然後輸出動作a。而Critic評判模塊則可認為是大腦的價值觀,根據歷史信息及回饋r進行自我調整,然後影響整個Actor行動模塊。這種Actor-Critic的方法非常類似於人類自身的行為方式。我們人類也是在自身價值觀和本能的指導下進行行為,並且價值觀受經驗的影響不斷改變。在Actor-Critic框架下,Google DeepMind相繼提出了DQN,A3C和UNREAL等深度增強學習演算法,其中UNREAL是目前最好的深度增強學習演算法。下面我們將介紹這三個演算法的基本思想。
DQN(Deep Q Network)演算法
DQN是Google DeepMind於2013年提出的第一個深度增強學習演算法,並在2015年進一步完善,發表在2015年的《Nature》上。DeepMind將DQN應用在計算機玩Atari遊戲上,不同於以往的做法,僅使用視頻信息作為輸入,和人類玩遊戲一樣。在這種情況下,基於DQN的程序在多種Atari遊戲上取得了超越人類水平的成績。這是深度增強學習概念的第一次提出,並由此開始快速發展。
DQN演算法面向相對簡單的離散輸出,即輸出的動作僅有少數有限的個數。在這種情況下,DQN演算法在Actor-Critic框架下僅使用Critic評判模塊,而沒有使用Actor行動模塊,因為使用Critic評判模塊即可以選擇並執行最優的動作,如圖3所示。
圖3 DQN基本結構
在DQN中,用一個價值網路(Value Network)來表示Critic評判模塊,價值網路輸出Q(s,a),即狀態s和動作a下的價值。基於價值網路,我們可以遍歷某個狀態s下各種動作的價值,然後選擇價值最大的一個動作輸出。所以,主要問題是如何通過深度學習的隨機梯度下降方法來更新價值網路。為了使用梯度下降方法,我們必須為價值網路構造一個損失函數。由於價值網路輸出的是Q值,因此如果能夠構造出一個目標Q值,就能夠通過平方差MSE的方式來得到損失函數。但對於價值網路來說,輸入的信息僅有狀態s,動作a及回饋r。因此,如何計算出目標Q值是DQN演算法的關鍵,而這正是增強學習能夠解決的問題。基於增強學習的Bellman公式,我們能夠基於輸入信息特別是回饋r構造出目標Q值,從而得到損失函數,對價值網路進行更新。
圖4 UNREAL演算法框圖
在實際使用中,價值網路可以根據具體的問題構造不同的網路形式。比如Atari有些輸入的是圖像信息,就可以構造一個卷積神經網路(Convolutional Neural Network,CNN)來作為價值網路。為了增加對歷史信息的記憶,還可以在CNN之後加上LSTM長短記憶模型。在DQN訓練的時候,先採集歷史的輸入輸出信息作為樣本放在經驗池(Replay Memory)裡面,然後通過隨機採樣的方式採樣多個樣本進行minibatch的隨機梯度下降訓練。
DQN演算法作為第一個深度增強學習演算法,僅使用價值網路,訓練效率較低,需要大量的時間訓練,並且只能面向低維的離散控制問題,通用性有限。但由於DQN演算法第一次成功結合了深度學習和增強學習,解決了高維數據輸入問題,並且在Atari遊戲上取得突破,具有開創性的意義。
A3C(Asynchronous Advantage Actor Critic)演算法
A3C演算法是2015年DeepMind提出的相比DQN更好更通用的一個深度增強學習演算法。A3C演算法完全使用了Actor-Critic框架,並且引入了非同步訓練的思想,在提升性能的同時也大大加快了訓練速度。A3C演算法的基本思想,即Actor-Critic的基本思想,是對輸出的動作進行好壞評估,如果動作被認為是好的,那麼就調整行動網路(Actor Network)使該動作出現的可能性增加。反之如果動作被認為是壞的,則使該動作出現的可能性減少。通過反覆的訓練,不斷調整行動網路找到最優的動作。AlphaGo的自我學習也是基於這樣的思想。
基於Actor-Critic的基本思想,Critic評判模塊的價值網路(Value Network)可以採用DQN的方法進行更新,那麼如何構造行動網路的損失函數,實現對網路的訓練是演算法的關鍵。一般行動網路的輸出有兩種方式:一種是概率的方式,即輸出某一個動作的概率;另一種是確定性的方式,即輸出具體的某一個動作。A3C採用的是概率輸出的方式。因此,我們從Critic評判模塊,即價值網路中得到對動作的好壞評價,然後用輸出動作的對數似然值(Log Likelihood)乘以動作的評價,作為行動網路的損失函數。行動網路的目標是最大化這個損失函數,即如果動作評價為正,就增加其概率,反之減少,符合Actor-Critic的基本思想。有了行動網路的損失函數,也就可以通過隨機梯度下降的方式進行參數的更新。
為了使演算法取得更好的效果,如何準確地評價動作的好壞也是演算法的關鍵。A3C在動作價值Q的基礎上,使用優勢A(Advantage)作為動作的評價。優勢A是指動作a在狀態s下相對其他動作的優勢。假設狀態s的價值是V,那麼A=Q-V。這裡的動作價值Q是指狀態s下a的價值,與V的含義不同。直觀上看,採用優勢A來評估動作更為準確。舉個例子來說,假設在狀態s下,動作1的Q值是3,動作2的Q值是1,狀態s的價值V是2。如果使用Q作為動作的評價,那麼動作1和2的出現概率都會增加,但是實際上我們知道唯一要增加出現概率的是動作1。這時如果採用優勢A,我們可以計算出動作1的優勢是1,動作2的優勢是-1。基於優勢A來更新網路,動作1的出現概率增加,動作2的出現概率減少,更符合我們的目標。因此,A3C演算法調整了Critic評判模塊的價值網路,讓其輸出V值,然後使用多步的歷史信息來計算動作的Q值,從而得到優勢A,進而計算出損失函數,對行動網路進行更新。
A3C演算法為了提升訓練速度還採用非同步訓練的思想,即同時啟動多個訓練環境,同時進行採樣,並直接使用採集的樣本進行訓練。相比DQN演算法,A3C演算法不需要使用經驗池來存儲歷史樣本,節約了存儲空間,並且採用非同步訓練,大大加倍了數據的採樣速度,也因此提升了訓練速度。與此同時,採用多個不同訓練環境採集樣本,樣本的分布更加均勻,更有利於神經網路的訓練。
A3C演算法在以上多個環節上做出了改進,使得其在Atari遊戲上的平均成績是DQN演算法的4倍,取得了巨大的提升,並且訓練速度也成倍的增加。因此,A3C演算法取代了DQN成為了更好的深度增強學習演算法。
UNREAL(UNsupervised REinforcement and Auxiliary Learning)演算法
UNREAL演算法是2016年11月DeepMind提出的最新深度增強學習演算法,在A3C演算法的基礎上對性能和速度進行進一步提升,在Atari遊戲上取得了人類水平8.8倍的成績,並且在第一視角的3D迷宮環境Labyrinth上也達到了87%的人類水平,成為當前最好的深度增強學習演算法。
A3C演算法充分使用了Actor-Critic框架,是一套完善的演算法,因此,我們很難通過改變演算法框架的方式來對演算法做出改進。UNREAL演算法在A3C演算法的基礎上,另闢蹊徑,通過在訓練A3C的同時,訓練多個輔助任務來改進演算法。UNREAL演算法的基本思想來源於我們人類的學習方式。人要完成一個任務,往往通過完成其他多種輔助任務來實現。比如說我們要收集郵票,可以自己去買,也可以讓朋友幫忙獲取,或者和其他人交換的方式得到。UNREAL演算法通過設置多個輔助任務,同時訓練同一個A3C網路,從而加快學習的速度,並進一步提升性能。
在UNREAL演算法中,包含了兩類輔助任務:第一種是控制任務,包括像素控制和隱藏層激活控制。像素控制是指控制輸入圖像的變化,使得圖像的變化最大。因為圖像變化大往往說明智能體在執行重要的環節,通過控制圖像的變化能夠改善動作的選擇。隱藏層激活控制則是控制隱藏層神經元的激活數量,目的是使其激活量越多越好。這類似於人類大腦細胞的開發,神經元使用得越多,可能越聰明,也因此能夠做出更好的選擇。另一種輔助任務是回饋預測任務。因為在很多場景下,回饋r並不是每時每刻都能獲取的(比如在Labyrinth中吃到蘋果才能得1分),所以讓神經網路能夠預測回饋值會使其具有更好的表達能力。在UNREAL演算法中,使用歷史連續多幀的圖像輸入來預測下一步的回饋值作為訓練目標。除了以上兩種回饋預測任務外,UNREAL演算法還使用歷史信息額外增加了價值迭代任務,即DQN的更新方法,進一步提升演算法的訓練速度。
UNREAL演算法本質上是通過訓練多個面向同一個最終目標的任務來提升行動網路的表達能力和水平,符合人類的學習方式。值得注意的是,UNREAL雖然增加了訓練任務,但並沒有通過其他途徑獲取別的樣本,是在保持原有樣本數據不變的情況下對演算法進行提升,這使得UNREAL演算法被認為是一種無監督學習的方法。基於UNREAL演算法的思想,可以根據不同任務的特點針對性地設計輔助任務,來改進演算法。
小結
深度增強學習經過近兩年的發展,在演算法層面上取得了越來越好的效果。從DQN,A3C到UNREAL,精妙的演算法設計無不閃耀著人類智慧的光芒。在未來,除了演算法本身的改進,深度增強學習作為能夠解決從感知到決策控制的通用型學習演算法,將能夠在現實生活中的各種領域得到廣泛的應用。AlphaGo的成功只是通用人工智慧爆發的前夜。
推薦閱讀:
※從Google大會看到未來:AI來襲
※技術永遠不會夠好?技術公司會被 BAT 取代?在兒童領域做 AI 的他們憑啥這麼說?
※報姐看片 | 女主神顏挽救一切!機器人談戀愛也好甜哦
TAG:深度学习DeepLearning | 人工智能 | 科技 |