ICML2018 - 論文閱讀

ICML2018 - 論文閱讀

4 人贊了文章

這裡要說的是一篇關於基於演示進行策略優化的文章——《Policy Optimization with

Demonstrations》。

1、問題提出

對於強化學習問題,獎賞稀疏仍然是一個突出的問題,目前在獎賞稀疏的環境進行探索有2種主要方法:引導agent去探索從未見過的狀態;引導agent模仿專家軌跡進行學習。其中引導agent模仿專家行為進行學習時,也有2種方法:使用專家軌跡預訓練出一個有一定能力的agent;把專家軌跡直接放進replay memory里。這兩種方法都沒有充分利用專家示例。本文針對這個問題,提出了基於演示的策略優化方法,在進行policy optimization的過程中,重新塑造了一個獎賞函數,這個新的獎勵函數可以引導agent在獎勵比較稀疏時模仿專家行為,當能夠拿到獎勵值時自主進行探索。這樣可以更加充分地使用專家示例,並且不需要保證專家策略是最優策略,相比於之前的方法有很大提升。

2、幾個定義

首先定義了2種佔有量估計,分別用來估計執行某一策略π時,狀態S、狀態動作對S-A出現的概率,定義如下:

佔有量估計

這時對一個策略的評估就從(1)變成了(2):

新的策略評估

同時,作者提出了一個引理:一個策略佔有量估計的分布和這個策略是一一對應的,所以評估兩個策略之間的差異可以轉換為評估兩個策略佔有量估計的差異。這樣處理的一個原因是兩個策略間的差異比較難以獲得,但是佔有量估計之間的差異比較容易得到。另外,這裡還提出了一個假設:專家策略至少在一開始的表現是比我們自己定義的策略要優異的。

3、POfD方法 - Policy Optimization from Demonstrations.

首先提出了優化的目標函數,目標是調整策略的參數使目標函數最小。之後對目標函數進行變形,這裡的θ是agent的策略參數,E是專家策略,D(js)表示兩個策略間的JS散度,用于衡量策略之間的差異。

接下來直接給出了D(js)的下屆,因為是要求目標函數的最小值,所以直接把下屆代入了目標函數。這裡的D是一個鑒別器,用於分辨狀態動作對S-A是來自於agent的策略還是專家策略,如果是來自於專家策略則D偏向於1,來自於agent的偏向於0:

D(js)的下界

把下界代入目標函數,這裡為了防止過擬合加了個正則項H,w是鑒別器的參數,θ是agent策略的參數:

把下界代入目標函數

到了這裡問題已經有點像一個生成對抗網路問題——讓agent向expert學習,鑒別器更加高效地分辨兩者的決策,但是最終的目標並不是使agent像expert一樣,因為這裡的expert不一定是最優策略。

接下來取現在目標函數的一部分作為獎賞函數,就得到了下面的優化目標函數與重塑後的獎賞函數:

重塑的獎賞函數

觀察這裡新的獎賞函數r,可以發現,如果lambda1很小的時候,如果環境本身的獎勵很稀疏,那麼agent表現越像expert,獎勵越高,實現了引導agent向專家學習;但環境本身就有獎賞時,就直接依賴於環境本身的獎賞進行學習,不依賴於專家示例,實現了先學專家,再自主學習。

4、實驗

實驗中選擇了用其他演算法在獎賞稠密的環境中不完全訓練的agent作為expert,表示這是一個非最優expert,並且對比了其他policy-based的方法、基於演示的value-based方法等,和一個與本文提出的POfD方法很類似的GAIL方法,得出了如下結果。可以看出本文的方法學習的方法比較高效,結果也更好一些。

5、小結

本文提出的基於演示的策略優化方法可以結合任意的policy-based方法,並且最終表現可以媲美在獎賞稠密環境中用現有成熟演算法訓練出來的agent。


推薦閱讀:

職稱論文發表注意事項(補充說明)
學術論文
如何讓論文成為一篇可發表的期刊文章

TAG:學術論文 | 強化學習ReinforcementLearning | 英文論文 |