好奇心驅動的強化學習:從資訊理論開始

註:閱讀本文細節需要強化學習的基礎知識,知道什麼是state,action,policy。最好知道bellman equation。

paper: de Abril, Ildefons Magrans, and Ryota Kanai. "Curiosity-driven reinforcement learning with homeostatic regulation." arXiv preprint arXiv:1801.07440 (2018).

( Cognitively Informed Artificial Intelligence: Insights From Natural Intelligence (NIPS Workshop 2017), Long Beach, CA, USA.)

文章亮點

這篇文章最開始吸引我的點,一是引入資訊理論來推導獎賞項並建立與好奇心的聯繫,而不是直接上帝之手給出一個獎賞項的定義。二是談到了維持穩態(homeostasis):好奇心或者探索未知並不是沒有代價的,至少消耗時間和能量,我猜想這是為什麼被餵飽穿好的小孩子比需要自立的大人更有資本好奇的原因。作者原話是,「動物必須放棄被好奇心驅使,轉而遵循已熟悉的規則行事,才能保證得到食物、水、熱量……」(the animal has to trade its curiosity drive with the need to act according to familiar patterns that guarantee the required stimuli (e.g. food, water, heat,...)。而縱觀大部分機器演算法模擬好奇心,鮮有直接考慮依據好奇心行事的代價(我沒見過,歡迎提供例子)。

讀完後發現,本文的主要貢獻可能還是資訊理論部分的推導,而談論穩態就有些牽強了……就如大量其他不懂生物的計算科學家假裝自己的模型有生物基礎一樣 :)

強化學習中的信息流:理論推導

本文模型的基礎假設是,強化學習的return項即信息增加(information gain,下文簡稱IG),直觀解釋是信息從環境傳達給學習者,用環境狀態指導自己的行為:

其中 I(A
ightarrow B||C) 是「causally conditioned directed mutual information"(wiki),直覺來說就是比較假定了A->B的因果關係和不假定這個因果關係之間的mutual information。這個定義來自Tiomkin and Tishby 2017。

第二個等號是給出recursive形式,類比bellman equation,return是未來所有態的IG,而當下所在態的獎賞reward則是下一時刻的態 S_{t+1} 和行動 A_{t+1} 之間的mutual information。如前所述,他倆之間有因果關係(態決定行動),但是因為只考慮一步,causally conditioned diredcted MI和普通MI的形式並無差別。

直到這裡還是資訊理論的推導,跟好奇心沒關。計算mutual information是非常麻煩的事情,需要對變數的所有值積分,計算量極大。於是作者進行了驚天地泣鬼神的化簡:

第一個約等號用當下的態和動作的具體值替換連續變數從而無需積分。

第二個約等號用預測與實際之間的距離替換掉熵,直覺上大概可以理解(熵越大約不確定、分布越寬、預測可能錯得越離譜),數學推導沒見過。很少見這樣的處理,嚇一跳,歡迎提供更多例子。

公式(2)的直觀解讀:拓展版預測模型(extended forward model)相比基礎版預測模型的預測準確率提高越大,即mutual information越大。

好奇心與穩態調節?

(2)中最終化簡形式的第一項,基礎版預測模型(forward model),是鼓勵預測錯誤的,錯誤越大reward越大。思路一如上篇文章Pathak et al 2017所述:應該鼓勵去探索未知的領域,最大化犯錯的可能,因為犯錯才能學到新東西。

第二項,拓展版預測模型又被解讀成所謂的「穩態調節」項,是與此前工作最不同的一項。拓展的預測利用了下一步要做的動作來反推下一步所處的狀態(根據「果」倒推「因」)。負號意味著這裡是鼓勵預測正確。什麼時候已知動作可以很準確地反推狀態呢?數學上很顯然是當policy函數方差越小,越容易反推;作者在這裡解釋為「對這一對兒狀態-動作非常熟悉」。雖然不知道怎麼定義「熟悉」,但是作者隨機開始思緒紛飛:根據行動反推狀態的成功率越高,意味著對這個態越熟悉;越」熟悉「意味著更接近穩態,或有利於穩態調節……這個對數學模型的解讀,恩,有點牽強。

對比大多已有的」好奇驅動「演算法,作者給了個示意圖:

實際上我們知道,即使是Pathak et al 2017也是在最終模型中加了一項對預測成功的鼓勵,和對預測錯誤的鼓勵互相平衡。單純鼓勵犯錯的模型顯然是學不到任何東西的。

實驗

實際解bellman equation操作大概是把這個recursive relation丟給一個強化學習的演算法(Deep Deterministic Policy Gradient algorithm [Lillicrap et al., 2015]),從而尋找到最佳policy。獎賞則是採用(2)中的簡化表達。

雖然試圖與玩馬里奧的Pathak et al 2017模型相類比,但作者給出的實驗還是比較小兒科的:

就讓agent在房間里走,最多十步。表現水平的評估是看agent會不會被困在初始位置。我認為並沒有給出他們的模型哪裡好哪裡差的可靠論證,所以不細討論了。

評論

我們可以來反推一下這篇研究形成的科研思路。主要啟發估計來自Tiomkin and Tishby 2017,把強化學習的過程用資訊理論給出新的解讀(the information transferred from a sequence of states to the following sequence of actions when an agent interacts open-endedly with a Markovian environment)。

本文給出的示意圖,信息流從環境的狀態S傳給行動者的行為A

大量mutual information不好算啊怎麼辦?不想如Tiomkin and Tishby那樣大張旗鼓地搞數值近似,那就大刀闊斧地簡化數學唄——得到的結果恰好與去年的Pathak et al 2017頗有聯繫,說明有道理的,卻又多出來一項。恩怎麼解釋?想想看,按上個穩態調節homeostatic regulation的解釋好了。這解釋出來的模型表現也很不怎麼樣啊,便又走上調節reward term權重的老路,把穩態調節項的權重搞大搞大……最終最好的係數是數學直接推出結果的7倍。似乎反而有點讓數學推導缺乏說服力了,雖然那本來是本文的起點。

我期待作者可以更好地解釋這些數學近似在什麼條件下是合適的,是什麼意義,有什麼副作用。或者分析一下,也許這最初的information gain的假設就存在問題。這能讓資訊理論應用於RL的理論分析更深入些。

至於穩態調節如何放入好奇心的框架……看起來目前還是未解之謎。


推薦閱讀:

TAG:認知科學 | 人工智慧 | 強化學習ReinforcementLearning |