李飛飛最新論文:構建好奇心驅動的神經網路,複製嬰兒學習能力

作者:張浩(雲南大學)

斯坦福大學李飛飛等發表最新論文,試圖通過實現好奇心驅動的內在動機的神經網路來複制嬰兒的一些能力。研究者設計了一個簡單的模擬環境,agent 在其中學習預測其行為結果的世界模型,這可能解釋嬰兒學習的關鍵特徵。

對於玩耍,嬰兒是專家。在缺乏明確的外部獎勵信號的非結構化環境中,嬰兒具有產生新的結構化行為的驚人能力。近日,李飛飛等發表的最新論文,試圖通過實現好奇心驅動的內在動機的神經網路來複制嬰兒的一些能力。

通過使用一個簡單但生態自然的模擬環境,agent 可以移動並與它所看到的物體互動,agent 將學習一個預測其行為的動態結果的世界模型(world model)。同時,agent 還學會了對發展中的世界模型採取對抗地挑戰它的行動,這促進了該 agent 探索環境,並與之進行新的、更豐富的交互。文章證明這種策略導致了一系列複雜的自我監督行為的出現,包括自我運動預測、對象注意(object attention)和對象聚集(object gathering)。

此外,agent 學習的世界模型支持提高對象動態預測和本地化任務的性能。該模型的內在動機計算模型可能解釋嬰兒發展性視覺運動學習的關鍵特徵。

由好奇心驅動的內在動機的計算模型

在嬰兒時期,人類表現出一系列有趣的、自發的視覺運動行為,包括在環境中進行導航、尋找和注視物體等等,在遊戲方面尤其表現出色。他們對環境的理解和(重新)構造的能力使他們與最先進的自主機器人不同。這個時期的遊戲能力可能與嬰兒強大的理解和模擬環境的能力相互作用。

好奇心的內在動機本身可以推動世界模型的發展。這個想法依賴於一個良性循環,在這個循環中,通過尋求新穎但可複製的相互作用,這個嬰兒推動了他的世界模型預測系統能夠實現的界限,為改進和開發這些系統提供了有用的數據。

基於最近在人工智慧方面的工作,文章建立了一個由好奇心驅動的內在動機(curiosity-based intrinsic motivation)的計算模型。我們提出了一個簡單的模擬互動式環境,在這個環境中,一個 agent 可以在它看到的物體上移動和進行物理操作(圖 1)。

文章接著描述了一個神經網路架構,通過這個架構,agent 學習一個旨在預測其行為後果的世界模型。另外,當 agent 優化其世界模型的準確性時,一個單獨的神經網路同時學習 agent 的行動策略,該策略旨在採取行動來對抗挑戰其世界模型當前的狀態。

文章證明,這個架構穩定地參與了上述的良性強化學習循環,自發地學習理解自我生成的自我運動,並有選擇地關注、定位對象和與之交互,而不需要內置任何這些概念。

agent 架構與環境

文章將 agent 放置在 Unity 3D 模擬框架中構建的物理逼真模擬環境中。agent 由世界模型和損失模型組成。世界模型的任務是學會動態的視覺輸入。損失模型試圖估計世界模型的損失,在接下來的幾個步驟中選擇行為對抗世界模型。自我監督好奇心系統如圖 2 所示,模型沒有用預訓練的權重初始化,這樣以便探索模型在物理體現的環境中的真實體現。

交互環境

環境是一個簡單的方形房間,包含一個 agent 和幾個對象,開始都是隨機放置的。agent 被建模為一個不可見的球體,可以四處移動,並以離散的時間步長從前方接收 RGB 圖像。為了方便對需要一些注意力和接近度的對象進行交互建模,agent 可以將所有三維空間中的力和力矩應用於既在視圖中的對象。

定義狀態空間 St ∈ S 中的一個狀態,由 agent 在 t-1 到 t 時刻捕獲的圖像組成。在狀態 St

中,agent 在 At ∈ A 處發出一個動作,這個動作將影響下一個狀態

動作空間

是連續的。前 2 個維度指定自我運動,限制 agent 向前 / 向後運動的運動和水平平面旋轉。剩餘的 6N 維度指定施加到相對於 agent 的視野從較低的最左邊到最右邊的對象排序的 N 個對象的力和轉矩。

World model

給定一段歷史

用輸入映射ξ:H→X 和真值映射η:H→Y 來描述廣義動力學問題,並且要求世界模型(圖 2 中的藍色部分)映射ξ(h)到η(h)。令ω表示這個世界模型,使得

對於每個預測,產生損失為

理論上,預測會產生一個有吸引力的動力學問題,其中,

在實踐中,我們發現逆動力學預測很有用,可以填補一個缺失的行為。文章採用隨機梯度下降訓練卷積神經網路

隨機初始化參數φ。模型使用 12 個卷積層,每隔一層使用 stride=2 的最大池。

Loss model

agent 的目標是對抗世界模式,所以如果它能夠預測下一步選擇所帶來的損失,就可以制定一項策略。在實踐中採用預測損失離散化以方便訓練。給定 St 和擬議的下一個動作 a,損失模型Λ(圖 2 中的紅色)預測世界模型損失概率分布。它受到 softmax 交叉熵損失的約束。我們使用一個單獨的帶參數ψ的卷積神經網路 LambdaPsi ,包含 12 個卷積層每隔一層帶有 stride=2 的最大池層,一個隱含層用於編碼狀態,然後與動作 At 進行級聯。

值得注意的是,損失不僅取決於世界模型的狀態,還取決於未來採取的行動,因此損失模型需要預測未來策略。如圖 4 所示,在給定當前狀態 St 的情況下,損失預測有效地解釋為行動空間上的損失預測圖

Action policy

基於於損失預測模型,agent 可以使用簡單的機制來選擇其行為。根據損失模型,給定狀態 St 和擬議的下一個動作 a,T 的概率分布

基於 T 概率分布,可以將策略定義為分布

β為超參數,實際上,我們通過對 A 中的 K 個均勻隨機樣本評估σ來執行策略。一個概率與方程(1)成正比的 K - 中離散分布,在選擇這個策略機制時,我們選擇從一個簡單的方法開始,使用更複雜的強化學習標準來著重研究自我監督信號。這個階段可以明確地預測未來幾個時間段的損失,實驗結果容易實現可視化,並做出合理的解釋。

觀察和結論

我們觀察到,基於對抗動態構建的世界模型的損失的一種簡單、普遍的內在動機機制允許 agent 穩定地產生一系列自然的行為。通過在主動學習過程中進行自我課程設置,該 agent 在學習 「玩耍」 時實現了幾個適當增加複雜性的「發展里程碑」。

從隨機動作開始,它很快地學習了自我運動的動態。然後,在沒有給出關於對象的存在或位置的明確的監督信號的情況下,它就會拋棄自我運動預測,並開始將注意力集中在更有趣的對象上。最後,當有多個對象可用時,它會收集這些對象以便將它們帶入彼此的交互範圍。在整個過程中,agent 找到了一種更具挑戰性的數據分發方式,在每個時刻都很難使 agent 暴露在新的情況下,但該方式仍可以被該 agent 所理解和利用。這種內在的動機策略導致了對對象動態的理解、以及系統未明確學習的其他任務的性能提升。

這是在沒有任何預訓練的 visual backbone 的情況下發生的——視覺系統世界模型故意沒有在(例如)ImageNet 分類上預訓練的濾波器權重進行初始化。

從機器學習的角度來看,這種自發行為的結合引向了一種改進的世界模型,這很適合於設計必須在真實的強化學習場景中有效地行動的 agent,在這些場景中,獎勵是稀疏的,或者可能是未知的。在這裡,我們最終尋求開發能夠控制自主機器人的演算法,這些機器人可以學習在複雜的不可預測的環境中工作。從認知科學的角度來看,這些結果表明了一種利用內在動機的學習系統來模擬嬰兒自發行為的途徑。在這個領域,我們試圖建立能夠描述嬰兒學習的關鍵方面的計算模型。

論文地址:arxiv.org/pdf/1802.0746


【2018 新智元 AI 技術峰會重磅開啟,瘋狂搶票中!】早鳥票 3 折搶票倒計時 3 天開搶


推薦閱讀:

TAG:人工智慧 | 神經網路 | 斯坦福大學StanfordUniversity |