不出所料!ICLR 2018最佳論文:基於梯度的元學習演算法,可高效適應非平穩環境

選自ICLR,作者:Maruan Al-Shedivat、Trapit Bansal、Yura Burda、Ilya Sutskever、Igor Mordatch、Pieter Abbeel,機器之心編譯。

於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網路和元學習演算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。

  • 論文:On the convergence of Adam and Beyond
  • 論文地址:openreview.net/pdf?
  • 機器之心文章:超越 Adam,從適應性學習率家族出發解讀 ICLR 2018 高分論文
  • 論文:Spherical CNNs
  • 論文地址:openreview.net/pdf?
  • 機器之心文章:ICLR 2018 | 阿姆斯特丹大學論文提出球面 CNN:可用於 3D 模型識別和霧化能量
  • 論文:Continuous adaptation via meta-learning in nonstationary and competitive environments
  • 論文地址:openreview.net/pdf?

這三篇論文在開放式雙盲審中都有非常高的評價,它們都被接收為 Oral 論文。其實我們感覺這三篇論文所研究的領域都是非常受關注的主題,首先 Sashank J. Reddi 等人關於優化演算法的研究表明了基於歷史梯度平方的指數移動均值如何會影響適應性學習率演算法的收斂效果,這也是近來很多研究者所困惑的地方。Taco S. Cohen 等研究者對球面 CNN 的研究擴寬了卷積神經網路的應用邊界,因而能高效處理無人機和機器人等全向視角。最後 Maruan Al-Shedivat 等研究者提出一種基於梯度的簡單元學習演算法,該演算法適用於動態變化和對抗性的場景,並獲得顯著高效的適應性智能體。

接下來,是機器之心對第三篇論文主要內容的編譯介紹:

摘要

在非平穩環境中根據有限的經驗連續地學習和適應對於發展通用人工智慧而言至關重要。在本文中,我們將連續適應的問題在 learning-to-learn 框架中重構。我們開發了一種簡單的基於梯度的元學習演算法,該演算法適用於動態變化和對抗性的場景。此外,我們還設計了一種新的多智能體競爭環境 RoboSumo,並定義了迭代適應的遊戲,用於測試連續適應的多個層面。研究表明,在少樣本機制下,相比反應性的基線演算法,通過元學習可以得到明顯更加高效的適應性智能體。對智能體集群的學習和競爭實驗表明元學習是最合適的方法。

介紹

強化學習 ( RL ) 近期取得了令人矚目的成果,從玩遊戲(Mnih 等,2015;Silver 等,2016)到對話系統的應用(Li 等,2016)再到機器人技術(Levine 等,2016)。儘管取得了一定的進展,但用於解決許多此類問題的學習演算法都是為處理靜止環境而設計的。另一方面,由於複雜性(Sutton 等人,2007)、動態環境中的變化或系統實時環境的目標變化(Thrun,1998)及存在多個學習智能體(Lowe 等,2017;Foerster 等,2017a)等因素,現實世界往往是非平穩的(Sutton 等, 2007)。非平穩性打破了標準假設,要求智能體在訓練和執行時不斷適應,以便取得成功。

在非平穩條件下學習是一項挑戰。處理非平穩性的典型方法通常是以語境檢測(Da Silva 等,2006)及追蹤(Sutton 等,2007)為基礎,即通過持續微調策略對環境中已經發生的變化做出反應。雖然現代深度強化學習演算法能夠在某些任務上實現超人類性能,但不幸的是,這種演算法採樣效率很低。非平穩性僅允許在環境屬性改變之前進行有限的交互。因此,它會立即將學習置於少樣本機制,這通常使得簡單的微調方法變得不切實際。

非平穩環境可以看作是平穩任務的序列,因此我們建議將它作為一個多任務學習問題來處理(Caruana,1998)。learning-to-learn(或元學習)的方法(Schmidhuber,1987;Thrun & Pratt,1998)在少樣本機制中特別受歡迎,因為它們可以從少數幾個例子中概括出靈活的學習規則。元學習在監督領域展現了有潛力的效果,最近得到了研究界的廣泛關注 (如 Santoro 等,2016;Ravi & Larochelle, 2016)。本文提出了一種基於梯度的元學習演算法,這種演算法類似(Finn 等,2017b)的方法,並適用於非平穩環境中 RL 智能體的連續適應。更具體地說,我們的智能體以元學習的方式學習預測環境的變化並相應地更新其策略。

雖然實際環境中的任何變化都可能帶來非平穩性(如智能體的物理變化或特性變化),但是由於緊急行為的複雜性,具有多個智能體的環境特別具有挑戰性,並且對於從多人遊戲(Peng 等人,2017)到協作無人駕駛艦隊的應用具有實際意義(Cao 等,2013)。從任何單個智能體的角度來看,多智能體環境都是非平穩的,因為所有的智能體都在同時學習和改變(Lowe 等,2017)。本文研究了競爭性多智能體環境下連續適應學習對手的問題。

為此,我們設計了 RoboSumo——一個具有模擬物理特性的 3D 環境,允許成對的智能體相互競爭。為了測試連續適應性,我們引入了迭代適應遊戲,這是一種新的設置,其中訓練有素的智能體在重複遊戲的多個回合中與相同的對手競爭,同時允許二者在回合之間更新策略、改變行為。在這種迭代博弈中,從智能體的角度來看,每個回合的環境不同,智能體必須適應這種變化才能贏得博弈。此外,競爭成分的存在使得環境不僅是非平穩的,而且是對抗的,這提供了一個自然的訓練課程,並鼓勵學習魯棒的戰略(Bansal 等,2018)。

我們以(單個智能體)具有手動非平穩性的移動任務和 RoboSumo 迭代適應遊戲上的一些基線評估了我們的元學習智能體。實驗結果表明,元學習策略在單個智能體和多智能體環境下的小樣本模式下明顯優於其他適應方法。最後,我們進行了一個大規模實驗,訓練具有不同形態、策略結構和適應方法的多種智能體,並使它們通過相互競爭在迭代博弈中進行交互。我們根據智能體在這些遊戲中的 TrueSkills 對其進行評估(Herbrich 等,2007),在幾次迭代中實現智能體群體的進化——輸的智能體會消失,而贏的得到複製。結果表明,具有元學習適應策略的智能體是最合適的。演示適應行為的視頻參見以下鏈接:goo.gl/tboqaN

圖 1:(a)多任務強化學習中的 MAML 的概率模型。其中,任務 T、策略π和軌跡τ都是隨機變數,並按圖中連接的邊互相關聯。(b)我們的擴展模型可以連續地適應由於環境的非平穩性導致動態變化的任務。上一時間步的策略和軌跡被用於為當前時間步構建新的策略。(c)從φ_i 到φ_i+1 的元更新的計算圖。方框表示的是帶具體參數的策略圖的副本。模型是通過從 L_(T_i+1) 開始的截斷反向傳播優化的。

演算法 1 訓練時的元學習;演算法 2 執行時的改編

圖 2:(a)實驗中使用的三類智能體。三個機器人之間的不同之處在於:腿的數量、位置以及大腿和膝蓋上的運動限制。(b)不平穩的運動環境。紅色腿應用的力矩通過動態變化的因子而擴展。(c)RoboSumo 環境。

圖 3:在一輪包含多個 episode 的迭代適應遊戲中,一個智能體與對手間的比賽。智能體如果贏得大部分 episode,就等於贏得一輪(輸贏用顏色表示)。智能體和對手都可能逐輪(用版本編號來表示)升級自己的策略。

圖 4:在 3 個非平穩移動環境中的 7 個連續 episode 的獎勵。為了評估適應性策略,我們在每個環境中運行這 7 個 episode,其中每個環境、策略和元更新都在重複迭代前經過了完全重置(重複 50 次)。陰影區域是 95% 置信區間。最好閱讀彩圖。

圖 5:迭代遊戲中的不同適應策略對抗 3 個不同預訓練對手的勝率結果。在測試時,智能體和對手都從 700 版本開始。對手的版本數在自我對抗學習中隨著每個連續回合而不斷增加,而智能體只能按給定的有限經驗和給定的對手進行適應。每個回合由 3 個事件構成。每個迭代遊戲重複 100 次;陰影區域表示 95% 引導置信區間;沒有經過平滑化。最好閱讀彩圖。

圖 6:在和學習對手的迭代遊戲中,隨著每回合事件數量的增加所帶來的勝率變化效應。

圖 7:性能最好的基於 MLP 和基於 LSTM 的智能體的 TrueSkill 值。TrueSkill 值基於 1000 次迭代適應性遊戲的結果(贏、輸、平)計算,其中每個遊戲包含 100 個連續回合,每個回合有 3 個事件。遊戲中的對抗雙方從 105 個預訓練的智能體群體中隨機選取。

圖 8:1050 個智能體群體進化 10 代。最好閱讀彩圖。


推薦閱讀:

report of learning optimization
從優化的角度看PCA降維的原理
指導人生演算法之最佳停時問題
(無約束優化問題)最優化方法理論總結1
廣義線性模型與邏輯回歸

TAG:人工智慧 | 最優化 | 卷積神經網路CNN |