ICLR 2018最佳論文出爐:Adam收斂、球形CNN、元學習備受矚目

2018年的深度學習頂級會議ICLR將於4月30日—5月3日在加拿大溫哥華正式舉辦。自去年11月27日論文評選結束後,ICLR 2018收到了981篇有效論文,較上一屆的491篇增長了99.8%。會議收錄了23篇(2.3%)oral paper、314篇(32%)post paper和90篇workshop paper。

而就在昨天凌晨,ICLR 2018官網正式公布了今年的Best Papers,它們分別是:

關於更多會議亮點,請看ICLR 2018亮點關註:23篇口頭報告。

能力所限,小編無法對論文做更深入挖掘,如發現錯誤,歡迎指正!


On the convergence of Adam and Beyond

摘要:近年來,學界提出了不少已經成功用於訓練深度神經網路的隨機優化演算法,如RMSProp、Adam、Adadelta和Nadam等。它們都基於迄今為止所有梯度值的平方和(二階動量)進行梯度更新。但在許多場合下,如輸出上限很高的情況下,這些演算法往往無法收斂到全局最優解(非凸問題的臨界點)。我們的研究證實,導致這一現象的出現的原因之一是演算法用的是指數移動平均值。為此我們設置了一個簡單的凸優化問題,發現Adam在上面無法收斂到最優解,我們還探討了以前關於Adam演算法論文中的精確性問題。分析表明,這個收斂問題可以通過對之前所有梯度設置一個漸變的「長期記憶」來解決。我們在這基礎上提出了一個Adam演算法的新變體,它不僅可以修正收斂問題,還可以提高經驗積累性能。

1. Adam的指數移動平均值如何導致無法收斂

我們通過提供一個簡單的一維凸優化問題說明了使用指數移動平均值的RMSProp和Adam為什麼無法收斂到全局最優解。它們的缺陷在於這個公式:

它基本表現了「自適應學習率」優化演算法的學習率的倒數相對於時間的變化。 對於SGD和ADAGRAD而言,當t ∈ [T]時,Γt始終大於等於0。這是它們的基本梯度更新規則,所以它們的學習率始終是單調遞減的。但是基於指數移動平均值的RMSProp和Adam卻沒法保證這一點,當t ∈ [T]時,它們的Γt可能大於等於0,也可能小於0。這種現象會導致學習率反覆震蕩,繼而使模型無法收斂。我們可以來看看以下這個F = [?1, 1]的簡單分段線性函數:

C > 2。在這個函數中,我們很輕鬆就能看出它應收斂於x = ?1。但如果用Adam,它的二階動量超參數分別是β1 = 0,β2 = 1/(1 + C2),演算法會收斂在x = +1這個點。我們直觀推理下:該演算法每3步計算一次梯度和,如果其中兩步得出的結論是x = -1,而一次得出的結論是C,那麼計算指數移動平均值後,演算法就會偏離正確收斂方向。因為對於給定的超參數β2,大梯度C沒法控制自己帶來的不良影響。

2. Adam的變體AMSGrad

我們的目標是設計一個能保證梯度收斂的新演算法, 同時保留RMSProp和Adam的優勢。根據上文我們可知,RMSProp和Adam演算法下的Γt可能是負的,所以我們探討了一種替代方法,通過把超參數β1、β2設置為隨著t變化而變化,從而保證Γt始終是個非負數。

與Adam相比,AMSGrad的學習率更小,但只要限制Γt始終是個非負數,演算法就能保證學習率是不斷下降的。它們的主要區別在於後者記錄的是迄今為止所有梯度值vt中的最大值,並用它來更新學習率,而Adam用的是平均值。因此當t ∈ [T]時,AMSGrad的Γt也能做到始終大於等於0。

Adam和AMSGrad在一維凸優化問題上的收斂表現

更多精彩內容,請看原文:openreview.net/pdf?id=ryQu7f-RZ


Spherical CNNs

摘要:卷積神經網路(CNN)是學習二維平面圖像問題的首選方法。然而近期隨著無人機、機器人和自動駕駛汽車全方位導航,分子回歸以及全球天氣、氣候建模等需求的出現,構建能分析球形圖像的模型正在成為一個熱點課題。如果我們簡單地把卷積神經網路直接用於球面信號的平面投影,它註定會失敗,因為由這種投影引入的空間變化失真會使矩陣的平移分量失效。

本文介紹了一些用於球形卷積神經網路的構件塊。我們提出了一個既具表達性,又符合內置的球形旋轉不變性等相關定義的球形CNN,它滿足廣義傅立葉變換,這就允許我們用快速傅里葉變換(FFT)演算法實現快速群卷積。在實驗中,我們演示了將球形CNN用於三維模型識別和霧化能量回歸中的計算效率、數值準確度和有效性。

什麼是球形CNN

在一張普通的二維平面圖像上,無論檢測目標怎麼移動,卷積神經網路總能輕鬆獲得它所在的位置。但球面圖像不同,雖然看起來檢測目標也是在平面上移動,但它做的不是平移,而是三維旋轉,這就為CNN模型檢測帶來了不小的困難。如下圖所示,我們無法用平移卷積或群卷積處理球面信號,為了把二維做法推廣到三維,我們需要用旋轉來代替原來的filter變換。

這就帶來了一個非常微妙但又很重要的問題:平面的運動空間(二維平移)是和它同構的平面,但球面的運動空間(三維旋轉)是三維流形SO(3)。球形CNN(S2-CNN)的難點主要有兩方面。一是儘管像素的正方形網格具有離散的平移對稱性,但它並不存在完全對稱的網格。二是計算效率,因為SO(3)是三維流形,所以它的演算法時間複雜度有O(n6)。

為了簡單說明這個概念,我們通過類比經典平面Z2的相關性來解釋S2和SO(3)的相關性。平面的相關性可以理解如下:

  • 在平移x ∈ Z2時,輸出特徵圖的值是由輸入特徵圖與filter(變數x)的內積計算得來的。

同理,球面的相關性也可以這麼理解:

  • 在旋轉R ∈ SO(3)時,輸出特徵圖的值是由輸入特徵圖與旋轉filter(變數R)的內積計算得來的。

其中S2為:

R ∈ SO(3)為:

更多精彩內容,請看原文:arxiv.org/pdf/1801.10130.pdf


Continuous adaptation via meta-learning in nonstationary and competitive environments

摘要:在非穩定和競爭環境中不斷學習、不斷適應是通往通用人工智慧道路上的一個重要里程碑。本文將持續適應問題轉化成「學習到學習」框架,提出了一種基於梯度的元學習方法,能用於動態和競爭環境下的連續適應。此外,我們還設計了一個新的多智能體競爭環境RoboSumo。並定義了測試適應性迭代效果的遊戲機制。實驗證明,元學習比策略基線效果更好,用了元學習的智能體在競爭迭代中性能更佳。

1. 基於梯度的元學習方法

近來強化學習(RL)已經在多方面取得了令人印象深刻的成果,例如遊戲和對話系統。但這些成果的一個共同局限是演算法處理的還是穩定的環境。現實世界通常是不穩定的,由於複雜的生命周期變化、環境演進或其他競爭者的存在,這種非平衡的因素往往能打破目前已經建立的標準假設,並迫使智能體在訓練和運行期間不斷調整自我已取得成功。

在我們看來,一個非穩定環境可以被看作是一系列固定的任務,因此我們可以把它作為一個多任務學習問題來解決。我們需要在這些問題中納入few-shot regime:智能體必須能依賴少數經驗進行學習,並在環境變化前完成學習。這時,「學習到學習」(或元學習)的方法是最值得期待的,而我們借鑒的方法是伯克利大學的提出的基於梯度的未知模型元學習法(MAML)。

上圖(a)是一個常規的多任務強化學習MAML概率模型,其中任務T、策略π和軌跡τ都是以圖中依賴關係聯繫起來的隨機變數。圖(b)是我們為適應動態環境對該模型所做的擴展,可以發現,智能體上一步的策略和軌跡被用於為當前步驟構建新策略。圖(c)則是從 φi到φi+1時meta-update的計算圖,其中方框表示具有指定參數的策略圖的副本,從LTi+1開始,模型通過截斷反向傳播進行優化。

(計算略)。簡而言之,基於梯度的元學習方法的主要思路是通過調整任務Ti的策略πt,使任務Ti+1獲得一個優秀的新策略πt+1。它把Ti和任務Ti+1的關係建模成馬爾可夫鏈,然後改變MAML模型中loss的定義用Ti調出策略πφ,已獲得更好的效果。

2. 多智能體競爭環境RoboSumo

我們的多智能體環境RoboSumo允許參與者按照標準相撲規則以1對1的方式進行競爭。智能體有三種類型:Ant、Bug和Spider。它們具有不同的物理結構。在比賽期間,每個智能體都會觀察自己和對手的位置、自己關節的角度、相應的速度以及施加在自己身體上的力(相當於觸覺)。它們的動作是連續的。

如上圖所示,RoboSumo的一輪遊戲包含多個episode,智能體在遊戲中和競爭對手比賽,如果它在大多數episode中獲勝了,則判定為勝一輪(以顏色標記)。隨著episode更迭,智能體和其對手都能通過改進策略來提高表現。

更多精彩內容,請看原文:arxiv.org/pdf/1710.03641.pdf

參考文獻

[1] On the convergence of Adam and Beyond By Sashank J. Reddi, Satyen Kale, Sanjiv Kumar

[2] Adam那麼棒,為什麼還對SGD念念不忘 By Juliuszh

[3] 深度學習最全優化方法總結比較(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam) By ycszen

[4] Spherical CNNs By Taco S. Cohen, Mario Geiger, Jonas K?hler, Max Welling

[5] Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments By Maruan Al-Shedivat, Trapit Bansal, Yura Burda, Ilya Sutskever, Igor Mordatch, Pieter Abbeel

[6] 論文筆記 Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments By 王小惟


推薦閱讀:

TAG:機器學習 | 深度學習DeepLearning | 卷積神經網路CNN |