Uber AI論文:利用反向傳播訓練可塑神經網路,生物啟發的元學習範式
選自arXiv,機器之心編譯。
怎樣才能得到經過初始訓練後就可以利用經驗持續快速高效學習的智能體呢?Uber AI 近日研究表明,如同深度神經網路的連接權重,神經可塑性也可以通過梯度下降來優化。在模式記憶、圖像重建和強化學習任務上,該方法得到了超越傳統非可塑網路的表現,表明可微可塑性有望為元學習問題提供新的高效方法。
介紹:關於「學會學習(元學習)」的問題
最近的機器學習方向的成果很多都是利用大量訓練數據進行大量訓練,來學習單一複雜的問題(Krizhevsky et al., 2012; Mnih et al., 2015; Silver et al., 2016)。當學習完成之後,智能體的知識就固定不變了;如果這個智能體被用於其他的任務,那麼它需要重新訓練(要麼完全重來,要麼部分重新訓練),而這又需要大量新的訓練數據。相比較之下,生物智能體具備一種出色的能力,這個能力使它們快速高效地學習持續性經驗:動物可以學會找到食物源並且記下(最快到達食物源的路徑)食物源的位置,發現並記住好的或者不好的新事物或者新場景,等等——而這些往往只需要一次親身經歷就能完成。
賦予人工智慧體終身學習的能力,對於它們掌控具有變化不可測特徵的環境或是訓練時未知特定特徵的環境至關重要。例如,深度神經網路的監督學習能讓神經網路從它訓練時使用的特定、固定的字母表中識別字母;然而,自主性的學習能力能使智能體獲取任何字母表的知識,包括人類設計者在訓練時不知道的字母表。
自主性學習能力還有一個好處,那就是能讓智能體在處理許多任務的時候(例如物體識別、迷宮尋徑等等),存儲任務中固定不變的結構到自己的固定知識部分中,而只從具體情況中學習剩下可能的變數。這樣處理的結果是,學習一個當前的特定任務實例(也就是一般任務的多個實例間確實存在差異的實際潛在變數)會變得非常快,只需要少量甚至單個環境經歷。
許多元學習方法已被運用於訓練智能體的自主性學習。然而,不像現在的一些方法,生物大腦的長期學習被認為主要是通過突觸可塑性來完成的——突觸可塑性是神經元間連接的加強或減弱,它是神經活動造成的,經過百萬年的進化,它能使擁有它的個體高效地學習。神經可塑性存在許多種構造,它們中很大一部分都遵循稱為「赫布定律」的原則:如果一個神經元不停地激活另一個神經元,那麼它們間的聯繫會加強(這個定律通常被總結為「一起激活的神經元被連接到一起」)(赫佈於 1949 年提出)。這一原則是動物大腦里觀察到的幾種可塑性形式的基礎,這使它們能從經驗中學習並適應環境。
此前一直都有人研究在進化演算法中利用可塑性連接來設計神經網路(Soltoggio et al. 2017),但是在深度學習方面的研究相對較少。然而,考慮到為複雜任務設計傳統非可塑性神經網路時得到的不錯的梯度下降結果,將反向傳播訓練運用到具有可塑性連接的網路是非常有意義的——通過梯度下降不僅能優化基礎權重,還能優化每個連接的可塑性量。研究者之前論證過這個方法的理論可行性和分析易行性(Miconi, 2016)。
本研究表明,該方法確實可以成功為非平凡任務訓練大型網路(數百萬的參數)。為了演示該方法,作者將其應用到三個不同類型的任務:複雜模式記憶(包括自然圖像)、單樣本分類(Omniglot 數據集)和強化學習(迷宮探索問題)。結果表明,可塑性網路在 Omniglot 數據集上得到了有競爭力的結果,並展現了它對迷宮探索問題的性能優化,以及它在複雜模式記憶的問題中優於非可塑性循環網路(LSTM)幾個數量級的表現。這個結果不僅有利於尋找基於梯度的神經網路訓練的新研究途徑,同時也說明之前歸因於進化或者先驗設計的神經結構元屬性實際上也是可以用梯度下降處理的,這也暗示仍然存在很大一部分我們之前沒有想到過的元學習演算法。
圖 3:使用具有 2050 個神經元的非可塑 RNN 的 50 位模式記憶的學習曲線(綠線),使用具有 2050 個神經元的 LSTM 的學習曲線(紅線),以及具有相同參數卻只用了 51 個神經元的可微可塑權重網路的學習曲線(藍線)。
圖 4:(a) 利用有遮擋的圖像測試集(訓練時沒使用過的數據)進行典型圖像重建的結果。每一行都是一個完整的重建過程。
圖 4:(b) 訓練後的基線權重 wi,j 矩陣(頂部)以及可塑性係數αi,j(底部)。每一列描述了單個單元的輸入,垂直相鄰的元素描述圖像中水平相鄰像素的輸入。注意兩個矩陣中的關鍵結構。
圖 6:頂部:迷宮的示意圖,指出了智能體的位置(用笑臉表示)以及獎勵位置(用紅十字表示,紅十字只用於圖像演示:獎勵對智能體來說是不可見的)。底部:迷宮探索任務的訓練曲線:每個訓練事件(episode)通過 15 次運行得到中位數獎勵以及四分位數獎勵。
論文:Differentiable plasticity: training plastic neural networks with backpropagation(可微可塑性:利用反向傳播訓練可塑神經網路)
論文地址:https://arxiv.org/pdf/1804.02464.pdf
摘要:我們怎樣才能訓練出能在初始訓練之後利用經驗持續快速高效學習的智能體呢?這裡我們得到了生物大腦主要學習機制的啟發:經過精巧進化得到的,能使生物終身高效學習的神經可塑性。我們發現,就如同連接權重,神經可塑性可以通過赫布可塑連接的大型(數百萬個參數)循環網路的梯度下降來優化。首先,擁有超過二百萬參數的循環可塑網路通過訓練可以記憶和重建新的、高維度的(1000+像素)之前訓練時沒見過的自然圖像。最重要的是,傳統的非可塑循環網路不能解決這種問題。此外,經過訓練的可塑網路可以解決常見的元學習問題諸如 Omniglot 任務,其結果十分優秀並且參數開銷也很小。最後,在強化學習領域,可塑網路處理迷宮探索任務的表現優於非可塑的網路。我們得出結論,可微可塑性有望為元學習問題提供新的高效方法。
推薦閱讀:
※邏輯回歸(二分類)與極大似然
※AlphaGo之父談人工智慧:超越人類認知的極限
※過擬合與正則化
※機器學習篇-數據劃分
※[貝葉斯三]之決策函數和決策面