【ICML2016】谷歌 DeepMind 論文下輯(肖京點評附下載)

1新智元編譯

來源:deepmind.com

譯者:DFJ、王婉婷、朱煥

點評:肖京

【新智元導讀】深度學習重要會議 ICML2016 接收谷歌 DeepMind 9篇論文,新智元系統整理,繼上篇之後,本次邀請國家千人計劃專家、平安科技數據平台部總經理肖京進行點評:《用記憶增強的神經網路進行單點學習》提出了新的存儲讀寫更新策略;《深度生成模型中的單點泛化》延續了去年 Science 那篇小數據學習文章(Lake et. al.)的工作,不過,小數據學習(one-short learning)尚處於初步階段,本文提出的方法還有待提高。其他3篇,《蒙特卡洛目標變分推斷》提出了首個為重要性採樣設計的無偏梯度估計器,性能堪比目前使用的有偏估計器;《深度強化學習的競爭網路架構》提出了一種叫「競爭網路」的全新架構,使強化學習代理玩ATARI2600達到目前最高水平;《關聯長短記憶》表明,冗餘關聯記憶可以成為新的神經網路基礎單元。成功奪得 ICLR2016 最佳論文獎的 DeepMind,在 ICML2016 是否也能拔得頭籌呢?

  1. 用記憶增強的神經網路進行單點學習(One-shot Learning with Memory-Augmented Neural Networks)

  2. 深度生成模型中的單點泛化(One-Shot Generalization in Deep Generative Models)

  3. 蒙特卡洛目標變分推斷(Variational inference for Monte Carlo objectives)

  4. 深度強化學習的競爭網路架構(Dueling Network Architecture for Deep Reinforcement Learning)

  5. 關聯長短時記憶(Associative Long Short-Term Memory)

關注新智元(AI_era)回復「0616」下載論文(請直接在公眾號回復)

1. 用記憶增強的神經網路進行單點學習【肖京點評】近年在記憶增強神經網路領域的相關工作取得了一些很有趣的進展,比如14年Graves等人提出的神經圖靈機,這篇文章的方法也是基於記憶增強神經網路的體系架構。這種架構通過加入可讀寫的外部存儲器層,實現用極少量新觀測數據就能有效對模型進行調整,從而快速獲得識別未見過的目標類別的meta-learning能力,也就是可以利用極少量樣本學習。這種調整不是簡單通過對新觀測信息在存儲器中查找匹配,而是基於強大深度神經網路架構,結合長期觀測得到的深度模型與根據新信息對存儲內容靈活有效的讀寫更新。相比神經網路圖靈機,這篇文章的新意在於提出了新的存儲讀寫更新策略,LRUS(Least Recently Used Access),每次寫操作只選擇最少被用到的存儲位置或者最近被用的存儲位置。這樣的策略完全由內容決定,不依賴於存儲的位置,而神經網路圖靈機的更新策略則是由信息內容和存儲位置共同決定的。因此,神經網路圖靈機更適用於時序性較強的分類或回歸問題,而本文提出的方法則沒有這方面的限制。文中的一系列實驗結果展現了所提方法的優越性,同時也提出了該方法的一些局限及繼續研究的方向,比如存儲器不能跨任務共用的問題,以及如何與主動學習結合選擇有效的樣本等。

摘要

雖然近期深度網路的應用有些突破,但還有個長久以來的挑戰沒有解決,那就是「單點學習」 (one-shot learning)。傳統的基於梯度的網路需要大量數據來學習,需要大量的迭代訓練。當遇到新的數據,模型必須重新學習參數來把新的信息充分包含進來,以避免做出災難性的推斷,但這個過程是低效的。擁有強化記憶的架構,比如神經圖靈機 (Neural Turing Machine; NTM),提供了快速編碼和獲取新信息的能力,因此有避免傳統模型缺陷的潛力。這裡,我們展示了記憶增強神經網路快速吸取新數據,並只需要少量例子就能利用新數據做出準確預測的能力。我們也介紹一種新的訪問外部存儲空間的方法,這種方法是基於存儲的內容,而不是像之前的方法那樣額外使用了基於存儲地址的專註 (focusing) 機制。

1. 引言

許多問題要求通過少量數據進行快速推斷。「單點學習」 (one-shot learning) 的極限情形,單個觀測可以導致行為的急劇變化。

這種靈活適應性是人類學習的一個被讚頌的方面,在從運動控制到抽象概念的獲得等方面都有體現。例如,推測一個只聽過一兩次的單詞的全部用法,這樣的任務對機器智能是個難點。

不過,以前的工作確實提示了一個從稀疏數據進行快速學習的可能策略,而相關的概念叫做「元學習」 (meta-learning)。雖然這個說法在各種意義下被使用,但元學習一般指的是一種學習方案,其中代理人按兩層來學習,每層對應不同的時間尺度。快速學習發生在一個任務之內,比如,學習在一個特定數據集內準確分類。這種學習受到通過多個任務逐漸積累起來的知識的引導,這種知識描述了任務結構在目標領域中的變化方式。這種兩級組織的元學習一般被描述為「學會學習」 (learning to learn)。

有人提出擁有記憶容量的神經網路能夠進行元學習。這些網路通過權重更新來移動它們的偏置 (bias),並且通過學習快速地在存儲器中暫存表達來調節它們的輸出。比如,被訓練用來進行元學習的 LSTM (長短期記憶) 能夠通過少量例子學會從未見過的二次函數。

擁有記憶容量的神經網路讓我們有可能在深度網路中進行元學習。但是,無結構循環架構中使用記憶的特定策略不大可能適用於每個新任務需要快速編碼大量新信息的場景。可規模化的解決方案有以下要求:1. 信息必須以穩定且可以按元素定址的方式存儲,2. 參數的個數不應該與存儲容量掛鉤。這兩個特性並不自然地在諸如長短期記憶這類共享記憶架構中出現。但是,近期的一些架構,比如神經圖靈機以及記憶網路滿足這兩條。因此,我們從記憶增強神經網路 (Memory-Augmented Neural Network; MANN) 的視角研究元學習。MANN 指代的是擁有外部記憶的網路,而不包括基於內部記憶的架構,比如 LSTM。

這種方法結合了通過梯度下降緩慢學習數據的抽象表達以及通過外部記憶模塊快速學習新信息這兩種手段,從而可以支持元學習,擴展了深度學習的適用範圍。

(略)

5. 總結

通過漸變學習來編碼跨任務的背景信息,而更靈活的記憶資源存儲了新任務的專門數據。我們的主要貢獻是展示了一類特定的 MANN 對於元學習的用途。這些深度學習框架包含了專用的、可定址的記憶資源,其結構上獨立於進程式控制制的具體實現機制。這裡測試的 MANN 在兩個元學習任務上的性能優於 LSTM,並且在只有稀疏的訓練數據的情況下在分類和回歸任務上表現良好。

一個關鍵的方面是,這裡研究的那些任務都不能僅僅通過死記硬背來完成。新的信息必須被靈活地存儲和訪問,而正確的結果要求的不僅僅是準確的數據獲取。特別地,推斷需要基於新數據和長期經驗做出,這種能力有時候被稱為「歸納轉移」 (inductive transfer)。MANN 適應這兩種挑戰,因為它結合了靈活的存儲能力和用於表示學習的深度架構。

MANN 可能有助於進一步研究人類元學習的計算基礎。

下一步的可能研究包括:

  1. 元學習能否自行發現最優定址程序

  2. 這裡測試的任務共享了許多高層結構,如果測試任務的範圍更大,可能還是會引起連續學習面臨的常見挑戰。

  3. 測試 MANN 在主動學習任務下 (需要主動選取觀測什麼) 的表現

2. 深度生成模型中的單點泛化

【肖京點評】簡單地說,這篇文章延續了去年 Science 雜誌那篇小數據學習文章(Lake et. al.)的工作,把那篇文章的貝葉斯推理思想和基於深度學習的 generative 模型結合起來,建立基於反饋(feedback)和關注(attention)的序列 generative 模型,實現 synthesis-for-analysis 模式的多步迭代優化。相比 Lake 等人單純通過 analysis(貝葉斯推理),本文的一系列實驗展示了更好的效果。

不過,小數據學習的研究(one-short learning)尚處於初步階段,比如在圖像生成方面,相比之前基於「風格」(style)和「內容」(identity)分離的一些成功技術,本文提出的方法並沒有展現更好的結果。

摘要

人類善於僅憑單個例子對新概念和經驗進行推理。特別是,人類擁有單次泛化的能力:遭遇新概念,理解其結構,然後生成這個概念的有意義的變型。我們基於深度生成模型發展了一套有這種重要能力的機器學習系統;這種模型結合了深度學習的表達能力和貝葉斯推斷的推測能力。我們開發了一類基於反饋和注意的序列生成模型。這兩個特徵讓生成模型在密度估計和圖像生成方面都達到了領域前沿。我們用3個任務來展示我們模型的單點泛化能力:無條件採樣,生成給定概念的新實例,以及生成一系列概念的實例。所有情形中,我們的模型都可以在僅僅看一次實例的情況下生成有意義且多樣的樣本,因此我們的模型提供了一類重要的單點機器學習的一般性模型。

1. 引言

人類擁有單次泛化能力。本文中我們開發了擁有這種能力的新模型——可以從實際中可能遇到的數據流做出單次推理,僅使用有限形式的領域知識,並能應用到不同種類的問題。

有兩種單點泛化的方法。Salakhutdinov et al. (2013) 發展了一個結合了玻耳茲曼機和等級狄利克雷過程的概率模型,可以學習層級概念類別,並且提供了強大的生成模型。最近,Lake et al. (2015) 等人把貝葉斯規劃學習所具有的單點泛化能力視為「神經網路模型的一大難題」。通過把深度神經網路嵌入到層級隱變數模型,並與近似貝葉斯推斷的推測能力結合,這個問題是可以克服的。得到的深度生成模型是一般性的圖像模型,準確且可規模化,並且具有重要的單點泛化能力。

深度生成模型通過層級隱變數來描述觀測數據的生成過程。基於有向圖的模型越來越流行,其中包括離散隱變數模型如 sigmoid 置信網路以及深度自回歸網路,和連續隱變數模型如非線性高斯置信網路和深度隱高斯模型。這些模型使用深度網路來描述條件概率分布,可以學到擁有豐富的非線性結構。這些模型有些好的性質:對隱變數的推斷讓我們能提供對數據的因果性解釋;相關概念的類比推理很自然地成為可能;遺漏的數據可以作為額外的隱變數;實現了最小描述長度原理,可用於壓縮目的;可用來學習環境模擬器,讓基於模擬的計劃成為可能。

我們的方法有兩個中心原理:反饋和注意力。這兩個原理讓我們的模型能體現「通過合成來分析的原理」 (analysis-by-synthesis)。其中,對觀測到的信息做出的分析被連續集成到對其構建出的解釋。分析通過注意力機制實現,讓我們能選擇性地處理和引導信息。對數據的詮釋通過一系列隱變數獲得,這些隱變數通過計算數據的概率來推測。這種構造的目的是引入內部反饋來讓模型有「思考時間」,以便從每個數據點更有效地提取信息。我們把這種模型稱為序列化生成模型。

我們的貢獻包括:

  1. 發展了序列化生成模型,推廣了已有的方法,讓序列化生成和推斷、多模 (multi-modal) 後驗近似,以及一類新的生成模型成為可能。

  2. 展示了結合注意力機制與推斷對生成模型帶來的明顯提高。

  3. 證明了我們的生成模型能夠進行單點泛化,在只看圖片一次就生成有意義的變化。

2. 注意力的種類

任何讓我們有選擇地把信息從模型的一個地方引導到另一個地方的機制,都可以被認為是一種注意力機制。分類模型里的屬於「讀」注意力,生成模型里的屬於「寫」注意力或生成注意力,對輸出變數選擇性地更新。不同的注意力機制可以用相同的計算工具實現。

空間變換注意力指的是專註於圖像里物體的形狀、大小等信息。

(略)

5. 單點泛化

區分單點學習與單點推斷:本文的模型智能進行單點推斷,不能進行單點學習;後者的區別在於,還需要根據新來的數據更新模型。

6. 總結

我們開發了一類擁有單點泛化能力的通用模型,可以模仿人類認知的一個重要特徵。序列泛化模型是變分自編碼器的自然擴展,提供了密度估計和圖像生成的前沿模型。這些模型是基於反饋和注意力原理,可以計算一定步驟下數據點的概率。空間注意力機制的使用,極大地提高了模型的泛化能力。空間變換對於讀和寫都是高度靈活的注意力機制。我們的模型在一系列任務上都能生成有意義且不同的樣本,並且只需要看新例子一次。這個方法也有局限,仍然需要較多數據來避免過度擬合,希望在今後的工作中能解決這個問題

3. 蒙特卡洛目標變分推斷

摘要

深度潛變數模型方面,近來的進展大部分來自於靈活、可放縮的變分推斷(variational inference)的發展。這種類型的變分訓練涉及到使用變分後驗(posterior)中的樣本計算所需梯度,以此將 log 概率的下界最大化。最近,Burda等人(2016)提出了一種方法,通過對概率使用多樣本(multi-sample)的重要性採樣的估計來獲得更緊確(tighter)的下界;他們展示了對它進行優化將會產生使用更多計算力、獲得更高概率的模型。這個方法的出現表明了這種多樣本目標(multisample objectives)的重要性,並帶來了幾種相關方法的成功表現。

我們將這種多樣本方法擴展到離散潛變數,分析了估計其中的梯度時會遇到的困難。隨後,我們提出了第一個為重要性採樣目標而設計的無偏梯度估計器,並在訓練生成模型、結構化輸出的預測模型的方面對它進行了評估。基於每個樣本低方差的學習信號所得到的估計器,比起為單樣本變分目標而提出的NVIL估計器要更為簡單和高效,能夠與目前使用的有偏估計器相競爭。

1. 引言

使用神經網路作為參數的有向潛變數模型近來廣受關注,這是因為近期在變分推斷方法上的進展使得人們能夠高效地訓練這種模型。變分方法的一個重要缺陷是,使用一個未充分表達(insufficiently expressive)的變分後驗來訓練一個強大的模型,可能會導致模型僅僅使用一小部分能力。解決這個問題最直接的途徑是,開發更具表達能力的但仍然可被追蹤的變分後驗。

然而,一個過分簡單的後驗會對於模型產生惡劣影響。這可以被看作是由變分方法優化的下界的形式所帶來的結果。變分後驗學習的是只覆蓋真實後驗的高概率部分,而真實分布則被假定為一種簡單的形狀,能夠用變分後驗來簡單地逼近。

一種將這種影響降到最低的簡單方法是,當計算邊緣似然估計時,對多個樣本進行平均操作。我們將會把通過對獨立樣本做平均來計算似然估計的目標稱之為蒙特卡洛目標。當使用一個對多樣本做平均的目標時,用以生成樣本的分布就不再能明顯表示變分後驗了,取而代之的是,由於與重要性採樣之間的聯繫,這被認為是一種提議分布(proposal distribution)。

這種類型的多樣本目標被應用於生成模型的建模(generative modelling)、結構化輸出的預測、以及硬注意力(hard attention)模型。由於多樣本目標對於log似然來說是一個比比單樣本目標更好的代理(proxy),因此用多樣本目標訓練的模型有可能會達到更好log似然。

不幸的是,當模型中並非所有的潛變數都是連續變數時,使用多樣本目標來學習提議分布會是很困難的,因為通過對目標求導獲得的梯度估計器會有非常高的方差。

這篇論文中,我們為多樣本目標提出了一種新的無偏梯度估計器,在樸素估計器中用方差低得多的每個樣本的學習信號替代了單一的學習信號。與為單樣本變分目標所設計的NVIL估計器不同,我們的估計器不需要為了降低方差而學習任何額外的參數。我們預期,高效的無偏梯度估計器的存在,會令將離散潛變數整合入能夠進行端對端訓練的大型系統變得更為簡單。

(略)

5. 結果

5.1 生成模型建模

我們首先將我們提出的估計器用於訓練生成模型,聚焦於sigmoid信念網路(SBN),它包含了含有二項潛變數的層。SBN被用於為一些針對含有離散潛變數的模型的變分訓練方法做評估。

圖1 隨著基於驗證集(validation set)訓練的進行、訓練目標發生進化。左邊的圖將用VIMCO訓練的模型與用NVIL訓練的模型進行了比較,從中可以發現,優化多樣本目標時,VIMCO比NVIL效率高得多,並且VIMCO的優勢隨著樣本數量的增加而擴大。當使用中等數量的樣本時,NVIL的表現會有微弱的提升,直到在K達到10時開始下降。右邊的圖顯示了VIMCO和RWS之間的比較。這兩種方法的表現非常相似,當使用2樣本時,VIMCO的表現更佳,而當使用更多樣本時,RWS的學習速度略快於VIMCO。

圖1:生成模型建模:在SBN網路中用MNIST數據基於驗證集進行的多樣本目標訓練,VIMCO和NVIL(左圖)、RWS(右圖)訓練效果的比較。方括弧中的數字標明了在訓練目標中使用的樣本數量。

根據驗證分數(validation score),我們為每種方法和樣本數量的組合選擇了最佳的模型,並基於為每個數據點使用1000提議樣本(proposal samples)的測試集,估計了它們的負log似然。表1中記錄的結果表明,VIMCO和NVIL在2個樣本上的表現稍好於RWS。不過,隨著樣本數量逐漸提升,VIMCO和RWS的表現穩步提升,而NVIL則基本保持不變,在K達到50時已經是相當糟糕的表現了。總體而言,雖然VIMCO似乎在我們所選取的樣本數量中對於RWS有微弱的優勢,RWS和VIMCO的表現是非常相似的。

5.2 結構化輸出預測

第二組實驗中,我們評估了我們提出的估計器在訓練結構化輸出預測模型時的效果。我們選擇了一個被Raiko等人(2015)和Gu等人(2016)用來為二項潛變數模型進行梯度估計器的評估的基準測試,需要根據MNIST數據集中數字的上半部分來預測數字的下半部分。

圖2顯示了基於驗證集訓練三層模型後獲得的多樣本界限值(bound value),它是參數更新次數的函數。左圖展示了從先前分布(prior)中採樣並訓練模型的結果,表明模型的效果隨著樣本數量的增加有了極大的提升。雖然NVIL在1個或2個樣本時的表現要優於2個樣本的VIMCO,隨著樣本數量增加,情況有了逆轉,在20個樣本和50個樣本時,VIMCO的效率都比NVIL高得多。提高樣本數量對於模型表現有如此大的影響,這一事實有力表明,從先前分布中產生的樣本極少能很好地解釋觀測到的現象。

圖2中,右圖展示了使用學習到的提議分布的訓練結果。很顯然,這會為所有的方法和樣本數量的組合都帶來很大的表現提升。事實上,用這種方法得到的最差的結果也要優於從先前分布中採樣獲得的最好的結果。從相對表現來說,這裡的情形與生成模型建模實驗中的非常相似:VIMCO比NVIL表現更佳,並且VIMCO的優勢隨著樣本數量的增加而擴大。在這個實驗中,不同方法之間的表現差距相當小,這可能是因為任務變得簡單了。

圖2:結構化輸出預測:在一個3隱層的SBN中,基於驗證集訓練多樣本目標,使用VIMCO與使用NVIL通過從先前分布中採樣(左圖)、從學習到的提議分布中採樣(右圖)的比較。方括弧中的數字標明了訓練目標中使用的樣本數量。

6. 討論

這篇論文中,我們介紹了VIMCO,第一個專為多樣本目標設計的、推廣了經典變分下界的無偏通用梯度估計器。通過利用目標函數的結構,它簡單且高效地降低了方差,無需額外的計算耗費,消除了其他通用無偏估計器(比如NVIL)所依賴的學習基線的需求。

我們通過將VIMCO應用於生成模型和結構化輸出預測模型來展示了它的高效性。它的表現始終優於NVIL,並且能夠與目前使用的有偏估計器相抗衡。

雖然經典變分方法在使用未充分表達的變分後驗時可能會表現得非常糟糕,通過簡單地增加目標中使用的樣本數量,多樣本目標提供了一種優雅的方式用計算力來交換擬合質量。將黑盒變分推斷方法與這種目標相結合,可能會讓黑盒變分推斷的效率得到切實的提高。因此,我們希望這個方法將會提高黑盒變分推斷的吸引力與應用性。

4. 深度強化學習的競爭網路架構

摘要

近幾年有許多將深度表徵運用於強化學習的成功例子。其中,許多應用使用的仍然是傳統的架構,比如說卷積網路、LSTM或是自動編碼器。這篇論文中,我們提出了一種用於無模型(model-free)強化學習的全新神經網路架構。我們的競爭網路代表了兩個不同的估計器:一個是狀態價值函數的估計器,另一個是基於狀態的行動優勢函數的估計器。將其分離開的主要好處是,不改動基礎強化學習演算法就能泛化學習。結果表明,有許多價值相似的行動時,這種架構的策略評估更好。不僅如此,競爭架構使我們的RL代理在ATARI2600的表現超過了目前最領先的方法。

1. 引言

我們將提出的這個網路架構命名為「競爭架構」(dueling architecture),它將狀態價值的表徵與(依賴狀態的)行動優勢的表徵明顯區分開。競爭架構中包括了2條代表價值與優勢函數的流,它們共用一個卷積特徵學習模塊。就像圖1顯示的那樣,2條流在一個特殊的整合層中相互結合,生成一個對於狀態-行動價值函數Q的估計。這個競爭網路應當被理解為一個單獨的、有2條流的Q網路,在現有的演算法中可以替代流行的單流Q網路,比如深度Q網路(DQN)。競爭網路會自動生成對於狀態價值函數和優勢函數的分別估計,無需任何額外的監督。

圖1:上方是一個流行的單流Q網路,下方是競爭Q網路。競爭網路有 2 條流,用以為每個行動分別估計(標量)狀態價值和優勢。這兩種網路都會為每個行動輸出Q值。

直觀看,不了解每個狀態下每個行動的效果時,競爭架構能了解哪些狀態是(或不是)有價值的。這對於那些行動不會以任何相關的方式影響到環境的狀態來說尤為有用。為了展示這一點,請想像圖2里的顯著性地圖(saliency maps)。這些地圖是根據 Simonyan 等人(2013)提出的方法,通過將訓練後的關於輸入視頻的價值流與優勢流相結合而生成的(實驗部分描述了具體方法)。圖中顯示了兩種不同時間步長下的價值顯著性地圖與優勢顯著性地圖。

在一種時間步長中(見下圖中上面兩張圖),價值網路流對於道路、特別是地平線區域(那裡會有新的車輛出現)投注了許多注意力,它也注意著分數。而優勢流則不太關注視覺輸入,因為它的行動選擇在前方沒有車輛時與圖像實際上是無關的。然而,在第二種時間步長下(見下圖中下面兩張圖),優勢流對畫面投以了注意力,因為有車輛在前方,令它的行動選擇與前方車輛非常相關。

圖2:觀看、注意和駕駛:一個訓練完的競爭架構在ATARI遊戲 Enduro 的價值顯著性地圖與優勢顯著性地圖(紅色標註)。價值流學會對路面投以注意。優勢流學會只在前方有車輛時投以注意,以此避免碰撞。

實驗中我們展示了,多餘行動或是相似行動被添加到學習問題中時,競爭架構能更快在策略估計中識別出正確的行動。

我們也評估了競爭架構將會對充滿挑戰的ATARI2600測試任務帶來的益處。這個領域中,一個具有某種結構和某些超參數的RL代理(agent)必須能夠通過僅僅觀察圖像像素和遊戲分數就學會玩57種不同的遊戲。結果表明,我們的方法使對於 Mnih 等人(2015)和 van Hasselt 等人(2015)單流基線的極大提升。將優先回放(prioritized replay)與我們提出的競爭網路相結合,形成了這個流行的領域中最領先的方法。

3. 競爭網路架構

我們新架構的核心意義是,就像圖2中顯示的那樣,對於許多狀態來說,無需為每個行動選擇都估計價值。例如 Enduro 遊戲中,只有當可能發生碰撞時,才有必要了解要往左還是往右移動。在一些狀態中,了解要採取什麼行動至關重要,然而許多其他狀態下,行動選擇對於事態發展毫無影響。但對於基於自展(bootstrapping)的演算法,每個狀態下狀態價值的估計都非常重要。

為了將這種意義落到現實,我們設計了一種單個Q網路的架構(見圖1),我們將它稱為競爭網路。競爭網路的底層和原始的DQN一樣,是卷積的。但是,不像DQN在卷積層之後緊隨的是單獨一序列全連接層,我們使用了兩列(或者說流)全連接層。這些流擁有為價值函數和優勢函數提供分別估計的能力。最後,兩條流相互結合,生成了一個單獨的Q函數輸出。

5. 討論

競爭架構的優點,部分在於它高效學習狀態-價值函數的能力。競爭架構中,價值流V隨著每次Q值的更新而更新——這與單流架構中的更新有所區別,單流架構中只有一個行動的價值得到更新,其他所有行動保持不變。我們的方法中這種對於價值流更頻繁的更新使得價值流V獲得了更多分配的資源,因此帶來了對於狀態價值的更好的逼近,這對於讓基於時間差分的方法——比如Q學習——能成功運行是很有用的。實驗中反映出了這種現象:當行動數量很大時,競爭架構相對於單流Q網路的優勢也隨之擴大。

更重要的是,給定狀態下,不同Q值的差別相對於Q值的量級非常之小。例如,用 Seaquest 遊戲訓練完DDQN後,有記錄的狀態中,各狀態之間的平均行動差距(給定狀態下最好與次好行動的價值差)大約是 0.04,而對各狀態計算的平均狀態價值差不多是 15。這種在量級上的差別可能在更新中導致少量噪音,因此讓接近貪婪的策略發生急劇轉變。擁有兩條獨立流的競爭架構在這個問題上是穩健的。

5. 關聯長短時記憶

摘要

我們探索了一種新的方法,在增加記憶但不增加網路參數數量的情況下,增強循環神經網路。該系統具有基於複數向量的關聯記憶,與全息化歸表示(Holographic Reduced Representation,HRR)和長短時記憶(LSTM)網路緊密相關。使用 HRR 存儲更多的信息時,每次提取信息都會因干涉產生更多的噪音。我們的系統創建了冗餘的存儲副本,從而減少提取時的雜訊。實驗結果表明,我們的系統在多回憶任務上學習得更快。

我們解決了 LSTM 的兩個限制。一個限制是 LSTM 內存單元數目和遞歸權重矩陣的大小相關聯。具有N_h 個內存單元的LSTM 需要循環權重矩陣大小為O(N_h^2)。第二個限制是 ,學習表示像數組這樣的數據結構時,LSTM 是一個糟糕的選擇,因為它缺少在讀寫時對記憶進行索引的機制。

為了解決這個限制,此前人們將軟/硬注意機制應用於外部記憶,以增強循環神經網路。我們通過使用關聯 LSTM,提供了一種全新的定址機制,以分散式向量表示的方式對各項進行無位置存儲,實現了存放鍵值對的關聯數組,該數組基於兩個特徵:

  1. 聯合 LSTM 和 HRR 思想,能夠存儲鍵值。

  2. 直接使用 HRR 會損耗極大的存儲。我們使用冗餘存儲來增加內存的能力,降低內存訪問的噪音。

圖4. 從1到10字元的可變長度的episodic copy 任務中,每個序列的訓練成本。關聯長短時記憶能快速學習,幾乎像固定長度 episodic copy 一樣快。Unitary 循環神經網路相對於固定長度任務緩慢地收斂。

(略)

8. 結論

冗餘關聯記憶可以成為新的神經網路基礎單元。將冗餘關聯記憶整合到具有多個讀寫頭的循環構架中,能提供靈活的關聯存儲和提取、高負荷能力和並行記憶訪問。值得注意的是,關聯長短時記憶的負荷能力高於 LSTM 的負荷能力,但卻並未引入更大的權重矩陣。而且,關聯長短時記憶的更新方程可以精確地模仿 LSTM,這表明關聯長短時記憶是一般性構架,只要能使用 LSTM 的地方就能使用關聯長短時記憶


推薦閱讀:

(12)[轉載]四大相書點評(一)
判答 毒舌點評12星座(全文)
北京一同書院第二期詩友作品點評(14)
人面桃花相映紅--聯題《題都城南庄》(點評:莫非)
投行點評同業存單開閘:銀行間流動性增強 但利率市場化不會很快到來

TAG:論文 | 下載 | 點評 | 谷歌 | 2016 |