《FHR for CSP》閱讀筆記

《FHR for CSP》閱讀筆記

來自專欄西土城的搬磚日常6 人贊了文章

轉載請註明出處:西土城的搬磚日常

原文鏈接:Focused Hierarchical RNNs for Conditional Sequence Processing

來源:ICML 2018

問題介紹

Attention機制在現在的很多神經網路中都有一定的作用,不僅是對於引入相關性信息,而且對於網路梯度的傳遞也有幫組(RNN),但是現在的大多數的Attention都是以加權的形式,本文提出了一個條件式的層級注意力RNN編碼器來優化序列處理問題。

相關工作

FHE:

本文提出的FHE(Focused Hierarchical Encoder)由三層構成:

1、Lower-LSTM:下層的lstm,處理輸入的序列。

其中 x_{t} 為輸入, h_{t-1}^{l} 為隱層state, c_{t-1}^{l} 為cell state。

2、Conditional Boundary Gate:中間的控制門,控制當前來自Lower-LSTM的隱層是否介入下一層。

其中LReLU為leaky ReLU, z_{t} 來自於lower-lstm的隱層和來自外部question/context信息的整合。

其中 q 為外部信息, h 為隱層向量。

3、Upper-LSTM:上層的lstm,接受通過控制門的信息。

首先生成 	ilde{h_{t}^{u}}	ilde{c_{t}^{u}} ,然後用上一步的 b_{t} 作為伯努利分布的參數,來抽樣一個binary的 	ilde{b_{t}} ,作為控制門,來更新upper-lstm的隱層狀態。

訓練:

因為中間的控制層是離散的,所以採用強化學習的策略進行更新參數,對於序列的控制門輸出:

激勵函數為:

除此之外對於控制門還加入了稀疏性控制:

目的是為了避免控制門始終保持open的狀態(實際中可能會這樣)而加入的懲罰項,其中 T 為序列的長度, eta>0,gammain(0,1] 都為超參數。

實驗結果

本文在合成數據集和公共問答數據集上做了實驗。

Picking Task:給定一個序列,和一個k值,label為前k個中頻數最大的一個。

作為對比,作者使用了LSTM1和LSTM2,分別為一層LSTM和兩層LSTM,並對於FHE使用了兩種訓練方法,一種講 eta,gamma 固定為較小的數不可更新,一種是先固定,等準確率到了某一指標後開始更新。

結果:

Large Scale Natural Language QA Tasks:在實際的問答任務MS MARCO和SearchQA上進行了實驗。

總結

本文的思路來源於對於attention信息的思考,現在大部分的attention都是權重形式,本文採用了概率抽樣硬階段的方式,在保證指標的同時,還能減少計算量(隱變數的稀疏),與大行其道的大網路大數據的構建模式相比,精簡信息精鍊信息或許也是一條值得思考的路。


推薦閱讀:

經典論文解讀 | 基於Freebase的問答研究

TAG:自然語言處理 | 問答系統 |