《FHR for CSP》閱讀筆記
來自專欄西土城的搬磚日常6 人贊了文章
轉載請註明出處:西土城的搬磚日常
原文鏈接:Focused Hierarchical RNNs for Conditional Sequence Processing來源:ICML 2018
問題介紹
Attention機制在現在的很多神經網路中都有一定的作用,不僅是對於引入相關性信息,而且對於網路梯度的傳遞也有幫組(RNN),但是現在的大多數的Attention都是以加權的形式,本文提出了一個條件式的層級注意力RNN編碼器來優化序列處理問題。
相關工作
FHE:
本文提出的FHE(Focused Hierarchical Encoder)由三層構成:
1、Lower-LSTM:下層的lstm,處理輸入的序列。
其中 為輸入, 為隱層state, 為cell state。
2、Conditional Boundary Gate:中間的控制門,控制當前來自Lower-LSTM的隱層是否介入下一層。
其中LReLU為leaky ReLU, 來自於lower-lstm的隱層和來自外部question/context信息的整合。
其中 為外部信息, 為隱層向量。
3、Upper-LSTM:上層的lstm,接受通過控制門的信息。
首先生成 和 ,然後用上一步的 作為伯努利分布的參數,來抽樣一個binary的 ,作為控制門,來更新upper-lstm的隱層狀態。
訓練:
因為中間的控制層是離散的,所以採用強化學習的策略進行更新參數,對於序列的控制門輸出:
激勵函數為:
除此之外對於控制門還加入了稀疏性控制:
目的是為了避免控制門始終保持open的狀態(實際中可能會這樣)而加入的懲罰項,其中 為序列的長度, 都為超參數。
實驗結果
本文在合成數據集和公共問答數據集上做了實驗。
Picking Task:給定一個序列,和一個k值,label為前k個中頻數最大的一個。
作為對比,作者使用了LSTM1和LSTM2,分別為一層LSTM和兩層LSTM,並對於FHE使用了兩種訓練方法,一種講 固定為較小的數不可更新,一種是先固定,等準確率到了某一指標後開始更新。
結果:
Large Scale Natural Language QA Tasks:在實際的問答任務MS MARCO和SearchQA上進行了實驗。
總結
本文的思路來源於對於attention信息的思考,現在大部分的attention都是權重形式,本文採用了概率抽樣硬階段的方式,在保證指標的同時,還能減少計算量(隱變數的稀疏),與大行其道的大網路大數據的構建模式相比,精簡信息精鍊信息或許也是一條值得思考的路。
推薦閱讀: