層次化是長序列的未來 Hierarchical Attention Networks for Document Classification

層次化是長序列的未來 Hierarchical Attention Networks for Document Classification

來自專欄 Pieces of Knowledgehttp://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf?

www.cs.cmu.edu

本文針對文本分類任務提出了一個層次化attention機制模型(HAN),有兩個顯著的特點:

(1)採用「詞-句子-文章」的層次化結構來表示一篇文本

(2)該模型有兩個層次的attention機制,分別存在於詞層次(word level)和句子層次(sentence level)

這裡面使用了GRU

隱藏層有兩個門(gate),重置門(reset gate)r_{t} 和更新門(update gate)z_{t}

更新門(update gate)z_{t}

然後用了層次化的attention

為了衡量單詞的重要性,我們用u_{it}和一個隨機初始化的上下文向量u_{w}的相似度來表示

然後經過softmax操作獲得了一個歸一化的attention權重矩陣alpha _{it}

代表句子i中第t個詞的權重

有了attention權重矩陣以後,我們可以將句子向量s_{i}看作組成這些句子的詞向量的加權求和

這裡的上下文向量u_{w}是在訓練網路的過程中學習獲得的。我們可以把u_{w}當作一種詢問的高級表示,比如「哪些詞含有比較重要的信息?」

給定句子 s_i , 我們得到了相應的句子表示

這樣獲得的表示可以包含兩個方向的上下文信息

我們獲得了整篇文章的向量表示v,最後可以使用全鏈接的softmax層進行分類


推薦閱讀:

機器學習(吳恩達)之學習筆記2--淺層神經網路
【Neural Networks and Deep Learning】4.神經網路可以計算任何函數的可視化證明(1)
圖像識別鑒黃之二「阿里綠網VS網易易盾VS圖普科技」
它的梯度去哪兒了?
神經網路是如何學習的(中)

TAG:機器學習 | 深度學習DeepLearning | 神經網路 |