層次化是長序列的未來 Hierarchical Attention Networks for Document Classification
來自專欄 Pieces of Knowledgehttp://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf
本文針對文本分類任務提出了一個層次化attention機制模型(HAN),有兩個顯著的特點:
(1)採用「詞-句子-文章」的層次化結構來表示一篇文本
(2)該模型有兩個層次的attention機制,分別存在於詞層次(word level)和句子層次(sentence level)
這裡面使用了GRU
隱藏層有兩個門(gate),重置門(reset gate)和更新門(update gate)
更新門(update gate)
然後用了層次化的attention
為了衡量單詞的重要性,我們用和一個隨機初始化的上下文向量的相似度來表示
然後經過softmax操作獲得了一個歸一化的attention權重矩陣,
代表句子i中第t個詞的權重
有了attention權重矩陣以後,我們可以將句子向量看作組成這些句子的詞向量的加權求和
這裡的上下文向量是在訓練網路的過程中學習獲得的。我們可以把當作一種詢問的高級表示,比如「哪些詞含有比較重要的信息?」
給定句子 s_i , 我們得到了相應的句子表示
這樣獲得的表示可以包含兩個方向的上下文信息
我們獲得了整篇文章的向量表示,最後可以使用全鏈接的softmax層進行分類
推薦閱讀:
※機器學習(吳恩達)之學習筆記2--淺層神經網路
※【Neural Networks and Deep Learning】4.神經網路可以計算任何函數的可視化證明(1)
※圖像識別鑒黃之二「阿里綠網VS網易易盾VS圖普科技」
※它的梯度去哪兒了?
※神經網路是如何學習的(中)
TAG:機器學習 | 深度學習DeepLearning | 神經網路 |