層次化是長序列的未來 Hierarchical Attention Networks for Document Classification

05-21

來自專欄 Pieces of Knowledgehttp://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf?

www.cs.cmu.edu

本文針對文本分類任務提出了一個層次化attention機制模型(HAN)，有兩個顯著的特點：

(1)採用「詞-句子-文章」的層次化結構來表示一篇文本

(2)該模型有兩個層次的attention機制，分別存在於詞層次(word level)和句子層次(sentence level)

這裡面使用了GRU

隱藏層有兩個門(gate)，重置門(reset gate) $r_{t}$ 和更新門(update gate) $z_{t}$

更新門(update gate) $z_{t}$

然後用了層次化的attention

為了衡量單詞的重要性,我們用 $u_{it}$ 和一個隨機初始化的上下文向量 $u_{w}$ 的相似度來表示

然後經過softmax操作獲得了一個歸一化的attention權重矩陣 $alpha _{it}$ ，

代表句子i中第t個詞的權重

有了attention權重矩陣以後，我們可以將句子向量 $s_{i}$ 看作組成這些句子的詞向量的加權求和

這裡的上下文向量 $u_{w}$ 是在訓練網路的過程中學習獲得的。我們可以把 $u_{w}$ 當作一種詢問的高級表示，比如「哪些詞含有比較重要的信息？」

給定句子 s_i , 我們得到了相應的句子表示

這樣獲得的表示可以包含兩個方向的上下文信息

我們獲得了整篇文章的向量表示 $v$ ,最後可以使用全鏈接的softmax層進行分類