《Dialogue Act Sequence Labeling using Hierarchical encoder with CRF》閱讀筆記

04-21

論文來源：AAAI2018
原文鏈接
轉載請註明出處：學習ML的皮皮蝦

本文要解決的問題主要是對話動作的識別問題，對話動作（Dialogue Acts ，簡稱DA）是指在對話中說話人在說這些話語時的意圖。 DA的識別簡化了對話語的解釋,能夠幫助機器理解對話。DAs的主要應用之一是用來構建一個自然語言對話系統，了解DA過去的話語有助於對當前的話語預測走向，從而當前回合生成的話語添加了限制條件。例如，如果之前的話語是問候類型，那麼下一個話語最有可能是相同類型的，即問候語。下圖展示的一個會話片段，顯示了這些DA之間的依賴關係。

本文將DA識別的問題看做為一個序列標註的問題，通過採用bi-lstm作為基礎單元的層級RNN網路提取特徵（詞級別，話語級別，會話級別，個人認為這裡因為多輪對話本身相對豐富的原因無字元級別），頂層通過CRF層將每個話語識別為對應的DA。採用CRF作為輸出層的原因是不僅能夠捕捉到語句之間的依存關係，還能夠兼顧到DA之間的依存關係（作者論文的立足點）。實驗證明在Switchboard和Meeting Recorder Dialogue Act數據及上分別比SoTA提高了2.2%,4.1%。

本文的主要貢獻：

採用了一個層級的Bi-LSTM-CRF模型，同時捕捉DA和話語之間的依存關係；
在兩個數據及上做了對比，其中一個數據集上已經很接近人工標註了；
分別做了加入語言特徵和intra-attention加入原始文本的方法，實驗結果顯示除了收斂速度加快對模型提升並沒有什麼用。

Models

整個回話可以被看做一個非常長的詞鏈，這樣會帶來在極限長度下的題圖消失/爆炸問題。為了消除這個問題，本文採用了層級的遞歸編碼。編碼器第一層採用Bi-LSTM對話語中的每個單詞進行編碼，通過一個LastPooling(最後一個節點的隱層神經元狀態理論上編碼了完全的的句子語義)，輸入第二個Bi-LSTM層作為對話層級的編碼，並將其輸出作為CRF層的輸入，以捕捉標籤間的依賴關係，同時捕捉話語和DA標籤間的依存關係。

Hierarchical Recurrent Encoder

對於每個話語 $u_j$ 中包含的單詞 $w_k$ ，進行如下操作：