《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》

05-21

來自專欄一片神鴉社鼓

論文地址與項目源碼：

http://www.isca-speech.org/archive/Interspeech_2016/pdfs/1352.PDF

HadoopIt/rnn-nlu

一、介紹

alignment is explicit in slot filling（？）

採用了不同的策略來把對齊信息和encoder-decoder結構結合起來

Air Travel Information System（ATIS）

通常intent detection和slot filling是分開進行的，前者可以被看做是一個予以分類問題，後者則是序列標註問題

本文提出的是兩個任務的joint model

encoder-decoder的主要思想是將輸入序列encode為一個dense vector，再使用這個vector來生成對應的輸出序列

attention機制可以使encoder-decoder結構可以align和decode同時進行

Attention-based encoder-decoder model is capable of mapping sequences that are of different lengths when no alignment information is given.

在slot filling任務中，alignment是很明確的（？），因此基於對齊的RNN model可以很好的work

本文想要弄清alignment information在encoder-decoder結構中可以最好的發揮作用，以及是否可以在這個加了attention的encoder-decoder結構中得到提升。以及兩種task能否同時進行

Slot filling：語料為Air Travel Information System（ATIS）

目標函數：訓練一組θ來maximize這個極大似然，x代表輸入序列

訓練結果為：在給定了一組輸入序列x的情況下，得到最佳的label序列y

RNNdecoder：

目前這種情況沒有在輸入序列和輸出序列之間加入顯式的alignment信息，RNN encoder-decoder可以對變長的句子map這種seq2seq

後面的attention機制使encoder-decoder可以學習一個soft的alignment並且同時decode

網路結構：左側為BiLSTM，在輸出位置，前後向的output進行concat

最後的前後向最後的state攜帶了原序列的整體信息，使用反向的encoder的last state來計算decoder的初始隱層狀態，decoder是單向LSTM

slot label dependency信息在forward RNN中，

使用backward RNN的last state來計算decoder的initial hidden state

訓練過程中，來自兩個decoder的costs都會傳回encoder