《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》
來自專欄 一片神鴉社鼓
論文地址與項目源碼:
http://www.isca-speech.org/archive/Interspeech_2016/pdfs/1352.PDF
HadoopIt/rnn-nlu
一、介紹
alignment is explicit in slot filling(?)
採用了不同的策略來把對齊信息和encoder-decoder結構結合起來
Air Travel Information System(ATIS)
通常intent detection和slot filling是分開進行的,前者可以被看做是一個予以分類問題,後者則是序列標註問題
本文提出的是兩個任務的joint model
encoder-decoder的主要思想是將輸入序列encode為一個dense vector,再使用這個vector來生成對應的輸出序列
attention機制可以使encoder-decoder結構可以align和decode同時進行
Attention-based encoder-decoder model is capable of mapping sequences that are of different lengths when no alignment information is given.
在slot filling任務中,alignment是很明確的(?),因此基於對齊的RNN model可以很好的work
本文想要弄清alignment information在encoder-decoder結構中可以最好的發揮作用,以及是否可以在這個加了attention的encoder-decoder結構中得到提升。以及兩種task能否同時進行
二、本文主要工作、模型
Slot filling:語料為Air Travel Information System(ATIS)
目標函數:訓練一組θ來maximize這個極大似然,x代表輸入序列
訓練結果為:在給定了一組輸入序列x的情況下,得到最佳的label序列y
RNNdecoder:
目前這種情況沒有在輸入序列和輸出序列之間加入顯式的alignment信息,RNN encoder-decoder可以對變長的句子map這種seq2seq
後面的attention機制使encoder-decoder可以學習一個soft的alignment並且同時decode
網路結構:左側為BiLSTM,在輸出位置,前後向的output進行concat
最後的前後向最後的state攜帶了原序列的整體信息,使用反向的encoder的last state來計算decoder的初始隱層狀態,decoder是單向LSTM
slot label dependency信息在forward RNN中,
使用backward RNN的last state來計算decoder的initial hidden state
訓練過程中,來自兩個decoder的costs都會傳回encoder
三、實驗(1數據2實驗結果3視圖、實驗分析等)
四、總結
推薦閱讀:
※《attention is all you need》解讀
※AI+互聯網金融--入職半年總結
※機器學習:生動理解TF-IDF演算法
※一文介紹3篇無需Proposal的實例分割論文
TAG:自然語言處理 |