Neural Machine Translation with Word Predictions 閱讀筆記

idea:seq2seq做機器翻譯同時預測一個小辭彙表,

和多任務學習很像

Rnn-based encoder-decoder approach with word frequency estimation 這篇文章也是要預測詞表,但不同於此文

因為詞表預測過去的研究主要是決定詞的選擇和目標詞表的限定,而此文將詞表預測作為模型訓練的控制機制

Word Prediction for the Initial State

注意到encoder給decoder的initial state理論上是包含所有詞表信息的

為initial state的詞表預測 也可看做是對encoder的提升,用這個表示:

然後assume each target word is independent of each other——這個就表明是個辭彙集合的意思吧

其中y是目標詞序列

f是FC後加softmax

t是FC後加tanh

c是attention相關

Word Predictions for Decoders Hidden States

decoder的hidden states也可以用來預測辭彙表

The only difference is that we remove the already generated words from the prediction task

公式:

loss函數定義

這兩個loss和NMT原本的loss相加


推薦閱讀:

ICLR2017最新論文調研-1-《Learning to Compose Words into Sentences with Reinforcement Learning》
AI+互聯網金融--入職半年總結
DeepPath 閱讀筆記
Learning Explanatory Rules from Noisy Data 閱讀筆記4
tf.nn.nce_loss 來自一篇古老的文章

TAG:自然語言處理 | 深度學習DeepLearning |