Deliberation Networks 閱讀筆記

考慮到,在decoder1的階段,在每生成一個詞的時候,只能利用已經生成的詞的信息,而不能利用還沒生成的詞的信息。

有想法:弄兩個decoder,decode兩次。

感覺之所以加decoder2能有作用的原因是,decoder2的時候,會把decoder1的完整輸出都作為decoder2的輸入。

decoder1的核心公式:

其中y^是decoder1階段生成的虛擬的target,如果我們分開訓練(而不是像文中一樣聯合訓練兩個decoder),y^也應該是ground truth

decoder2的核心公式:

其實是說訓練階段decoder2要有ground truth的target y的參與!

翻譯任務結果提升幅度:

也列舉了一些實際數據的例子對比,

翻譯任務結合其他技術之後:

Text Summarization結果提升:

PS,最近一直在想,有些論文也不是因為觀察到了實驗結果的問題有的,像這篇文章這樣的也是可以的。


推薦閱讀:

我為什麼從技術角度不看好中國的智能音箱
NLP——自然語言處理(三)text2vec包
第三章 自然語言理解的技術分類及比較
TextGAN 代碼閱讀筆記
SQLnet 代碼閱讀筆記

TAG:自然語言處理 |