Deliberation Networks 閱讀筆記

04-07

考慮到，在decoder1的階段，在每生成一個詞的時候，只能利用已經生成的詞的信息，而不能利用還沒生成的詞的信息。

有想法：弄兩個decoder，decode兩次。

感覺之所以加decoder2能有作用的原因是，decoder2的時候，會把decoder1的完整輸出都作為decoder2的輸入。

decoder1的核心公式：

其中y^是decoder1階段生成的虛擬的target，如果我們分開訓練（而不是像文中一樣聯合訓練兩個decoder），y^也應該是ground truth

decoder2的核心公式：

其實是說訓練階段decoder2要有ground truth的target y的參與！

翻譯任務結果提升幅度：

也列舉了一些實際數據的例子對比，

翻譯任務結合其他技術之後：

Text Summarization結果提升：

PS，最近一直在想，有些論文也不是因為觀察到了實驗結果的問題有的，像這篇文章這樣的也是可以的。