Deliberation Networks 閱讀筆記
04-07
考慮到,在decoder1的階段,在每生成一個詞的時候,只能利用已經生成的詞的信息,而不能利用還沒生成的詞的信息。
有想法:弄兩個decoder,decode兩次。
感覺之所以加decoder2能有作用的原因是,decoder2的時候,會把decoder1的完整輸出都作為decoder2的輸入。
decoder1的核心公式:
其中y^是decoder1階段生成的虛擬的target,如果我們分開訓練(而不是像文中一樣聯合訓練兩個decoder),y^也應該是ground truth
decoder2的核心公式:
其實是說訓練階段decoder2要有ground truth的target y的參與!
翻譯任務結果提升幅度:
也列舉了一些實際數據的例子對比,
翻譯任務結合其他技術之後:
Text Summarization結果提升:
PS,最近一直在想,有些論文也不是因為觀察到了實驗結果的問題有的,像這篇文章這樣的也是可以的。
推薦閱讀:
※我為什麼從技術角度不看好中國的智能音箱
※NLP——自然語言處理(三)text2vec包
※第三章 自然語言理解的技術分類及比較
※TextGAN 代碼閱讀筆記
※SQLnet 代碼閱讀筆記
TAG:自然語言處理 |