基於構建對偶任務的半監督學習調研-1-《Dual Learning for Machine Translation》
03-02
- motive
- NMT訓練需要大量標註數據
- 對偶學習可以在儘可能少的標註數據情況下仍然有好的效果
- method
- 1、輸入:數據集DA,DB;弱翻譯器ΘAB與ΘBA;強語言模型LMA與LMB;超參數α,K, γ1,t,γ2,t;
- 2、對於Alice(熟悉English)來說,先從DA選出一個English的句子X,然後經過弱翻譯器ΘAB將X翻譯為B語言(French),得到Xmid
- 3、對於Bob(熟悉French)來說,看到Xmid,然後使用強語言模型LMB檢查Xmid的好壞,從而得到對弱翻譯器ΘAB的反饋
- 4、Bob再將Xmid使用弱翻譯器ΘBA翻譯為A語言(English),得到X』
- 5、Alice使用強語言模型LMA檢查X』以及對比X與X』的差距,從而得到對弱翻譯器ΘBA的反饋
- 6、接著對DB的句子也執行②-⑤操作,Alice和Bob交替玩這個game,從而不斷修正弱翻譯器ΘAB與ΘBA,得到強翻譯器
- 實際過程中,每次翻譯挑選top-k個候選,取它們的梯度平均值來近似真實梯度值
- 實現流程:
- result
- 實驗設置
- 預處理:將包含非常用的30K個詞的句子去掉,每個詞用620維向量表示
- 評測方法:BLEU
- baseline:傳統的NMT,pseudo-NMT(用NMT生成雙語語料用於訓練)
- 本文系統:Large(全部雙語語料12M進行訓練),Small(只用10%的雙語語料進行訓練)
- 實驗細節:訓練使用soft-landing策略,對於每個mini-batch,使用一半的雙語語料,一半的單語語料;逐步增加單語語料的比例,直到雙語數據用完
- 結果統計
- 翻譯
- 1、對偶系統的效果相比基線有明顯提升
- 2、只用10%的數據進行訓練,和全量數據訓練的基線系統效果相當
- Reconstruction
- 1、對偶系統的效果相比基線有明顯提升
- 2、只用10%的數據進行訓練,比全量數據訓練的基線系統效果更好
推薦閱讀:
TAG:自然語言處理 | 機器翻譯 | 深度學習DeepLearning |