基於構建對偶任務的半監督學習調研-1-《Dual Learning for Machine Translation》

  • motive
    • NMT訓練需要大量標註數據
    • 對偶學習可以在儘可能少的標註數據情況下仍然有好的效果
  • method

      • 1、輸入:數據集DA,DB;弱翻譯器ΘAB與ΘBA;強語言模型LMA與LMB;超參數α,K, γ1,t,γ2,t;
      • 2、對於Alice(熟悉English)來說,先從DA選出一個English的句子X,然後經過弱翻譯器ΘAB將X翻譯為B語言(French),得到Xmid
      • 3、對於Bob(熟悉French)來說,看到Xmid,然後使用強語言模型LMB檢查Xmid的好壞,從而得到對弱翻譯器ΘAB的反饋
      • 4、Bob再將Xmid使用弱翻譯器ΘBA翻譯為A語言(English),得到X』
      • 5、Alice使用強語言模型LMA檢查X』以及對比X與X』的差距,從而得到對弱翻譯器ΘBA的反饋
      • 6、接著對DB的句子也執行②-⑤操作,Alice和Bob交替玩這個game,從而不斷修正弱翻譯器ΘAB與ΘBA,得到強翻譯器
      • 實際過程中,每次翻譯挑選top-k個候選,取它們的梯度平均值來近似真實梯度值
      • 實現流程:

    • result
      • 實驗設置
        • 預處理:將包含非常用的30K個詞的句子去掉,每個詞用620維向量表示
        • 評測方法:BLEU
        • baseline:傳統的NMT,pseudo-NMT(用NMT生成雙語語料用於訓練)
        • 本文系統:Large(全部雙語語料12M進行訓練),Small(只用10%的雙語語料進行訓練)
        • 實驗細節:訓練使用soft-landing策略,對於每個mini-batch,使用一半的雙語語料,一半的單語語料;逐步增加單語語料的比例,直到雙語數據用完
      • 結果統計
        • 翻譯

          • 1、對偶系統的效果相比基線有明顯提升
          • 2、只用10%的數據進行訓練,和全量數據訓練的基線系統效果相當
        • Reconstruction

          • 1、對偶系統的效果相比基線有明顯提升
          • 2、只用10%的數據進行訓練,比全量數據訓練的基線系統效果更好

    推薦閱讀:

    TAG:自然語言處理 | 機器翻譯 | 深度學習DeepLearning |