ICLR2017最新論文調研-1-《Learning to Compose Words into Sentences with Reinforcement Learning》

  • background - 構建句子向量的三種方法
    • RNN最後一個單詞的隱層輸出
    • 樹形結構遞歸輸出
    • CNN
      • 沒有句法信息

      • 有句法信息 - 追溯依存關係上的父節點

  • motive
    • 結構化信息對於構建sentence representation有用
    • 將在實際任務上的效果作為強化學習的reward函數,來學習任務相關的結構信息
  • method - Tree - LSTM
    • 基本信息和樣例
      • 輸入:句子
      • 中間結果:shift和reduce操作序列(shift是向堆棧內塞節點,reduce是將堆棧內的兩個節點合併)
      • 輸出:stack最後元素的隱層狀態

    • 計算過程 - 公式和常用LSTM相似

        • fL和fR分別表徵二叉樹上左右兩個節點
      • 改進結構 - Tracking LSTM

          • 怎麼訓練得到句子結構? - 句子結構是用shift/reduce操作來表示,RL會同時更新shift/reduce相關參數以及LSTM參數
        • RL
          • policy gradient methods
          • reward函數和具體任務相關
            • 分類任務

            • 生成任務

          • 訓練方式
            • 無監督
            • 半監督
              • 前E輪的reward函數加入句子結構信息 - 句子結構信息是通過比較label數據的shift/reduce結構和當前句子的結構進行的

              • E輪之後,只預測label

      • result
        • 對比方法

            • 前三種是RNN,後三種是本文的方法,區別在於是否進行監督訓練
          • 任務

            • 結果
              • 在表示句子時,引入結構化表達效果好於沒有結構
              • 在樹形結構的預測過程中引入強化學習,來學習任務相關的樹形結構,對任務的結果優於預先定義的樹形結構
            • 評價
              • Rating : 6 7 8
              • 優點
                • 想法新穎,將強化學習引入NLP,並且取得不錯的效果
                • 一定程度上克服了強化學習訓練速度較慢的問題 -傳統RL是每一步都做reward,本文是對一個句子序列做一次reward,但是前期優化也會非常慢
                • Shift-reduce框架的引入使得樹形結構的預測目標較少 -沒有標籤信息,只有shift/reduce的二元操作預測
                • 證明了結構化表達的優勢 -單純比較Tai2015的BiLSTM結果,相同參數下比本文結果還好,不過沒有看這篇論文,不清楚具體情況
              • 缺點
                • 訓練速度較慢,導致只能選擇較少的參數個數
                • 實驗效果並沒有達到state-of-art

          推薦閱讀:

          TAG:深度學習DeepLearning | 自然語言處理 | 強化學習ReinforcementLearning |