ICLR2017最新論文調研-1-《Learning to Compose Words into Sentences with Reinforcement Learning》
02-27
- background - 構建句子向量的三種方法
- RNN最後一個單詞的隱層輸出
- 樹形結構遞歸輸出
- CNN
- 沒有句法信息
- 有句法信息 - 追溯依存關係上的父節點
- motive
- 結構化信息對於構建sentence representation有用
- 將在實際任務上的效果作為強化學習的reward函數,來學習任務相關的結構信息
- method - Tree - LSTM
- 基本信息和樣例
- 輸入:句子
- 中間結果:shift和reduce操作序列(shift是向堆棧內塞節點,reduce是將堆棧內的兩個節點合併)
- 輸出:stack最後元素的隱層狀態
- 計算過程 - 公式和常用LSTM相似
- fL和fR分別表徵二叉樹上左右兩個節點
- 改進結構 - Tracking LSTM
- 怎麼訓練得到句子結構? - 句子結構是用shift/reduce操作來表示,RL會同時更新shift/reduce相關參數以及LSTM參數
- RL
- policy gradient methods
- reward函數和具體任務相關
- 分類任務
- 生成任務
- 訓練方式
- 無監督
- 半監督
- 前E輪的reward函數加入句子結構信息 - 句子結構信息是通過比較label數據的shift/reduce結構和當前句子的結構進行的
- E輪之後,只預測label
- result
- 對比方法
- 前三種是RNN,後三種是本文的方法,區別在於是否進行監督訓練
- 任務
- 結果
- 在表示句子時,引入結構化表達效果好於沒有結構
- 在樹形結構的預測過程中引入強化學習,來學習任務相關的樹形結構,對任務的結果優於預先定義的樹形結構
- 評價
- Rating : 6 7 8
- 優點
- 想法新穎,將強化學習引入NLP,並且取得不錯的效果
- 一定程度上克服了強化學習訓練速度較慢的問題 -傳統RL是每一步都做reward,本文是對一個句子序列做一次reward,但是前期優化也會非常慢
- Shift-reduce框架的引入使得樹形結構的預測目標較少 -沒有標籤信息,只有shift/reduce的二元操作預測
- 證明了結構化表達的優勢 -單純比較Tai2015的BiLSTM結果,相同參數下比本文結果還好,不過沒有看這篇論文,不清楚具體情況
- 缺點
- 訓練速度較慢,導致只能選擇較少的參數個數
- 實驗效果並沒有達到state-of-art
推薦閱讀:
TAG:深度學習DeepLearning | 自然語言處理 | 強化學習ReinforcementLearning |