Learning to Skim Text 閱讀筆記

解決問題:RNN逐詞讀整個文章,速度慢

解決想法:提出跳讀方法,略過一些不想關的信息

結果主要是速度快了,看實驗結果,

在Accuracy上,Number Prediction、情感分類、文本分類三個任務Accuracy沒有顯著提升,

問答任務,在Children』s Book Test dataset上,針對NE(Named Entity),CN(Common Noun)任務,在Accuracy上有一些提升(3%-4%)。

基本字母定義:

一次讀R個詞,

最多跳N次,

一次最大跳K個詞,

具體跳讀的做法:

R個詞輸入RNN,得到一個hidden state,這個state用來somehow算出一個在1到K的值k,下一次從R+k開始輸入下R個詞給RNN,

最後一個hidden state被用來做具體任務,比如文本分類就softmax出分類,QA就用來在候選答案中選一個,

因為梯度離散沒法回傳,用的強化學習的REINFORCE演算法,這塊最好細看論文。所以打算應用這個skim手段的同學還得考慮實現這個REINFORCE演算法,有挑戰。如何能像《Neural Response Generation via GAN with an Approximate Embedding Layer》這篇文章一樣找到方法不用REINFORCE解決梯度回傳問題,也許是個創新點

總結:考慮Accuracy主要只在QA上有提升,所以可以試試應用到計算機閱讀理解task

推薦閱讀:

Learning Explanatory Rules from Noisy Data 閱讀筆記4
RNN基本模型匯總(deeplearning.ai)
學習筆記CB002:詞幹提取、詞性標註、中文切詞、文檔分類
學習筆記CB004:提問、檢索、回答、NLPIR
AI+互聯網金融--入職半年總結

TAG:自然語言處理 |