Character-Aware Neural Language Models

01-28

本篇分享的文章是Character-Aware Neural Language Models，作者是Yoon Kim、Alexander M. Rush。兩位是HarvardNLP組的學生和老師，前者貢獻了一些有意義的torch代碼，比如seq2seq+attn，後者第一次將seq2seq的模型應用到了文本摘要。

卷積神經網路之前常常用在計算機視覺領域，用來在圖像中尋找features，前幾年被研究者應用到了nlp任務中，在文本分類等任務中取得了不錯的效果。傳統的word embedding對低頻詞並沒有太好的效果，而本文將char embedding作為CNN的輸入，用CNN的輸出經過一層highway層處理表示word embedding，然後作為RNNLM的輸入，避免了這個問題。而且之前的神經網路語言模型中絕大多數需要優化的參數是word embedding，而本文的模型則會將優化參數減少非常多。

本文模型的架構圖如下：

可以分為三層，一層是charCNN，通過構建一個char embedding矩陣，將word表示成matrix，和圖像類似，輸入到CNN模型中提取經過filter層和max pooling層得到一個輸出表示，然後將該輸出放到Highway Network中，得到一個處理後的效果更好的word embedding作為輸出，在第三層中是一個典型的RNN模型，後面的處理與傳統方法一樣了。

這裡需要學習的參數中char embedding規模非常小，相對比之前的模型有非常明顯的優勢。這裡需要說明的一點是HighWay Network，在Rupesh Kumar Srivastava的paper Training Very Deep Networks被提出，受lstm解決rnn梯度衰減問題的思路啟發，用來解決訓練very deep networks，因為模型越深效果越好，但越難訓練。本文的HighWay層如下：

其中

t被稱為transform gate，1-t被稱為carry gate。

最終的實驗證明，使用HighWay層效果比使用普通的MLP或者不使用該層效果更好。

本文通過將傳統的word embedding降級到char level，避免了大規模的embedding計算和低頻詞的問題，通過Highway network技術構建更深的網路，得到了不錯的結果。

PaperWeekly，每周會分享N篇NLP領域的paper，內容包括筆記和評價，歡迎大家掃碼關注。