Character-Aware Neural Language Models

本篇分享的文章是Character-Aware Neural Language Models,作者是Yoon Kim、Alexander M. Rush。兩位是HarvardNLP組的學生和老師,前者貢獻了一些有意義的torch代碼,比如seq2seq+attn,後者第一次將seq2seq的模型應用到了文本摘要。

卷積神經網路之前常常用在計算機視覺領域,用來在圖像中尋找features,前幾年被研究者應用到了nlp任務中,在文本分類等任務中取得了不錯的效果。傳統的word embedding對低頻詞並沒有太好的效果,而本文將char embedding作為CNN的輸入,用CNN的輸出經過一層highway層處理表示word embedding,然後作為RNNLM的輸入,避免了這個問題。而且之前的神經網路語言模型中絕大多數需要優化的參數是word embedding,而本文的模型則會將優化參數減少非常多。

本文模型的架構圖如下:

可以分為三層,一層是charCNN,通過構建一個char embedding矩陣,將word表示成matrix,和圖像類似,輸入到CNN模型中提取經過filter層和max pooling層得到一個輸出表示,然後將該輸出放到Highway Network中,得到一個處理後的效果更好的word embedding作為輸出,在第三層中是一個典型的RNN模型,後面的處理與傳統方法一樣了。

這裡需要學習的參數中char embedding規模非常小,相對比之前的模型有非常明顯的優勢。這裡需要說明的一點是HighWay Network,在Rupesh Kumar Srivastava的paper Training Very Deep Networks被提出,受lstm解決rnn梯度衰減問題的思路啟發,用來解決訓練very deep networks,因為模型越深效果越好,但越難訓練。本文的HighWay層如下:

其中

t被稱為transform gate,1-t被稱為carry gate。

最終的實驗證明,使用HighWay層效果比使用普通的MLP或者不使用該層效果更好。

本文通過將傳統的word embedding降級到char level,避免了大規模的embedding計算和低頻詞的問題,通過Highway network技術構建更深的網路,得到了不錯的結果。

PaperWeekly,每周會分享N篇NLP領域的paper,內容包括筆記和評價,歡迎大家掃碼關注。

推薦閱讀:

<模型匯總_5>生成對抗網路GAN及其變體SGAN_WGAN_CGAN_DCGAN_InfoGAN_StackGAN
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF 閱讀筆記
網路表示學習最新進展及其應用 | 直播預告·PhD Talk #10
來自一個計算語言學的不完全指南

TAG:自然语言处理 | 深度学习DeepLearning |