基於深度學習的文本分類

03-07

曾幾何時， SVM一統江湖， Lecun見證的Vapnik和Larry Jackel的世紀之賭，從95年堅持到2000年依然巋然不動。但是再過10年，到2010年，深度學習橫空出世。 SVM在圖像，文本這些高維數據領域全面停滯。反倒是Lecun的CNN網路一路挺進！

「基於深度學習的圖像目標檢測」提到，在圖像分類和目標檢測領域基本全是CNN網路。那麼文本分類領域呢？

前言

傳統機器學習時代的主流分類器主要是基於Naive Bayes，Maximum Entropy， K-NN，和SVM的。其中分類中還有些經典特徵模型：經典距離定義模型Vector Space Model（Rocchio）， N-grams等等。其中SVM一直保持不錯的效果！

一，待選模型

本人嘗試過使用word2vec詞嵌入+Boosting和Text-CNN模型的對比，發現效果不如Text-CNN。或許和圖像檢測裡面一樣， Fast R-CNN比SPPNet優的一點就是整合起來聯動的參數優化。所以這裡也默認，利用詞嵌入這樣的2階段的模型效果不會比端到端的聯動參數學習的模型效果好。

1）Text-RNN

就是對文本看成編碼後的信息流，然後用RNN來編碼：

復旦大學 Recurrent Neural Network for Text Classification with Multi-Task Learning發表在了ijca2016上，目前有40次引用了。雖然著重點在Multi-Task Learning，但是可以參考下下。

2) Text-CNN

哈佛的PhD帥哥Yoon Kim的「Convolutional Neural Networks for Sentence Classification」文章引用率1700多次了。已經成為文本分類中深度學習的經典！

但是在這片2014年的文章中， CNN是基於Pretrained的Word2vec的結果去做的，其實效果還沒有完全超越SVM。

但是現在更為流行的是直接基於帶參數的Embedding去做，這樣效果會更好！

來自University of Texas at Austin的張曄，在他2016年的文章 A Sensitivity Analysis of (and Practitioners』 Guide to) Convolutional Neural Networks for Sentence Classification，詳細介紹了一些調參數的經驗，也有超過150的引用率，自從調參數成為很好的職業（Amazon SageMaker啟示錄），調參數也成為了很好的論文。

這片文章裡面給出一個單層CNN進行測試典型參數的使用：

* 詞嵌入維度： 300維，主要針對預訓練

* Filter大小：7的filter最優，不同數據集上最優組合不一致，但相差不多

* Filter的個數：推薦100 ~ 600個，最好靠近600

* 激活函數：Iden, ReLU， tanh比sigmoid,cube要好，默認ReLU好。

* Pooling技術：推薦1-max pooling，不要用average，效果不好。

* 正則化：dropout rate不要超過0.5， l2正則化效果不明確。

最後強調下， filter大小和數量可以調一調，其他調不調意義一般。

3）EntNet

LeCun的團隊在ICLR2017上提出了Recurrent Entity Network，簡稱為EntNet，但是EntNet是為了QA問題提出來的，對應論文為Tracking the World State with Recurrent Entity Networks，有28次引用。

EntNet延續了Facebook基於Memory Network（MemNN）在QA問題上的模型和成功經驗。 MemNN相比RNN或者LSTM來說，強調專門的外部存儲來保存以前的樣本。

最簡單的Memory實現，可以是輸入數據的自己的某種特徵值的表達，譬如和問題q的點積的Softmax輸出。

也可以變得複雜，可以多層次迭代。

還可以更複雜，變成KV-MemNN，深化對問題和答案兩邊的記憶的存儲。

也可以引入Episodic Memory Module變形成Dynamic Memory Networks（DMN）。

一般通過GRU的attention網路實現，並且也可以雙向多通道。

如果加上控制網路和定址讀寫機制，就是Neural Turing Machines（NTM），所以NTM可以說是DMN的升級版。

和MemNN相比，除了記憶狀態的延續，還有控制狀態的延續。

在NTM基礎上細化具體的地址讀寫機制和記憶鏈接機制，就會得到Differential Neural Computer (DNC)， DNC使得性能和穩定都比LSTM和MemNN好很多。

而EntNet本質就是希望達到DNC的並行模式，能夠並行更新記憶地址。

一種簡單的實現就是用多個RNN並行來記錄多個Memory Slot，所以又叫Recurrent Entity。

對於QA的問題， EntNet要比DNC更加穩定和準確。

當我們把QA問題弱化到A是句子的分類標籤的時候，我們就能用到文本分類問題上，有點點殺雞用牛刀的感覺。

4）HAN

Alex Smola的團隊提出了Hierarchical Attention Networks（HAN）做文本分類，他們的論文Hierarchical Attention Networks for Document Classification發表在NAACL16上。有接近200次的應用。

這樣兩層分層，就可以從字組成句子，再進一步句子組成段落。然後就訓練分類網路Softmax。

5）RCNN

自動化所的趙軍老師團隊的論文Recurrent Convolutional Neural Networks（RCNN） for Text Classification，發表在AAAI2015上，有超過200次的引用。

通過Recurrent的思想，定義了left context和right context模型。

然後基於拼接操作得到輸入，然後利用tanh激活得到隱藏層的y。

其實仔細觀察很想雙向RNN的功能。

6）Dynamic Memory Networks

斯坦福Manning組的博士Richard Socher，畢業後成立了 MetaMind公司，做了CEO的Richard Socher帶領團隊里的Ankit Kumar 在ICML2016上發表了基於DMN來做QA的論文Ask Me Anything: Dynamic Memory Networks for Natural Language Processing，這麼牛掰的名字擁有300的引用量。