基於深度學習技術的文本分類技術比起傳統的文本分類模型,例如 LR,SVM 等,有什麼優勢呢?
02-07
本題已加入圓桌 ? 數據挖掘應用,更多「數據挖掘」相關的話題歡迎關注討論
個人拙見:首先,最明顯的優勢,深度學習不需要人工手動的提取文本的特徵,它可以自動的獲取基礎特徵並組合為高級的特徵,訓練模型獲得文本特徵與目標分類之間的關係,省去了使用TF-IDF等提取句子的關鍵詞構建特徵工程的過程,實現端到端。其次,相比傳統的N-gram模型而言,深度學習中可以更好的利用詞序的特徵,CNN的文本分類模型中的filter的size的大小可以當做是一種類似於N-gram的方式,而RNN(LSTM)則可以利用更長的詞序,配合Attention機制則可以通過加權矩陣體現句子中的核心辭彙部位,attention最早是用於自動翻譯中實現對應辭彙對齊及可視化的功能。
1.免去了人工特徵提取的過程。整個深度網路具備了特徵抽取的能力,因此可以一步到位。
2.深度學習中可以更好的利用詞序的特徵,而傳統的分類方法沒有用到整個。
3.隨著樣本的增加和網路深度的增加,深度學習的分類精度會更高。
推薦閱讀:
TAG:演算法 | 文本分類 | 深度學習DeepLearning | 知乎演算法大賽 |