文本分析上nltk和snownlp有什麼區別,哪個更適合,有什麼好的學習資源?
最近公司要求做淘寶評論的文本分析,這方面就知道個jieba,請教一下各位在這方面有經驗的大神,我應該往什麼方向學習深入?
最近公司要求做淘寶評論的文本分析,這方面就知道個jieba,請教一下各位在這方面有經驗的大神,我應該往什麼方向學習深入?
文本分析具體分析的內容是什麼?如果這個不說清楚,也沒法說太多。
SnowNLP是什麼,可以看isnowfy/snownlp 主頁的描述
SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。
NLTK 中的工具要廣得多,不過SnowNLP的feature中有一條:
情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
感覺應該是在購物網站的評論文本上訓練的,可能對你有用。
由於你沒說清楚具體要分析什麼(估計你的公司也僅僅告訴你了「文本分析」四個字吧?),所以也沒法談哪個更適合。
順帶這推薦一下 SpaCy 以及 Textacy,自己用起來比 NLTK 順手一些。
你說的 jieba 主要是用來做中文分詞用的,
另外 「文本分析」 的範圍多了去了呀,
你到底是想做評論情感分析呢?
還是命名體識別、關係抽取?
還是虛假評論鑒別?
以及......
snownlp提供了一系列很好用的API,讀下官方文檔,調調介面就能出活了。但是精度可能會不是很好,以sentiment analysis為例,不同領域的主題詞都會影響結果,所以針對不同的領域還是分門別類重新訓練比較好。
了解下機器學習和自然語言處理的基礎知識再做吧,當然,如果公司不是專門做這一塊的話,調調介面能出活也是可以的~
推薦閱讀:
※輿情監控技術如何應對各類水軍刷屏?
※windows下如何查看超大文本文件(5G )
※學習文本挖掘,如何入門?
※構建用於文本聚類的空間向量模型時,應該如何作特徵選擇?
※數據特徵的歸一化,是對整個矩陣還是對每一維特徵?