文本分析上nltk和snownlp有什麼區別，哪個更適合，有什麼好的學習資源？

01-08

最近公司要求做淘寶評論的文本分析，這方面就知道個jieba，請教一下各位在這方面有經驗的大神，我應該往什麼方向學習深入？

文本分析具體分析的內容是什麼？如果這個不說清楚，也沒法說太多。

SnowNLP是什麼，可以看isnowfy/snownlp 主頁的描述

SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和TextBlob不同的是，這裡沒有用NLTK，所有的演算法都是自己實現的，並且自帶了一些訓練好的字典。

NLTK 中的工具要廣得多，不過SnowNLP的feature中有一條：

情感分析（現在訓練數據主要是買賣東西時的評價，所以對其他的一些可能效果不是很好，待解決）

感覺應該是在購物網站的評論文本上訓練的，可能對你有用。

由於你沒說清楚具體要分析什麼（估計你的公司也僅僅告訴你了「文本分析」四個字吧？），所以也沒法談哪個更適合。

順帶這推薦一下 SpaCy 以及 Textacy，自己用起來比 NLTK 順手一些。

你說的 jieba 主要是用來做中文分詞用的，

另外「文本分析」的範圍多了去了呀，

你到底是想做評論情感分析呢？

還是命名體識別、關係抽取？

還是虛假評論鑒別？

以及......

snownlp提供了一系列很好用的API，讀下官方文檔，調調介面就能出活了。但是精度可能會不是很好，以sentiment analysis為例，不同領域的主題詞都會影響結果，所以針對不同的領域還是分門別類重新訓練比較好。

了解下機器學習和自然語言處理的基礎知識再做吧，當然，如果公司不是專門做這一塊的話，調調介面能出活也是可以的~