文本分析上nltk和snownlp有什麼區別,哪個更適合,有什麼好的學習資源?

最近公司要求做淘寶評論的文本分析,這方面就知道個jieba,請教一下各位在這方面有經驗的大神,我應該往什麼方向學習深入?


最近公司要求做淘寶評論的文本分析,這方面就知道個jieba,請教一下各位在這方面有經驗的大神,我應該往什麼方向學習深入?

文本分析具體分析的內容是什麼?如果這個不說清楚,也沒法說太多。

SnowNLP是什麼,可以看isnowfy/snownlp 主頁的描述

SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。

NLTK 中的工具要廣得多,不過SnowNLP的feature中有一條:

情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)

感覺應該是在購物網站的評論文本上訓練的,可能對你有用。

由於你沒說清楚具體要分析什麼(估計你的公司也僅僅告訴你了「文本分析」四個字吧?),所以也沒法談哪個更適合。

順帶這推薦一下 SpaCy 以及 Textacy,自己用起來比 NLTK 順手一些。


你說的 jieba 主要是用來做中文分詞用的,

另外 「文本分析」 的範圍多了去了呀,

你到底是想做評論情感分析呢?

還是命名體識別、關係抽取?

還是虛假評論鑒別?

以及......

snownlp提供了一系列很好用的API,讀下官方文檔,調調介面就能出活了。但是精度可能會不是很好,以sentiment analysis為例,不同領域的主題詞都會影響結果,所以針對不同的領域還是分門別類重新訓練比較好。

了解下機器學習自然語言處理的基礎知識再做吧,當然,如果公司不是專門做這一塊的話,調調介面能出活也是可以的~


推薦閱讀:

輿情監控技術如何應對各類水軍刷屏?
windows下如何查看超大文本文件(5G )
學習文本挖掘,如何入門?
構建用於文本聚類的空間向量模型時,應該如何作特徵選擇?
數據特徵的歸一化,是對整個矩陣還是對每一維特徵?

TAG:Python | 自然語言處理 | 文本挖掘 | 文本情感分析 | Python教程 |