Python分析中文文字有哪些方法,那些庫?

對鬥魚直播彈幕的抓取,抓去了不知道該用什麼來分析。

分析彈幕字數很簡單,jieba對彈幕分詞。

還有其他工具嗎?


這取決於你要做什麼。理論上完成中文分詞以後,大部分NLP的工具都是通用的。NLP之外,還有一堆ML的工具可以用,以及還有一大把統計分析、經濟分析的工具可以用。列舉一些庫:

NLTK:Python的自然語言處理庫;

NetworkX:Python的複雜網路分析庫(e.g. 社交網路);

sklearn:Python的機器學習庫;

Numpy:Python科學計算的底層庫,主要支持數組和矩陣計算等;

Pandas:Python的數據分析庫;

SciPy:Python的高級科學計算庫,包括概率統計等;

statsmodels:Python的統計分析庫;

SymPy:Python的符號計算庫;

……

學習資料參考官方文檔即可。但是,一定要明確,庫只是工具,首先你要想明白你想實現目的。知道寫什麼比知道怎麼寫更根本、更重要。


可以搜一下snownlp,可以直接出情感分析的結果,你也可以自己手動標註再訓練一次


@iGuo 說的差不多了,我補充一個textblob.


推薦一個清華大學的,thulac,也是用來分詞的,還有個wordcloud,做詞雲的。


做短文本用線性svm,效果有目共睹,分詞用jieba,詞語向量化用Word2vec(gensim包)


推薦閱讀:

會了django還有必要學flask嗎?
學習python有什麼好的視頻?
請問有哪些優秀Python課程推薦?
如何寫python2和3兼容代碼?
如何爬取知乎的ajax內容?

TAG:Python | 數據可視化 | Python庫 |