Python分析中文文字有哪些方法,那些庫?
12-29
對鬥魚直播彈幕的抓取,抓去了不知道該用什麼來分析。
分析彈幕字數很簡單,jieba對彈幕分詞。還有其他工具嗎?
這取決於你要做什麼。理論上完成中文分詞以後,大部分NLP的工具都是通用的。NLP之外,還有一堆ML的工具可以用,以及還有一大把統計分析、經濟分析的工具可以用。列舉一些庫:
NLTK:Python的自然語言處理庫;
NetworkX:Python的複雜網路分析庫(e.g. 社交網路);sklearn:Python的機器學習庫;Numpy:Python科學計算的底層庫,主要支持數組和矩陣計算等;Pandas:Python的數據分析庫;
SciPy:Python的高級科學計算庫,包括概率統計等;statsmodels:Python的統計分析庫;SymPy:Python的符號計算庫;……學習資料參考官方文檔即可。但是,一定要明確,庫只是工具,首先你要想明白你想實現目的。知道寫什麼比知道怎麼寫更根本、更重要。
可以搜一下snownlp,可以直接出情感分析的結果,你也可以自己手動標註再訓練一次
@iGuo 說的差不多了,我補充一個textblob.
推薦一個清華大學的,thulac,也是用來分詞的,還有個wordcloud,做詞雲的。
做短文本用線性svm,效果有目共睹,分詞用jieba,詞語向量化用Word2vec(gensim包)
推薦閱讀:
※會了django還有必要學flask嗎?
※學習python有什麼好的視頻?
※請問有哪些優秀Python課程推薦?
※如何寫python2和3兼容代碼?
※如何爬取知乎的ajax內容?