python中文預處理?

NLP剛入門,想利用一些文本文件和python工具做一些文本分類的問題。

查資料查到利用中文和英文的預處理有很多不同:

中文處理具體是怎樣的呢?

(1)分詞:jieba分詞 or nlpir?

(2)停用詞:去停用詞使用正則表達式?網上的停用詞表是包括標點的,標點符號是否就不用再處理了?

(3)上兩步的順序,先分詞再停用詞,還是先去停詞再分詞

(4)詞性標註有什麼用?用於後續處理嗎?

(5)還有什麼其他處理操作?

(6)後續分類使用gensim、scikit-learn、nltk?

剛入門,問題比較小白。。


(1)分詞:jieba分詞 or nlpir?

都可以,分詞一般看字典多一點,目前本人使用jieba

(2)停用詞:去停用詞使用正則表達式?網上的停用詞表是包括標點的,標點符號是否就不用再處理了?

停用詞有停用詞表,可以自己找。停用詞和標點一般不再處理,因為對語義和文章的表徵沒用

(3)上兩步的順序,先分詞再停用詞,還是先去停詞再分詞

先分詞

(4)詞性標註有什麼用?用於後續處理嗎?

沒有需求,一般不用詞性。一些特殊的任務是需要詞性信息的

(5)還有什麼其他處理操作?

預處理基本差不多了吧,並沒有什麼特別的步驟。一切看你面對的任務,有需要還有依存分析,實體識別等等

(6)後續分類使用gensim、scikit-learn、nltk?

文本分類這三個都可以,gensim是topic相關的庫還帶有word2vec和doc2vec,scikit-learn中的CountVectorizer和TfidfVectorizer(不記得怎麼拼了)實現比較簡單,nltk倒是應有盡有。

但是嚴格意義上說三者都可以用在分類任務


樓上總結得挺好的,目前我用的是jieba


推薦閱讀:

手機智能語言助手開發難度如何?
基於中文文本的情感分析發展到了什麼水平(研究,商業應用,領先公司等角度)?
C++解析Word、Excel、PPT、PDF等格式的文件用什麼庫?
自然語言處理方向值得讀博士么?

TAG:Python | 自然語言處理 | 文本挖掘 |