python中文預處理?
01-08
NLP剛入門,想利用一些文本文件和python工具做一些文本分類的問題。
查資料查到利用中文和英文的預處理有很多不同:中文處理具體是怎樣的呢?(1)分詞:jieba分詞 or nlpir?
(2)停用詞:去停用詞使用正則表達式?網上的停用詞表是包括標點的,標點符號是否就不用再處理了?(3)上兩步的順序,先分詞再停用詞,還是先去停詞再分詞(4)詞性標註有什麼用?用於後續處理嗎?(5)還有什麼其他處理操作?
(6)後續分類使用gensim、scikit-learn、nltk?剛入門,問題比較小白。。
(1)分詞:jieba分詞 or nlpir? 都可以,分詞一般看字典多一點,目前本人使用jieba
(2)停用詞:去停用詞使用正則表達式?網上的停用詞表是包括標點的,標點符號是否就不用再處理了?
停用詞有停用詞表,可以自己找。停用詞和標點一般不再處理,因為對語義和文章的表徵沒用(3)上兩步的順序,先分詞再停用詞,還是先去停詞再分詞 先分詞(4)詞性標註有什麼用?用於後續處理嗎?沒有需求,一般不用詞性。一些特殊的任務是需要詞性信息的
(5)還有什麼其他處理操作? 預處理基本差不多了吧,並沒有什麼特別的步驟。一切看你面對的任務,有需要還有依存分析,實體識別等等(6)後續分類使用gensim、scikit-learn、nltk?文本分類這三個都可以,gensim是topic相關的庫還帶有word2vec和doc2vec,scikit-learn中的CountVectorizer和TfidfVectorizer(不記得怎麼拼了)實現比較簡單,nltk倒是應有盡有。
但是嚴格意義上說三者都可以用在分類任務樓上總結得挺好的,目前我用的是jieba
推薦閱讀:
※手機智能語言助手開發難度如何?
※基於中文文本的情感分析發展到了什麼水平(研究,商業應用,領先公司等角度)?
※C++解析Word、Excel、PPT、PDF等格式的文件用什麼庫?
※自然語言處理方向值得讀博士么?