python 數據挖掘篇一結巴分詞

02-10

近期，想對古典小說進行索引，和知識挖掘，所以研究了下python數據挖掘方面的知識

Python安裝

python學習一 python語法，及變數類型

python學習二爬一個圖片網站上

python學習二 02 爬一個圖片網站，獲得主鏈接網址，並保存

python學習二 03 爬一個圖片網站-獲得所有分頁網址

python學習二 04 爬一個圖片網站-解析文件，獲得所有圖片鏈接

python學習二 05 爬一個圖片網站-下載圖片鏈接

python學習二 06 爬一個圖片網站-多線程方式下載

python學習三 01 再爬一個網站，幾行代碼，搞定分類類別

python學習三 02 再爬一個網站，獲得所有分頁

python學習三 03 再爬一個網站，根據分頁，下載圖片

python學習三 04 圖片爬蟲工程-組織框架

Python 爬蟲上篇

Python 爬蟲下篇

python 數據挖掘篇一結巴分詞

python 數據挖掘篇二詞雲統計

python 數據挖掘篇三 gensim 使用

python 數據挖掘篇四小說數據挖掘實例

一結巴分詞

github地址：https://github.com/fxsjy/jieba

"結巴"中文分詞：做最好的 Python 中文分片語件

還記得當時想用C++，實現分詞，資料那個難找，調試那個麻煩，BUG那個多，說多了都是淚，開始入手python 數據挖掘，看看這個能簡單不。

安裝

這種效率比c++安裝分詞庫方便多了。

使用

常用的一些符號及詞性的對應關係為：a:形容詞c:連詞d:副詞e:嘆詞f:方位詞i:成語m:數詞n:名詞nr:人名ns:地名nt:機構團體nz:其他專有名詞p:介詞r:代詞t:時間u:助詞v:動詞vn:名動詞w:標點符號un:未知詞語

更詳細資料可以搜索計算所漢語詞性標記集

一個自定義字典的例子：

注意要用：UTF-8格式保存

基本用法

2、根據詞性屬性分詞

創建字典

UTF-8格式保存

3、提取關鍵字

4、返回詞語位置