python 數據挖掘篇 一 結巴分詞
近期,想對古典小說進行索引,和知識挖掘,所以研究了下python數據挖掘方面的知識
Python安裝
python學習 一 python語法,及變數類型
python學習 二 爬一個圖片網站上
python學習 二 02 爬一個圖片網站,獲得主鏈接網址,並保存
python學習 二 03 爬一個圖片網站-獲得所有分頁網址
python學習 二 04 爬一個圖片網站-解析文件,獲得所有圖片鏈接
python學習 二 05 爬一個圖片網站-下載圖片鏈接
python學習 二 06 爬一個圖片網站-多線程方式下載
python學習 三 01 再爬一個網站,幾行代碼,搞定分類類別
python學習 三 02 再爬一個網站,獲得所有分頁
python學習 三 03 再爬一個網站,根據分頁,下載圖片
python學習 三 04 圖片爬蟲工程-組織框架
Python 爬蟲 上篇
Python 爬蟲 下篇
python 數據挖掘篇 一 結巴分詞
python 數據挖掘篇 二 詞雲統計
python 數據挖掘篇 三 gensim 使用
python 數據挖掘篇四 小說數據挖掘實例
一 結巴分詞
github地址:https://github.com/fxsjy/jieba
"結巴"中文分詞:做最好的 Python 中文分片語件
還記得當時想用C++,實現分詞,資料那個難找,調試那個麻煩,BUG那個多,說多了都是淚,開始入手python 數據挖掘,看看這個能簡單不。
安裝
這種效率比c++安裝分詞庫 方便多了。
使用
詞性標註
常用的一些符號及詞性的對應關係為:a:形容詞c:連詞d:副詞e:嘆詞f:方位詞i:成語m:數詞n:名詞nr:人名ns:地名nt:機構團體nz:其他專有名詞p:介詞r:代詞t:時間u:助詞v:動詞vn:名動詞w:標點符號un:未知詞語
更詳細資料 可以搜索 計算所漢語詞性標記集
一個自定義字典的例子:
注意要用:UTF-8格式保存
基本用法
1、 基本分詞
2、 根據詞性屬性分詞
創建字典
UTF-8格式保存
3、 提取關鍵字
4、 返回詞語位置
版權聲明:http://www.gudianxiaoshuo.com (古典小說網) 今日頭條號: 古典古韻古典小說、討厭編程
推薦閱讀:
※用SMT solver驗證程序等價
※有什麼經典的關於遊戲 AI 設計的書嗎?
※Lending Club——構建貸款違約預測模型
※生物狗如何轉行人工智慧?有成功者嗎?