python 數據挖掘篇 一 結巴分詞

近期,想對古典小說進行索引,和知識挖掘,所以研究了下python數據挖掘方面的知識

Python安裝

python學習 一 python語法,及變數類型

python學習 二 爬一個圖片網站上

python學習 二 02 爬一個圖片網站,獲得主鏈接網址,並保存

python學習 二 03 爬一個圖片網站-獲得所有分頁網址

python學習 二 04 爬一個圖片網站-解析文件,獲得所有圖片鏈接

python學習 二 05 爬一個圖片網站-下載圖片鏈接

python學習 二 06 爬一個圖片網站-多線程方式下載

python學習 三 01 再爬一個網站,幾行代碼,搞定分類類別

python學習 三 02 再爬一個網站,獲得所有分頁

python學習 三 03 再爬一個網站,根據分頁,下載圖片

python學習 三 04 圖片爬蟲工程-組織框架

Python 爬蟲 上篇

Python 爬蟲 下篇


python 數據挖掘篇 一 結巴分詞

python 數據挖掘篇 二 詞雲統計

python 數據挖掘篇 三 gensim 使用

python 數據挖掘篇四 小說數據挖掘實例

一 結巴分詞

github地址:github.com/fxsjy/jieba

"結巴"中文分詞:做最好的 Python 中文分片語件

還記得當時想用C++,實現分詞,資料那個難找,調試那個麻煩,BUG那個多,說多了都是淚,開始入手python 數據挖掘,看看這個能簡單不。

安裝

這種效率比c++安裝分詞庫 方便多了。

使用

詞性標註

常用的一些符號及詞性的對應關係為:a:形容詞c:連詞d:副詞e:嘆詞f:方位詞i:成語m:數詞n:名詞nr:人名ns:地名nt:機構團體nz:其他專有名詞p:介詞r:代詞t:時間u:助詞v:動詞vn:名動詞w:標點符號un:未知詞語

更詳細資料 可以搜索 計算所漢語詞性標記集

一個自定義字典的例子:

注意要用:UTF-8格式保存

基本用法

1、 基本分詞

2、 根據詞性屬性分詞

創建字典

UTF-8格式保存

3、 提取關鍵字

4、 返回詞語位置

版權聲明:gudianxiaoshuo.com (古典小說網) 今日頭條號: 古典古韻古典小說、討厭編程


推薦閱讀:

用SMT solver驗證程序等價
有什麼經典的關於遊戲 AI 設計的書嗎?
Lending Club——構建貸款違約預測模型
生物狗如何轉行人工智慧?有成功者嗎?

TAG:人工智能 | 数据挖掘 | Python |