分詞 | jiebaR 常用函數

05-15

一、jiebaR主要函數

1.worker():載入jiebaR庫的分詞引擎

worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH, idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5, encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05, output = NULL, bylines = F, user_weight = "max")--------------------## 參數解釋type, 引擎類型dict, 系統詞典hmm, HMM模型路徑user, 用戶詞典idf, IDF詞典stop_word, 關鍵詞用停止詞庫write, 是否將文件分詞結果寫入文件，默認FALSEqmax, 最大成詞的字元數，默認20個字元topn, 關鍵詞數,默認5個encoding, 輸入文件的編碼，默認UTF-8detect, 是否編碼檢查，默認TRUEsymbol, 是否保留符號，默認FALSElines, 每次讀取文件的最大行數，用於控制讀取文件的長度。大文件則會分次讀取。output, 輸出路徑bylines, 按行輸出user_weight, 用戶權重

jiebaR庫提供了八種分詞引擎：

混合模型(MixSegment)

四個分詞引擎裡面分詞效果較好的類，使用最大概率法和隱式馬爾科夫模型

最大概率法(MPSegment)

負責根據Trie樹構建有向無環圖和進行動態規劃演算法，是分詞演算法的核心

隱式馬爾科夫模型(HMMSegment)

根據基於人民日報等語料庫構建的HMM模型來進行分詞，主要演算法思路是根據(B,E,M,S)四個狀態來代表每個字的隱藏狀態，HMM模型由dict/hmm_model.utf8提供，分詞演算法即viterbi演算法。

索引模型(QuerySegment)

先使用混合模型進行切詞，再對於切出來的較長的詞，枚舉句子中所有可能成詞的情況，找出詞庫里存在

標記模型(tag)

Simhash模型(simhash)

關鍵詞模型(keywods)

FullSegment模型(Full)

2.分詞語法：[]、<=和segment函數

jiebaR提供了3種分詞語句寫法：[]符號語法、<=符號語法、segment()函數，三者形式不同，但分詞效果一樣。

library("jiebaR")wk = worker()#調用worker()函數,載入jiebaR庫的分詞引擎wk["我是豆瓣讀書的忠實用戶"]#句法1：使用[]符號[1] "我" "是" "豆瓣" "讀書" "的" "忠實" "用戶"wk<=我是豆瓣讀書的忠實用戶 #句法2：使用k<=符號[1] "我" "是" "豆瓣" "讀書" "的" "忠實" "用戶"segment("我是豆瓣讀書的忠實用戶" , wk ) #句法3：使用segment函數[1] "我" "是" "豆瓣" "讀書" "的" "忠實" "用戶"

3.詞典配置函數

3.1 查看詞典

show_dictpath() # 查看默認的詞庫位置[1] "D:/R-3.4.2/library/jiebaRD/dict"---------dir(show_dictpath()) # 查看目錄[1] "D:/R-3.4.2/library/jiebaRD/dict"[1] "backup.rda" "hmm_model.utf8" "hmm_model.zip" [4] "idf.utf8" "idf.zip" "jieba.dict.utf8"[7] "jieba.dict.zip" "model.rda" "README.md" [10] "stop_words.utf8" "user.dict.utf8"##jieba.dict.utf8, 系統詞典文件，最大概率法，utf8編碼hmm_model.utf8, 系統詞典文件，隱式馬爾科夫模型，utf8編碼user.dict.utf8, 用戶詞典文件，utf8編碼stop_words.utf8，停止詞文件，utf8編碼idf.utf8，IDF語料庫，utf8編碼jieba.dict.zip，jieba.dict.utf8壓縮包hmm_model.zip，hmm_model.utf8壓縮包idf.zip，idf.utf8壓縮包backup.rda，無注釋model.rda，無注釋README.md，說明文件---------scan(file="D:/R-3.4.2/library/jiebaRD/dict/jieba.dict.utf8",+ what=character(),nlines=20,sep= ,+ encoding=utf-8,fileEncoding=utf-8) #查看詞典前20行Read 20 items[1] "1號店 3 n" "1號店 3 n" "4S店 3 n" "4s店 3 n" "AA制 3 n" "AB型 3 n" "AT&T 3 nz" "A型 3 n" "A座 3 n" "A股 3 n" "A輪 3 n" [12] "A輪 3 n" "BB機 3 n" "BB機 3 n" "BP機 3 n" "BP機 3 n" "B型 3 n" "B座 3 n" "B股 3 n" "B超 3 n" #每一行都有三列，並以空格分割，第一列為詞項，第二列為詞頻，第三列為詞性標記---------scan(file="D:/R-3.4.2/library/jiebaRD/dict/user.dict.utf8",+ what=character(),nlines=20,sep= ,+ encoding=utf-8,fileEncoding=utf-8) #查看用戶詞典前20行Read 5 items[1] "雲計算" "韓玉鑒賞" "藍翔 nz" "CEO" "江大橋" #用戶詞典第一行有二列，，第一列為詞項，第二列為詞性標記，沒有詞頻列，默認詞頻為系統詞庫中的最大詞頻，用戶詞典默認僅有五個詞。---------

3.2自定義詞典

（1）簡單自定義

wk = worker(user=D:/R-3.4.2/library/jiebaRD/dict/user.utf8) #使用自定義詞典user.utf8wk["我是豆瓣讀書的忠實用戶"][1] "我" "是" "豆瓣讀書" "的" "忠實用戶"

（2）使用搜狗詞典

搜狗詞庫scel文件是二進位，需要把二進位的詞典轉成可以使用的文本文件，jiebaR包的作者，同時開發了一個cidian項目，可以轉換搜狗的詞典。

#安裝cidianinstall.packages("devtools")install.packages("stringi")install.packages("pbapply")install.packages("Rcpp")install.packages("RcppProgress")library(devtools)install_github("qinwf/cidian") #目前託管在github，不能直接從CRAN上下載

使用cidian對搜狗詞典進行轉換

library(cidian)decode_scel(scel = "D:/R-3.4.2/library/jiebaRD/dict/14108.scel",cpp = TRUE)#轉換output file: D:/R-3.4.2/library/jiebaRD/dict/14108.scel_2018-01-19_16_46_33.dictscan(file="D:/R-3.4.2/library/jiebaRD/dict/14108.scel_2018-01-19_16_46_33.dict",what=character(),nlines=20,sep= ,encoding=utf-8,fileEncoding=utf-8)#查看轉換後的詞典Read 20 items[1] "阿黨相為 n" "阿房 n" "阿附 n" "阿膠 n" "阿膠補血膏 n" "阿膠補血顆粒 n" [7] "阿膠補血口服液 n" "阿膠丁 n" "阿膠粉 n" "阿膠糕 n" "阿膠膏 n" "阿膠貢棗 n" [13] "阿膠固元膏 n" "阿膠紅糖 n" "阿膠紅棗 n" "阿膠漿 n" "阿膠膠囊 n" "阿膠顆粒 n" [19] "阿膠口服液 n" "阿膠蜜棗 n"

把轉換後的搜狗詞典文件改名，從14108.scel2018-01-19164633.dict到user_test.utf8

3.3 停用詞詞典

停止詞就是分詞過程中不需要作為結果的詞，如a,the/or/and/的/地/得/我/你/他等，這些詞使用頻率過高，會大量出現在一段文本中，在統計詞頻的時候會增加很多的噪音，所以通常將這些詞過濾。在jiebaR中，過濾停止詞有2種方法，一種是通過配置stopword文件，二是使用filtersegment()函數：

（1）配置stop_word文件

wk = worker(stop_word=D:/R-3.4.2/library/jiebaRD/dict/stopwd.utf8)segment<-wk["我是豆瓣讀書的忠實用戶"]segment[1] "豆瓣" "讀書" "忠實" "用戶"

（2）動態調用filter_segment()函數

filter<-c("用戶")filter_segment(segment,filter)#動態調用filter_segment()函數[1] "豆瓣" "讀書" "忠實"

3.4 關鍵詞提取

關鍵詞提取的一個經典演算法是TF-IDF，TF（Term Frequency）代表某個詞在文檔中出現的頻率，IDF（Inverse Document Frequency）表示逆文檔頻率，是一個重要性調整係數，衡量一個詞是不是常見詞。如果某個詞比較少見，但是它在這篇文章中多次出現，而且不是停止詞，那麼它很可能就反映了這篇文章的特性，正是我們所需要的關鍵詞，再通過IDF來算出每個詞的權重，不常見的詞出現的頻率越高，則權重越大。計算TF-IDF的公式為：

TF-IDF = TF(詞頻) * 逆文檔頻率(IDF)

jiebaR包的關鍵詞提取提取的實現使用的TF-IDF的演算法，在安裝目錄中的idf.utf8文件為IDF的語料庫。

scan(file="D:/R-3.4.2/library/jiebaRD/dict/idf.utf8",what=character(),nlines=20,sep= ,encoding=utf-8,fileEncoding=utf-8)Read 20 items[1] "勞動防護 13.900677652" "生化學 13.900677652" "奧薩貝爾 13.900677652" [4] "考察隊員 13.900677652" "崗上 11.5027823792" "倒車檔 12.2912397395" [7] "編譯 9.21854642485" "蝶泳 11.1926274509" "外委 11.8212361103" [10] "故作高深 11.9547675029" "尉遂成 13.2075304714" "心源性 11.1926274509" [13] "現役軍人 10.642581114" "杜勃留 13.2075304714" "包天笑 13.900677652" [16] "賈政陪 13.2075304714" "托爾灣 13.900677652" "多瓦 12.5143832909" [19] "多瓣 13.900677652" "巴斯特爾 11.598092559"

idf.utf8文件每一行有2列，第一列是詞項，第二列為權重。通過計算文檔的詞頻(TF)，與語料庫的IDF值相乘，就可以得到TF-IDF值，從而提取文檔的關鍵詞。

wk = worker()> segment<-wk["R的極客理想系列文章，涵蓋了R的思想，使用，工具，創新等的一系列要點，以我個人的學習和體驗去詮釋R的強大。"]> freq(segment) #計算詞頻char freq1 強大 12 使用 13 思想 14 涵蓋 15 極客 16 文章 17 詮釋 18 系列 19 體驗 110 理想 111 等 112 了 113 個人 114 的 515 要點 116 R 317 創新 118 一系列 119 我 120 工具 121 學習 122 以 123 去 124 和 1> keys = worker("keywords",topn=5)# 取TF-IDF的前5的關鍵詞> vector_keywords(segment,keys) #計算關鍵詞11.7392 8.97342 8.23425 8.2137 7.43298 "極客" "詮釋" "要點" "涵蓋" "體驗"