HanLP的自定義詞典使用方式

【環境】

python 2.7

方法一:使用pyhanlp,具體方法如下:

pip install pyhanlp # 安裝pyhanlp

進入python安裝包路徑,如/usr/lib/python2.7/site-packages/pyhanlp/static/

hanlp.properties.in改名為備份文件。

mv hanlp.properties.in hanlp.properties.in.bak

修改hanlp.properties

vim hanlp.properties

將CustomDictionaryPath修改為你自定義的詞典路徑,如:

CustomDictionaryPath=data/dictionary/custom/self_define_dict.txt; 現代漢語補充詞庫.txt; 全國地名大全.txt; 人名詞典.txt; 機構名詞典.txt; 上海地名.txt ns; data/dictionary/person/nrf.txt nrf;

保存。

python腳本,調用pyhanlp示例:

from pyhanlp import *print HanLP.segment("在你想要放棄的時候,想想是什麼讓你當初堅持走到了這裡。總是有人要贏的,那為什麼不能是我")

運行腳本後,系統會檢查配置文件hanlp.properties,讀取詞庫的路徑,對於自定義詞典,第一次會重新生成二進位文件(以後直接用)。

方法二:使用grpc調用hanlp(python調用java包常用手段)

方法三:使用hanlp調用jar包(官方文檔有說明),自定義詞典沒設置成功。

推薦閱讀:

jieba源碼解析(一)——中文分詞
中文分詞評測

TAG:中文分詞 | 機器學習 | Python |