FoolNLTK中文詞法分析工具
03-06
FoolNLTK是我開發的一款基於深度學習的中文分詞工具,介紹如下.
特點
可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞
- 基於BiLSTM模型訓練而成
- 包含分詞,詞性標註,實體識別, 都有比較高的準確率
- 用戶自定義詞典
Install
pip install foolnltk
使用說明
分詞
import fooltext = "一個傻子在北京"print(fool.cut(text))# [一個, 傻子, 在, 北京]
命令行分詞
python -m fool [filename]
用戶自定義詞典
詞典格式格式如下,詞的權重越高,詞的長度越長就越越可能出現, 權重值請大於1
難受香菇 10什麼鬼 10分詞工具 10北京 10北京天安門 10
載入詞典
import foolfool.load_userdict(path)text = "我在北京天安門看你難受香菇"print(fool.cut(text))# [我, 在, 北京天安門, 看, 你, 難受香菇]
刪除詞典
fool.delete_userdict();
詞性標註
import fooltext = "一個傻子在北京"print(fool.pos_cut(text))#[(一個, m), (傻子, n), (在, p), (北京, ns)]
實體識別
import fool text = "一個傻子在北京"words, ners = fool.analysis(text)print(ners)#[(5, 8, location, 北京)]
注意
- 暫時只在Python3 Linux 平台測試通過
推薦閱讀:
TAG:NLP漢語自然語言處理原理與實踐書籍 | 自然語言處理 | AI技術 |