FoolNLTK中文詞法分析工具

FoolNLTK是我開發的一款基於深度學習的中文分詞工具,介紹如下.

特點

可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞

  • 基於BiLSTM模型訓練而成
  • 包含分詞,詞性標註,實體識別, 都有比較高的準確率
  • 用戶自定義詞典

Install

pip install foolnltk

使用說明

分詞

import fooltext = "一個傻子在北京"print(fool.cut(text))# [一個, 傻子, 在, 北京]

命令行分詞

python -m fool [filename]

用戶自定義詞典

詞典格式格式如下,詞的權重越高,詞的長度越長就越越可能出現, 權重值請大於1

難受香菇 10什麼鬼 10分詞工具 10北京 10北京天安門 10

載入詞典

import foolfool.load_userdict(path)text = "我在北京天安門看你難受香菇"print(fool.cut(text))# [我, 在, 北京天安門, 看, 你, 難受香菇]

刪除詞典

fool.delete_userdict();

詞性標註

import fooltext = "一個傻子在北京"print(fool.pos_cut(text))#[(一個, m), (傻子, n), (在, p), (北京, ns)]

實體識別

import fool text = "一個傻子在北京"words, ners = fool.analysis(text)print(ners)#[(5, 8, location, 北京)]

注意

  • 暫時只在Python3 Linux 平台測試通過

推薦閱讀:

TAG:NLP漢語自然語言處理原理與實踐書籍 | 自然語言處理 | AI技術 |