乾貨 | 史上最全中文分詞工具整理

乾貨 | 史上最全中文分詞工具整理

來自專欄 TensorFlowNews13 人贊了文章

作者 | fendouai

【磐創AI導讀】:本文為中文分詞工具整理分享。

一.中文分詞

分詞服務介面列表

二.準確率評測:

THULAC:與代表性分詞軟體的性能對比

我們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做性能比較。我們選擇Windows作為測試環境,根據第二屆國際漢語分詞測評(The SecondInternational Chinese Word Segmentation Bakeoff)發布的國際中文分詞測評標準,對不同軟體進行了速度和準確率測試。

在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集(training)、測試集(testing), 以及根據各自分詞標準而提供的相應測試集的標準答案(icwb2-data/scripts/gold).在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl腳本score。

我們在統一測試環境下,對上述流行分詞軟體和THULAC進行了測試,使用的模型為各分詞軟體自帶模型。THULAC使用的是隨軟體提供的簡單模型Model_1。評測環境為 Intel Core i5 2.4 GHz 評測結果如下:

評測結果1

除了以上在標準測試集上的評測,我們也對各個分詞工具在大數據上的速度進行了評測,結果如下:

CNKI_journal.txt(51 MB)

評測結果2

分詞數據準備及評測由BosonNLP完成:11 款開放中文分詞引擎大比拼(2015年發布)

分詞的客觀量化測試離不開標註數據,即人工所準備的分詞「標準答案」。在數據源方面,我們將測試分為: 1.新聞數據:140篇,共30517詞語; 2.微博數據:200篇,共12962詞語; 3.汽車論壇數據(汽車之家)100篇:共27452詞語; 4.餐飲點評數據(大眾點評):100條,共8295詞語。

準確度計算規則:

將所有標點符號去除,不做比較

參與測試的部分系統進行了實體識別,可能造成詞語認定的不統一。我們將對應位置替換成了人工標註的結果,得到準確率估算的上界。

經過以上處理,用SIGHAN 分詞評分腳本比較得到最終的準確率,召回率和F1值。

以上所有數據採用北大現代漢語基本加工規範對所有數據進行分詞作為標準。具體數據下載地址請參見附錄。通過這四類數據綜合對比不同分詞系統的分詞準確度。

不同分詞系統的分詞準確度對比

三.付費價格:

阿里云:

阿里雲付費價格

騰訊云:

騰訊雲付費價格

玻森中文

免費額度:

玻森中文免費額度

付費價格:

玻森中文付費價格

四.官網

開源工具

HanLP:

github.com/hankcs/HanLP

結巴分詞:

github.com/fxsjy/jieba

盤古分詞:

pangusegment.codeplex.com

庖丁解牛:

code.google.com/p/paodi

SCWS中文分詞:

xunsearch.com/scws/docs

高校工具

FudanNLP:

github.com/FudanNLP/fnl

LTP:

ltp-cloud.com/document

THULAC:

thulac.thunlp.org/

NLPIR:

ictclas.nlpir.org/docs

商業服務

BosonNLP:

bosonnlp.com/dev/center

百度NLP:

cloud.baidu.com/doc/NLP

搜狗分詞:

sogou.com/labs/webservi

騰訊文智:

cloud.tencent.com/docum

騰訊價格單:

cloud.tencent.com/docum

阿里雲NLP:

data.aliyun.com/product

新浪云:

sinacloud.com/doc/sae/p

測試數據集

1、SIGHANBakeoff 2005 MSR, 560KB

sighan.cs.uchicago.edu/

2、SIGHANBakeoff 2005 PKU, 510KB

sighan.cs.uchicago.edu/

3、人民日報 2014,65MB

pan.baidu.com/s/1hq3KKX

前兩個數據集是SIGHAN於2005年組織的中文分詞比賽所用的數據集,也是學術界測試分詞工具的標準數據集,本文用於測試各大分詞工具的準確性,而最後一個數據集規模較大,用於測試分詞速度。

最後,對深度學習感興趣,熱愛Tensorflow的小夥伴,歡迎關注我們的網站!http://www.tensorflownews.com。我們的公眾號:磐創AI。

推薦閱讀:

用CRF++開源工具做文本序列標註教程
百萬級中文人名語料庫
數學之美第四章談談分詞
分詞 | jiebaR 常用函數

TAG:科技 | 自然語言處理 | 中文分詞 |