標籤:

中文分詞評測

引言

很遺憾 沒有測試西南交通大學中文分詞系統。

分詞對於研究和應用中文自然語言處理的童鞋來說,都是一個非常非常基礎的部件,分詞的質量直接影響到後續詞性標註、命名實體識別、句法分析等部件的準確性。作為一個基礎部件,學術界對分詞的研究已經非常久了,市面上流行的幾大開源分詞工具也被工業界的各大公司應用很多年了。最近,中文分詞隨著一篇博文的發表被推到了風口浪尖,引發眾多大牛在微博、微信群里的激烈討論。本文並不想對這篇博文進行過多評論,只是想用公開的數據集對各大分詞工具進行一個客觀地測評,以供大家在選擇工具時有所依據。

中文分詞工具

本文選擇了4個常見的分詞工具,分別是:哈工大LTP、中科院計算所NLPIR、清華大學THULAC和jieba,為了對比分詞速度,選擇了這四個工具的c++版本進行評測。

1、LTP github.com/HIT-SCIR/ltp

2、NLPIR github.com/NLPIR-team/N

3、THULAC github.com/thunlp/THULA

4、jieba github.com/yanyiwu/cppj

測試數據集

1、SIGHAN Bakeoff 2005 MSR, 560KB sighan.cs.uchicago.edu/

2、SIGHAN Bakeoff 2005 PKU, 510KB sighan.cs.uchicago.edu/

3、人民日報 2014, 65MB pan.baidu.com/s/1hq3KKX

前兩個數據集是SIGHAN於2005年組織的中文分詞比賽所用的數據集,也是學術界測試分詞工具的標準數據集,本文用於測試各大分詞工具的準確性,而最後一個數據集規模較大,用於測試分詞速度。

測試方法

用SIGHAN Bakeoff 2005比賽中所自帶的score腳本、test gold數據和training words數據對4個工具進行準確性測試,具體使用方法可參考:sighan.cs.uchicago.edu/ 中的readme文件。

測試硬體

Intel Core i7-6700 CPU@3.40GHz*8

測試結果

1、MSR測試結果

2、PKU測試結果

3、人民日報測試結果

測試結論

1、一個好的分詞工具不應該只能在一個數據集上得到不錯的指標,而應該在各個數據集都有很不錯的表現。從這一點來看,thulac和ltp都表現非常不錯。

2、因為分詞是個基礎部件,分詞速度對於一個分詞工具來說也至關重要。從這一點來看,thulac和jieba表現的不錯。

3、大家都知道,基本的分詞依賴模型,但真正想用分詞工具來解決應用層面上的問題,都需要藉助於詞庫,本文測試的4個工具均支持用戶自定義詞庫。

4、特別需要強調的一點是,哈工大的ltp支持分詞模型的在線訓練,即在系統自帶模型的基礎上可以不斷地增加訓練數據,來得到更加豐富、更加個性化的分詞模型。

總結

爭論是一個好的事情,尤其是不同背景的人站在不同的角度對同一個事情進行爭論,常常會碰撞出知識的火花,對於這個領域的發展有更好地推動作用。希望類似的爭論可以多一些,讓剛剛入門的或者準備入門的童鞋可以更加客觀地看到一個領域的發展現狀,而不是盲目地被一些熱門的詞蒙蔽雙眼,失去判斷。對於分詞來說,最近幾年大熱的深度學習模型,並不會比之前傳統的crf模型有多大性能上的突破,所以大家應該理性地看待深度學習以及人工智慧,捧得越高可能摔得越慘。


推薦閱讀:

TAG:中文分詞 |