有哪些高質量的中文分詞api?

最好多多推薦一些對中國本土的一些互聯網用詞——比如說「卧槽,給力,牛逼,好六,六六六,水貼,爆吧,女票,男票,藍孩子,孩紙」之類的俚語也能有很好的分詞能力的中文分詞API就好了。


稍微體驗過的,簡單收錄下

  1. 哈工大:語言云(語言技術平台雲 LTP-Cloud)
  2. 東北大學NiuTrans統計機器翻譯系統:東北大學自然語言處理實驗室
  3. 中科院張華平博士ICTCLAS :NLPIR漢語分詞系統
  4. 波森科技:首頁 - BosonNLP

  5. 結巴:fxsjy/jieba · GitHub
  6. Ansj分詞:中國自然語言開源組織

沒有特別對比,2和3貌似沒有API


樓上暴君說得很詳細了,我就貼一個我覺得分詞最準確的一個吧

http://bosonnlp.com/

總的來說很準確,當然也不是任何時候都管用...... 233333333


scws


除了jieba補充兩個,一個是哈工大的語言云,另一個是波森科技的NLP API。不過我沒有對這三者進行橫向測評過。


pullword在線分詞服務__API服務_API服務_API Store


hanlp分詞其實不錯,可以看看在線分詞效果:語義分詞,nlp在線分詞,中文分詞,文本分詞,標準分詞


張華平博士的東西什麼都好,就是要定期更新用戶授權


以前用的庖丁解牛分詞器 ,不過是潛入到lucene裡面用的。對中文分詞 挺不錯的


結巴挺好的!


我用過騰訊文智的API覺得還行,簡單,分詞效果不錯。可以試一試


我用過jieba效果還闊以,用的不多。 不過聽說stanfordnlp也支持中文分詞,容我崇洋媚外一把 也許stanford更牛逼一點


推薦閱讀:

條件隨機場(CRF)和隱馬爾科夫模型(HMM)最大區別在哪裡?CRF的全局最優體現在哪裡?
如何判斷分類特徵值選取是否有效?
文本摘要的寫作機器人目前有哪些應用?效果如何?能否代替一定的人力?
[資訊理論基礎]互信息計算公式如何推導的?
GAN在自然語言處理方面有哪些有趣的文章和應用?

TAG:程序員 | Python | 自然語言處理 | 分詞 | 中文分詞 |