2 中文分詞介紹

2 中文分詞介紹

6 人贊了文章 https://www.zhihu.com/video/1010252144166944768

這篇文章介紹一下中文分詞的理論:

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要複雜得多、困難得多。

用途:

文本處理的基礎。

提取句子信息。提取關鍵詞。搜索引擎的底層技術。

常見演算法:

字元匹配

這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;常用的幾種機械分詞方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的詞數最小);

4)雙向最大匹配法(進行由左到右、由右到左兩次掃描)

統計法

推薦閱讀:

參考場景:文本情緒的分析
測試lucene的所有分詞介面
jieba分詞最細粒度分詞的代碼修改

TAG:分詞 | 中文分詞 | 自然語言處理 |