多看閱讀的劃線功能是如何這麼精確的?每次長按文本它都會從準確劃線到片語,例如「開心」,而不是「開」?

多看閱讀的劃線功能如此精確是什麼技術


有一種技術叫中文分詞,即對一段連續的中文文本進行切分,是一種基礎的中文自然語言處理技術。

中文和英語等印歐語系的語言不同,詞和詞之間沒有空格(當然英語也不是完全沒有切分的問題,但相對中文更容易一些)。

比如,多看閱讀的劃線功能是如何這麼精確的?,會被切分為:多看閱讀/的/劃線/功能/是/如何/這麼/精確/的?

當然,對中文分詞來說,關鍵是如何處理歧義,即一段文本不只有一種切分方法,

比如,我從小學英語,可能有兩種切分方法: 1. 我/從小/學/英語, 2. 我/從/小學/英語

顯然第1種是合理的,這個例子其實是交集型歧義,也是中文裡最普遍的歧義類型。

再比如,將軍任命了一名中將, 可能切分為:1. 將軍/任命/了/一名/中將,2. 將軍/任命/了/一名/中/將

顯然第1種是更合理的,這成為組合型歧義

但是,有些歧義單憑字面而沒有上下文是很難消除的,比如「乒乓球拍賣完了」,是「乒乓/球拍/賣完/了」,還是「乒乓球/拍賣/完/了」,就只能靠上下文的語義來判斷了

多看閱讀用的中文分詞,我貢獻了第一個版本,是基於詞典的方法,分詞正確率可以達到95%左右,對劃線這個場景已經足夠用了。另外,因為是詞典的方法,未登錄詞識別(即不在詞典里的詞)也是問題,這裡就不展開了。


因為做不到精確的程序猿已經被殺了祭天了。


推薦閱讀:

TAG:科技 | 多看閱讀 | 下劃線 |