多看閱讀的劃線功能是如何這麼精確的?每次長按文本它都會從準確劃線到片語,例如「開心」,而不是「開」?
02-06
多看閱讀的劃線功能如此精確是什麼技術
有一種技術叫中文分詞,即對一段連續的中文文本進行切分,是一種基礎的中文自然語言處理技術。
中文和英語等印歐語系的語言不同,詞和詞之間沒有空格(當然英語也不是完全沒有切分的問題,但相對中文更容易一些)。
比如,多看閱讀的劃線功能是如何這麼精確的?,會被切分為:多看閱讀/的/劃線/功能/是/如何/這麼/精確/的?
當然,對中文分詞來說,關鍵是如何處理歧義,即一段文本不只有一種切分方法,
比如,我從小學英語,可能有兩種切分方法: 1. 我/從小/學/英語, 2. 我/從/小學/英語
顯然第1種是合理的,這個例子其實是交集型歧義,也是中文裡最普遍的歧義類型。
再比如,將軍任命了一名中將, 可能切分為:1. 將軍/任命/了/一名/中將,2. 將軍/任命/了/一名/中/將
顯然第1種是更合理的,這成為組合型歧義
但是,有些歧義單憑字面而沒有上下文是很難消除的,比如「乒乓球拍賣完了」,是「乒乓/球拍/賣完/了」,還是「乒乓球/拍賣/完/了」,就只能靠上下文的語義來判斷了
多看閱讀用的中文分詞,我貢獻了第一個版本,是基於詞典的方法,分詞正確率可以達到95%左右,對劃線這個場景已經足夠用了。另外,因為是詞典的方法,未登錄詞識別(即不在詞典里的詞)也是問題,這裡就不展開了。
因為做不到精確的程序猿已經被殺了祭天了。
推薦閱讀: