讓機器認知中文實體 —復旦大學知識工場發布中文實體識別與鏈接服務

05-13

一、什麼是實體識別與鏈接

近年來，如何通過知識圖譜讓機器實現自然語言理解受到越來越多的關注。其中，識別文本中的實體，並將它們鏈接到知識庫中，是讓機器理解自然語言的第一步，也是至關重要的一步。比如，當智能問答系統在回答「李娜在哪一年拿到澳網冠軍？」這一問題時，第一步就是識別並在知識庫中找到網球運動員李娜這一實體，才能繼續從知識庫中找到相關信息並作出回答。如果識別出錯或者沒有將「李娜」正確鏈接到網球運動員李娜這一實體的話，系統對於這個問題的回答必然出錯。根據我們的調研，目前面向通用領域的中文實體識別與鏈接服務，能夠公開可用且取得滿意效果的還不多見。

實體識別與鏈接的問題定義如下：給定一個知識庫K，其包含一個實體集合E以及相應已知的實體同義詞集合M；對於一段輸入文本t，識別t中的所有指代實體的欄位m∈M，並將它們鏈接到正確的知識庫中的實體e∈E。

圖1 實體鏈接示例

圖1是一個例子，給定知識庫CN-DBpedia，對於輸入文本「李娜唱的青藏高原很好聽」，可以識別出文本中指代實體的欄位「李娜」和「青藏高原」，然後分別把他們鏈接到CN-DBpedia中的實體「李娜（流行歌手、佛門女弟子）」和「青藏高原（張千一作詞、作曲歌曲）」。

相對於其他的實體識別與鏈接，這個任務有如下特點：首先，知識庫K為通用知識庫，即其實體集合E很大（數量為千萬級），並且包含來自各個領域的實體。其次，輸入文本t通常為短文本，大多數只包含一個實體。

二、實體識別與鏈接的技術挑戰

1、實體識別和鏈接的基本挑戰

實體識別需要識別文本中指代的實體的片段。通常有兩種解決方案，第一種是利用知識庫的同義詞庫識別所有可能為實體的欄位，然後進行篩選判斷；第二種是對文本做語法分析，通過詞本身及其語法特徵識別實體。對於第一種方案，需要均衡考慮候選片段為實體的可能性和片段之間相互覆蓋與選擇的問題，比如「吳彥祖國籍是什麼」，應該正確地識別「吳彥祖」和「國籍」，而不是識別「祖國」；對於第二種方案，若要達到很好的效，合適的特徵提取以及足夠的訓練樣本是必不可少的。

實體識別出來的實體名通常是有歧義的，也就是說一個實體名通常會指代知識庫中的多個實體，比如之前提到的「李娜」。如何將實體名鏈接到知識庫中的正確實體是實體鏈接需要解決的問題。解決這個問題的關鍵在於如何有效地利用實體本身的屬性以及實體名出現時上下文的信息。

以上為通用實體識別與實體鏈接共同的挑戰。這個任務具有的一些特點，還導致了一些額外的挑戰。

圖2 在通用領域的知識庫CN-DBpedia里，實體的歧義性很大

2、通用領域的實體識別與鏈接的挑戰

以通用領域的知識庫CN-DBpedia為知識庫進行的實體鏈接會帶來額外的挑戰。通用領域的實體識別與鏈接具有兩個主要特點：第一個特點是實體量巨大。這不僅對候選實體增加了大量噪音，而且也需要對實體進行相關領域判斷，這樣一來，實體識別與鏈接就需要更多的考慮，如圖2所示，在CN-DBpedia里，「北京」除了中國首都之外，還能指代一首歌、一張專輯、一首詩、一部小說和一個小行星的名字。第二個特點是實體界限模糊。通用知識庫幾乎包含了所有詞，包括一些平凡的實體，比如「圖片」、「鋼筆」，還有一些成語俗語，比如「危言聳聽」、「厚德載物」等等。但這些實體在實際應用中通常是不希望被識別和鏈接出來的，這對實體詞的判斷帶來了很大的難度。

3、短文本的實體識別與鏈接的挑戰

短文本輸入進行的實體鏈接也會帶來額外的挑戰。在大多數情況下，輸入文本只是輸入一個句子，有時候甚至是一個片語。與針對長文本或者文檔的實體識別與鏈接方法不同的是，短文本輸入的上下文信息非常缺乏，並且幾乎沒有共現實體的信息。比如「冰與火之歌有多少卷」，在上下文無其他實體的語境中要識別並將「冰與火之歌」鏈接到小說而不是電視劇。但是現實生活中，大部分的文本信息都是以短文本的方式存在，這就需要著重發掘詞語與實體的關係，從而從極少的文本中提取到語義信息。

4、中文實體識別與鏈接的挑戰

現有的大量實體識別與鏈接工作是基於英文的，把基於英文的方法應用到中文中是有很大難度的。首先，在特徵提取方面，中文實體在字面上缺少很多英文實體具有的明顯特徵，比如大寫、縮寫等。其次，處理中文文本需要處理分詞問題。不同的分詞結果影響著句子的語義表達結果，而且現在的分詞技術也存在著許多缺陷，分詞的錯誤會對實體名邊界的確認造成影響。此外，中文實體識別還缺少訓練數據。現在命名實體識別的主流方法是機器學習，在機器學習中，訓練數據是至關重要的。因此缺少訓練數據對中文實體識別造成了很大的困難。最後，中文知識圖譜並不如英文知識圖譜那麼完善，缺少很多實體關係，多了不少噪音，這就導致很多利用實體關係解決問題的方法難以達到效果。

三、主要應用場景

1、信息抽取

信息抽取系統提取的實體和關係通常是不明確的，將它們與知識庫鏈接起來是消除歧義和精化輸入的好方法，這對於它們的進一步發展至關重要。

信息抽取的一個重要任務就是關係抽取。知識圖譜中除了實體之外，還有許多關係和屬性。CN-DBpedia中的關係如圖3所示，這樣的關係通常是不完整的，需要從大量的自由文本中抽取。比如，若需要從文本「喬治.馬丁寫了冰與火之歌」中抽取關係，第一步則是將「喬治.馬丁」和「冰與火之歌」從文本中識別並分別鏈接到正確的人和書名之中，然後才能根據其餘文本抽取出<喬治?雷蒙德?理查德?馬丁，作者，冰與火之歌（喬治?r?r?馬丁所著小說）>這樣的關係。

圖3 CN-DBpedia中的實體關係與屬性

2、信息檢索

由傳統的基於關鍵字的搜索推進到基於語義實體的搜索的這一趨勢，近年來引起了很多關注。基於語義實體的搜索可以受益於實體鏈接，因為它本質上需要在網路文本中出現消除歧義的實體名，以便更精確地處理實體和Web文檔的語義。另外，歧義查詢也會影響搜索結果質量，有歧義的實體出現在搜索查詢中，給信息檢索系統理解查詢帶來了巨大挑戰，因此實體識別與鏈接至關重要。

比如實體名「紅樓夢」出現在查詢語句中可能有很多不同的意思，有可能指的是名著《紅樓夢》，也有可能是某部改編的電視劇或者電影。將這些有歧義的實體名進行識別和鏈接無疑能提高返回搜索結果的質量。

3、主題分析

主題分析是指從文本內容中分析出主題，主旨及其分類等信息，這也需要利用實體識別與鏈接。將文章中的實體鏈接到知識庫，可以通過實體的類別和關係等信息更好地進行主題分析。如今，微博已經成為重要的信息來源，可以通過發現特定微博用戶感興趣的主題推薦和搜索其他微博用戶。比如在一個用戶的微博中識別出了「成龍」，另一個用戶的微博識別出了「李連杰」，那麼可以通過這兩個實體在知識庫的關聯來對微博用戶進行關聯和推薦。

4、智能問答

大多數智能問答系統利用其支持的知識庫來回答用戶的問題。為了回答「青藏高原是誰唱的？」這個問題，系統可以通過實體識別和鏈接，消除實體名「青藏高原」的實體歧義，然後從知識庫中直接找到唱這首歌的歌手來作為用戶問題的回答。

5、知識庫擴充

隨著世界的發展，新的事實在網路上產生並被數字化表達。利用新提取的事實自動填充和豐富已有的知識庫，已成為語義Web和知識管理技術的關鍵問題。實體鏈接本質上是知識庫擴充的一個重要的子任務。給定一個需要擴充知識庫的關係或事實，如果與該關係相關的實體在知識庫中有其相應的實體記錄，則應該進行實體關聯任務，將該實體名與其對應的實體相關聯，因此，實體識別與鏈接能夠幫助知識庫擴充。

四、實體識別與鏈接服務

知識工場提供實體識別與鏈接的服務，包括DEMO和API。

1、DEMO

地址為 http://shuyantech.com/api/entitylinking/

在輸入框輸入文本，輸出經過實體識別與鏈接後的文本，其中被識別的實體會鏈接到CN-DBpedia知識庫中。如圖4所示。

圖4 實體鏈接demo

2、API

地址為 http://shuyantech.com/api/entitylinking/cutsegment

輸入參數q，表示輸入的文本

輸出為包含兩個域的json字典。其中鍵「cut」表示將輸入文本的分詞結果，值為字元串列表；鍵「entities」表示輸入文本中鏈接的實體，值為一個列表，列表的每個元素表示一個鏈接的實體，表示為一個長度為2的列表，列表第一個元素是實體在輸入文本中出現的位置，第二個元素為實體在CN-DBpedia中的名字。

使用示例：

輸入：

http://shuyantech.com/api/entitylinking/cutsegment?q=打球的李娜和唱歌的李娜不是同一個人

輸出：

{"cuts": ["打球", "的", "李娜", "和", "唱歌", "的", "李娜", "不是", "同一個", "人"], "entities": [[[3, 5], "李娜（中國女子網球名將）"], [[9, 11], "李娜（流行歌手、佛門女弟子）"]]}

五、實體識別與鏈接數據集

知識工場提供實體識別與鏈接的數據集。

數據集的文本由1037條人工標註的短文本語料組成。其中大約70%來自新聞語料，包括新聞標題和內容，比如「英超-桑切斯4分鐘內梅開二度阿森納3-2五輪不敗」，大約20%來自人工構建的基於歧義實體的語料，比如「紅樓夢的演員有哪些？」，其餘的大約10%來自問答語料中的簡單問句，比如「岳陽有哪些旅遊景點？」。

數據標註的格式如下。每個樣本的標註格式包括3個部分：語料，mention和實體。用製表符『』分隔，其中mention為語料中指代實體的欄位，多段用「|||」分隔，實體部分為各mention對應的實體，多個用「|||」分隔，數量應與mention一致。比如「李娜拿過澳網冠軍嗎李娜|||澳網李娜（中國女子網球名將）|||澳大利亞網球公開賽」。

目前，我們的實體識別與鏈接技術在該數據集上達到很好的效果。在沒有任何背景主題信息，無論是短語還是長句，均達到90%以上準確率。其中實體識別部分的準確率為91.0%，實體鏈接部分的準確率為94.5%。更多詳細指標見技術報告。

知識工場提供實體識別與鏈接的數據集。鏈接如下：

https://github.com/chenlihan240/chinese_entity_linking/blob/master/data/test.txt