NLP系列學習:命名實體識別(一)
來自專欄雲時之間5 人贊了文章
在自然語言處理中,分詞,詞性標註,命名實體識別和句法情感分析是非常關鍵的分支,因為最近需要對此有一些應用,便去了解了一下特定領域目前使用的方法以及一些困難,特此進行總結。
命名實體識別
1:命名實體識別概念
命名實體識別指識別文本中具有特定意義的實體,如人名、機構名、地名等專有名詞和有意義的時間等,是信息檢索、問答系統等技術的基礎任務。如在「小明在夏威夷度假。」中,命名實體有:「小明——人名」、「夏威夷——地名」。
按照ACE2003的語料標註說明,我們將實體分為五大類,分別是人名,組織機構名,地名,行政區名和設施名,但是每一類當中還有若干的子類,這裡就不細說了,有興趣可以自行查找。
相對於英文,中文命名實體沒有明顯的形式標誌,還存在分詞的干擾,導致中文命名實體識別難度也高於英文。現如今我們使用的實體檢測與識別的途徑主要有兩種,一種是先進行實體檢測,再去對已經檢測的實體進行識別,另一種是將實體與識別的對象結合到一個模型里,同時得到字元的位置進行標記和類別標記。
2:命名實體識別的困難
和英語相比,漢語命名實體識別任務更加複雜,由於分詞等因素的影響難度較大,其難點主要表現在如下幾個方面:
(1)命名實體類型多樣,數量眾多,不斷有新的命名實體湧現,如新的人名、地名等,難以建立大而全的姓氏庫、名字型檔、地址庫等資料庫。
(2)命名實體構成結構比較複雜,並且某些類型的命名實體詞的長度沒有一定的限制,不同的實體有不同的結構,比如組織名存在大量的嵌套、別名、縮略詞等問題,沒有嚴格的規律可以遵循;人名中也存在比較長的少數民族人名或翻譯過來的外國人名,沒有統一的構詞規範。因此,對這類命名實體識別的召回率相對偏低。
(3)在不同領域、場景下,命名實體的外延有差異,存在分類模糊的問題。不同命名實體之間界限不清晰,人名也經常出現在地名和組織名稱中,存在大量的交叉和互相包含現象,而且部分命名實體常常容易與普通詞混淆,影響識別效率。在個體戶等商戶中,組織名稱中也存在大量的人名、地名、數字的現象,要正確標註這些命名實體類型,常常要涉及上下文語義層面的分析,這些都給命名實體的識別帶來困難。
(4)在不同的文化、領域、背景下,命名實體的外延有差異。對命名實體的定界和類型確定,目前還沒有形成共同遵循的嚴格的命名規範。
3:進行命名實體識別的方法
命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。
1.基於規則和詞典的方法
基於規則的方法多採用語言學專家構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞、中心詞等方法,以模式和字元串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。基於規則和詞典的方法是命名實體識別中最早使用的方法,一般而言,當提取的規則能比較精確地反映語言現象時,基於規則的方法性能要優於基於統計的方法。但是這些規則往往依賴於具體語言、領域和文本風格,編製過程耗時且難以涵蓋所有的語言現象,特別容易產生錯誤,系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。基於規則的方法的另外一個缺點是代價太大,存在系統建設周期長、移植性差而且需要建立不同領域知識庫作為輔助以提高系統識別能力等問題。
2.基於統計的方法
基於統計機器學習的方法主要包括:隱馬爾可夫模型、最大熵、支持向量機、條件隨機場等。
在這4種學習方法中,最大熵模型結構緊湊,具有較好的通用性,主要缺點是訓練時間複雜性非常高,有時甚至導致訓練代價難以承受,另外由於需要明確的歸一化計算,導致開銷比較大。而條件隨機場為命名實體識別提供了一個特徵靈活、全局最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。一般說來,最大熵和支持向量機在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓練和識別時的速度要快一些,主要是由於在利用維特比演算法求解命名實體類別序列的效率較高。隱馬爾可夫模型更適用於一些對實時性有要求以及像信息檢索這樣需要處理大量文本的應用,如短文本命名實體識別。
基於統計的方法對特徵選取的要求較高,需要從文本中選擇對該項任務有影響的各種特徵,並將這些特徵加入到特徵向量中。依據特定命名實體識別所面臨的主要困難和所表現出的特性,考慮選擇能有效反映該類實體特性的特徵集合。主要做法是通過對訓練語料所包含的語言信息進行統計和分析,從訓練語料中挖掘出特徵。有關特徵可以分為具體的單詞特徵、上下文特徵、詞典及詞性特徵、停用詞特徵、核心詞特徵以及語義特徵等。
基於統計的方法對語料庫的依賴也比較大,而可以用來建設和評估命名實體識別系統的大規模通用語料庫又比較少。
3.混合方法
自然語言處理並不完全是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間非常龐大,必須藉助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法:
3.1 統計學習方法之間或內部層疊融合。
3.2 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。
在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。
3.3 將各類模型、演算法結合起來,將前一級模型的結果作為下一級的訓練數據,並用這些訓練數據對模型進行訓練,得到下一級模型。
這種方法在具體實現過程中需要考慮怎樣高效地將兩種方法結合起來,採用什麼樣的融合技術。由於命名實體識別在很大程度上依賴於分類技術,在分類方面可以採用的融合技術主要包括如Voting, Grading等。
4:測試方法
主要根據兩個評價指標衡量信息抽取系統的性能:召回率和準確率。召回率(REC)等於系統正確抽取的結果占所有可能正確結果的比例;準確率(PRE)等於系統正確抽取的結果占所有抽取結果的比例。為了綜合評價系統的性能,通常還計算召回率和準確率的加權幾何平均值,即F指數,計算公式如下:
F-Measure=
其中,beta是召回率和準確率的相對權重。beta等於1時,二者同樣重要;beta大於1時,準確率更重要一些;beta小於1時,召回率更重要一些。
5:參考文獻
- 《統計自然語言處理》 宗成慶
- 基於規則和條件隨機場的中文命名實體識別方法研究 程志剛
- 命名實體識別研究進展綜述 孫鎮
推薦閱讀:
TAG:機器學習 | 深度學習DeepLearning | NLP書籍 |