Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

論文地址:Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

來源:AAAI2017

1. 問題介紹

標註數據的規模一直是限制關係抽取任務發展的主要問題。因為人工標註成本過高,因此為自然界中所有的問題都提供充足的標註數據是不可能完成的任務。在這種背景下,研究人員採用弱監督的方法自動生成訓練數據集,有效緩解訓練數據不足的問題:將知識庫中的三元組(e1, r, e2),與非結構化文本數據對齊,從而構造大量訓練數據。但是此條件下生成的訓練集中存在一定的雜訊數據,所以當前針對弱監督關係抽取任務的主要研究方向是如何自動有效的戰勝或移除雜訊數據。

本文主要貢獻:

本文針對之前的工作在選取有效實例(句子)和實體描述方面存在的缺陷,提出了魯棒的降噪方法。

(1)提出了一種句子級注意力模型APCNNs來選取有效實例,充分利用知識庫中的監督信息。

(2)從Freebase和Wikipedia抽取實體描述來增補背景知識,這些背景知識可以為關係預測提供更多信息,還可以在注意力模型中幫助進行更好的實體表徵。經過實驗驗證,本文提出的方法的關係抽取效果相對baseline有明顯提升。

2. 相關工作

關係抽取的方法大概可分為兩類:監督和弱監督。

監督方法:將任務視作多分類問題,可以達到較高precision和recall,但是需要人工標註數據,難以應用大規模語料庫。

弱監督方法:將自由文本與知識庫中的大量結構化數據信息(弱監督信息)對齊,避免人工標註,用以訓練關係抽取系統,當時弱監督數據存在一定數量的雜訊數據。

  • 自動標註訓練數據:

對於KB中的三元組(e1, r, e2),所有包含實體e1和e2的句子都被視作關係r的訓練數據。下圖為三元組/location/location/contains(Nevada, Las Vegas)的訓練實例&實體描述背景知識。

關係r:/location/location/contains

實體(e1,e2): (Nevada, Las Vegas)

訓練實例:S1-S4

實體描述:【Navada】【Las Vegas】

  • 誤標籤問題及當前解決方案

對於三元組(e1, r, e2),認為所有包含e1和e2的句子組成一個bag,關係r為此bag的標籤。但是有時並不是bag中的所有句子都表達關係r(e.g.,Figure 1中S2&S4)。目前針對此問題的基於深度學習的解決方案:

a) At-least-one假設(Zeng et al., 2015):

認為提及兩個目標實體的句子中至少有一個句子能表達目標關係,這種方法可能會遺漏一些重要信息。

b) 句子級別Attention (Lin et al., 2016):

為bag中的所有句子計算相應權重,體現句子對於目標關係的貢獻值,這種方法有效的所有句子的信息。

  • 本文的思路

本文採用Attention的方法,充分的利用了數據集中的信息。並且本文加入實體描述信息來幫助計算Attention Weights,以此加入有用的背景知識信息。(e.g. 沒有實體描述的話,S1表達的關係將有歧義)

3. 任務內容

訓練

擁有相同三元組(e1, r,

e2)的句子組成一個bag,其中每個句子稱為一個實例。

訓練集中包含N bags:

第i個bag中包含qi個實例:

需要先從bag里的一個或多個有效句子中提取特徵後再用於訓練分類器。

測試

用相同的方法提取特徵後,再應用分類器進行給定實體對的關係預測。

4. 方法和模型

本文提出的模型主要可以分為兩部分,第一部分用於生成句子向量,第二部分用於計算Attention

Weights,並加權就和得到當前bag的向量表示。

  • PCNNs: 用於計算bag中實例(句子)的特徵向量。

a) Vector Representation

網路輸入:將位置向量與詞向量通過連接操作組成一個合成向量,向量大小

k= kw + 2kd (kw, kd分別為詞向量和位置向量的size)

1) Word Embeddings: 採用Mikolov

et al. 2013a 方法訓練出的詞向量初始化句子中的詞語,預訓練的詞向量矩陣用E表示。

2) Position Embeddings: 當前詞與e1,e2的相對距離,隨機初始化表示相對距離的向量,並與模型共同訓練。

b) Convolution and Piecewise Max-pooling

PCNN先對輸入的句子做一系列局部窗口的卷積操作,然後將得到的特徵向量根據實體對(e1,

e2)的位置將實例分為三段,分別進行最大池化。串聯所有池化層結果

得到

上圖(a)中灰色圓點代表實體位置,以n=3為例。句子S的特徵向量:

  • Sentence-level Attention Model: 結合實體描述給有效句子賦更高權值

a) 實例描述Entity Descriptions

在關係抽取中,實體對之間的關係與實體本身所攜帶的信息具有很大的關係。本文利用了這個特點,將實體信息融入到Attention

Weights的計算當中。如何得到準確的實體描述是一個非常關鍵的問題。如果只利用詞向量作為實體信息的描述會存在局限性:

(1)詞向量很難學出專有名詞,類似人名,地名的準確向量表示;

(2)人名經常作為實體出現,詞向量無法給具有相同姓名的不同人物不同的向量表示;

(3)對於預訓練詞向量矩陣中沒有出現過的實體,只能隨機初始化,該向量無法攜帶任何有用信息。針對以上問題,本文利用Freebase和Wikipedia提供的實體的描述信息,生成特定語境下的實體的準確的向量表示。

表示(entity, description)對。description為作者收集到的實體的描述語句, d_{i} 則通過傳統CNN計算得到得到,該CNN權重矩陣為

是獨立於前面提到的網路的新構建的實體信息描述生成網路。作者希望實體的向量 e_{i}d_{i}

其描述相近,定義二者間誤差:

所以本文希望在end-to-end的訓練過程中得到更好的 e_{i} 。本文應用的實體描述來自Freebase的數據量為25271,Wikipedia數據量為14257,其中捨棄來自Wiki的包含「may

refer to」的模糊描述(8%)。對每個描述抽取前80個詞進行應用。

b) Attention Layer

用e1和e2的向量差 v_{relation}=e_{1}-e_{2} 來表示實例中實體間的關係r,如果一個實例能表達這種關係,那麼其向量表達應該和 v_{relation} 高度相似,由此計算權重:

其中 left[ b_{i};v_{relation} 
ight] 為二者垂直級聯。為不同實例賦權,計算整體bag feature:

c) Softmax

為了計算每種關係的置信度,應用Softmax。

其中

為權重矩陣。

第i個關係的條件概率:

其中B表示一個bag。

5. 實驗

訓練

三種配置:

a) APCNNs 只包含Attention Model,不包含實體描述。

b) APCNNs+D

c) PCNNs+MIL+D, 只選取一個實例。

結果

  • 數據集:Freebase和New York Tims(NYT):52 relations 和 9528 entities
  • 評估:

a) held-out evaluation:自動比較抽取關係實例和freebase中的關係數據。在Figure 4 中,recall很低的時候曲線有大幅下降,這是因為held-out evaluation會受freebase中false

negative問題的影響,人工評價可以消除這種問題。

b) 人工評價:選取在語料庫中標記為「NA」,但是模型結果不是「NA」的bag,計算準確度。

c) Weight α分析:

可以看出,其中第四個實例是無效實例,相對於之前的工作APCNNs,本文提出的APCNNs+D通過加入實例描述後,為該實例賦予更低的權重,強化了attention模型的效果。

6. 總結&思考

針對弱監督關係抽取數據集中的雜訊數據問題,本文通過加入實體描述信息,提出了更魯棒的Attention機制。實體描述信息的向量表示結合了知識圖譜構建的TransE模型的思路,非常具有說服力。

因為Freebase中的實體多為著名的人物或地點,所以可以找到準確的描述信息,如果對於沒有可以直接利用的描述的實體,該如何生成準確的實體描述?


推薦閱讀:

嶺回歸-嶺回歸
NLP選題:6大研究方向助你開啟科研之路
關於神經網路參數初始化為全0的思考
論文筆記 - 從神經圖靈機 NTM 到可微分神經計算機 DNC
文本多分類踩過的坑

TAG:自然語言處理 |