<Neural Relation Extraction with Selective Attention over Instances>筆記

轉載請註明出處:西土城的搬磚工

原文鏈接:aclweb來源:ACL2016

代碼參見 github

標題:Neural Relation Extraction with Selective Attention over Instances

作者:Yankai Lin , Shiqi Shen , Zhiyuan Liu , Huanbo Luan , Maosong Sun

問題:

針對以往distant supervision場景下的關係抽取中所存在的誤標籤傳播所引起的訓練數據雜訊過大的問題,作者提出了一種在關係語句層面上引入Attention機制,通過賦予實體關係體現顯著的mention更高的權重以減少了訓練集中的雜訊,近而提升學習效果。

在之前的研究背景中,關係抽取往往受困於所謂的誤標籤問題。即在大規模訓練集下的關係抽取場景下,很多包含指定實體對而並不反映特定實體關係的語句依然會在訓練之中被作為正例處理。而在傳統的特徵構建方法(POS等)之下,基於語義的特徵將使這些錯誤標籤的語義信息進行傳播。因此通過引入attention機制可以期待減輕該問題。

開展方法:

網路結構:

上圖顯示了本文所涉及方法的整體結構。對於某實體對-關係之下採集自語料中包含該實體對的句子,作者通過CNN網路訓練得到其embedding,而後通過attention(圖中諸α)決定該語句在訓練中的權重從而訓練出目標參數。

句子編碼:

如上圖,對某一具體句子的編碼過程中,在網路的輸入方向上,將本句的詞語編碼為詞向量,並且在詞向量之後加入該句中實體對的位置,將整句作為矩陣輸入網路進行編碼。卷積網路的細節不需多談,將上述輸入經過網路進行卷積並max pooling之後得到一個固定長度的向量,再經過一個非線性函數(如反正切),得到的輸出便是該句的向量。這個向量中是包含著本句中的語義信息的。而對於網路參數的訓練,還需要應用之後經過attention之後的全局目標函數。

Selective Attention over Instances:

對於一個給定的實體對 (head, pair) 和它們的關係,在傳統的distant-supervision的關係抽取中,我們在無標籤的語料集中提取所有包含該實體對的句子,並且認定這樣的句子中實體也存在同樣的關係。然而這樣的先驗假設顯然不是時刻成立的,所以這樣的手法顯然是會影響分類器的效果。所以引入attention是一種很自然的想法,這與其它NLP場景如對該機制的應用是一致的。

在處理中,我們對包含某一實體及其關係的句子委派一權重,這個權重的大小就代表著我們是否可以認為該句子包含著該種關係。對於該權重我們是這樣定義的:

其中:

那麼e這個函數體現了該句子對於該關係的貼切成都。其中x是該句的向量,A是一個作為權重的對角陣,而r則是代表著該關係的向量。顯然e的大小取決於x在r上的映射的大小。與該實體關係更加密切的句子可以取得更大的取值。

那麼對於一簇實體句,在對其引入attention之後定義該關係的向量:

對於加入attention之後的s,再通過一層網路:

這一層網路的參數M是現存所有實體關係的向量所組成的矩陣,這樣的處理在數學上的意義也是很直觀的,最後將該層網路的輸出經過一個softmax層,那麼所要最大化的的就是的就是在網路參數下某實體關係的概率:

選取交叉熵函數並利用隨機梯度下降進行優化最後便可以學得網路的所有參數:

從實驗結果中也可以發現,加入attention之後確實取得比較好的結果。

小結:

這篇文章的思路十分簡潔,面對誤標籤傳播的問題,引入attention來評價句子的貢獻度是一種十分自然而舒服的思路。注意力模型之前在很多自然語言處理場景中都得到了很好的應用,那麼顯然在關係抽取中也可以取得相應的效果。這篇文章的想法對於以後的工作會有很多的借鑒意義。

在本文現有的思路上,我感覺到還可以進一步在語義信息的編碼上進行挖掘。在編碼中加入更多的語義信息會使句子與關係的在語義空間上更為靠近,而直接送入卷積網路的方式略顯粗糙,這或許可以成為一個加強效果的方法。


推薦閱讀:

HIN2Vec:異質信息網路中的表示學習 | PaperDaily #18
如何處理不均衡數據?
現在計算機自然語言處理的最高水平是什麼?
招2000人來審核內容,他們是今日頭條的數據勤雜工還是機器學習的訓練師?

TAG:自然语言处理 |