《Bidirectional Recurrent Convolutional Neural Network for Relation Classification》閱讀筆記
轉載請註明出處:西土城的搬磚工
論文鏈接:Bidirectional Recurrent Convolutional Neural Network for Relation Classification
來源:ACL 2016
問題:基於深度學習的關係抽取
主要方法
本文提出了一個基於最短依賴路徑(SDP)的深度學習關係分類模型,文中稱為雙向遞歸卷積神經網路模型(BRCNN),結構如下圖。
文中提出雙向模型,和以往的論文一樣,考慮到了實體之間關係的方向性,如下圖2 SDP反向,將原來(K + 1)個realtion 類擴充到(2K + 1)個類(other 不考慮方向性),BRCNN分為兩個RCNN,一個前向(SDP為輸入),一個後向(反向的SDP為輸入)。
在每個RCNN中,將SDP中的words和 words之間的dependency relation 分別用embeddings表示,並且將SDP中的words之間的dependency relation 和words分開到兩個獨立channel的LSTM,使它們在遞歸傳播的時候不互相干擾。在convolution層把相鄰詞對應的LSTM輸出和它們的dependency relation的LSTM輸出連結起來作為convolution層的輸入,在convolution層後接max pooling。在pooling層後接softmax分類,共有三個softmax分類器,兩個RCNN的pooling分別接一個softmax做考慮方向的(2K + 1)個關係分類,兩個RCNN的pooling連到一個softmax做不考慮方向的(K + 1)個關係分類。損失函數為三個softmax的cross-entropy 加上正則項:
word embeddings 使用 word2vec 在 Gigaword 訓練得到的200維的詞向量初始化, dependency relation embeddings 使用50維的隨機數初始化,同一 dependency relation不同方向採用不同的 embeddings.
實驗數據
基於經典數據集SemEval-2010 Task8,取得了86.3的F1-score,下面是數據對比。
相關工作
基於深度學習的關係抽取這篇文章對關係抽取的監督學習和深度學習相關工作做了比較詳細的介紹。
傳統的有監督的關係抽取系統需要大量的人工標註的訓練數據,從練數據中自動學習關係對應的抽取模式。有監督關係抽取方法主要包括:基於核函數的方法[Zhao and Grishman 2005; Bunescu and Mooney 2006],基於邏輯回歸的方法[Kambhatla 2004],基於句法解析增強的方法[Milleret al. 2000]和基於條件隨機場的方法[Culotta et al. 2006]。針對人工標註訓練數據需要花費大量的時間和精力這個缺陷,Mintz等人[Mintz et al. 2009]提出了遠程監督(Distant Supervision)的思想。作者們將紐約時報新聞文本與大規模知識圖譜Freebase(包含7300多個關係和超過9億的實體)進行實體對齊。遠程監督假設,一個同時包含兩個實體的句子蘊含了該實體對在Freebase中的關係,並將該句子作為該實體對所對應關係的訓練正例。作者在遠程監督標註的數據上提取文本特徵並訓練關係分類模型,有效解決了關係抽取的標註數據規模問題。
傳統的有監督的關係抽取嚴重依賴詞性標註、句法解析等自然語言處理標註提供分類特徵,但是這些特徵往往存在大量的錯誤,在之後的訓練過程中,這些錯誤會影響關係抽取的結果。
很多研究人員開始考慮將深度學習運用到關係抽取中,[Socher et al. 2012]提出使用遞歸神經網路來解決關係抽取問題,主要使用句子的句法信息,實體的位置和語義信息,結合詞向量,通過遞歸神經網路來得到句子的向量表示,再用於關係分類。[Zeng et al. 2014]提出採用卷積神經網路進行關係抽取。他們採用辭彙向量和詞的位置向量作為卷積神經網路的輸入,通過卷積層、池化層和非線性層得到句子表示。[Santos et al. 2015]還提出了一種新的卷積神經網路進行關係抽取,其中採用了一種新的ranking損失函數。[Miwa et al. 2016]提出了一種基於端到端神經網路的關係抽取模型。該模型使用雙向LSTM(Long-Short Term Memory,長短時記憶模型)和樹形LSTM同時對實體和句子進行建模。[Lin et al. 2016]提出了一種基於句子級別注意力機制的神經網路模型來解決這個問題,該方法能夠根據特定關係為實體對的每個句子分配權重。
簡評
正如論文中提到,論文主要有兩個新穎點:第一,使用兩個channel LSTM分別encode SDP的words 信息和dependency relation信息,使用convolution layer將兩部分連接起來,使用LSTM學習SDP的全局信息,使用convolution layer提取word之間的局部信息。結合了[Yan Xu et al. 2015]的多通道LSTM的特點和[Zeng et al. 2014]的卷積關係抽取的特點。 第二,提出了雙向結構同時分別學習SDP的前向和後向的句子表示信息,增強了對實體關係方向分類的能力。
將深度學習運用到關係抽取中取得了很好的效果,但是最近幾年的論文模型的創新點不多,大多是之前的論文模型的結合和改進。大多基於句法樹的樹形LSTM或CNN模型或兩者結合,將多種信息用於不同的通道。個人感覺這樣的方式來提升效果將越來越難,沿著這個方向的提升空間越來越小。目前關係抽取的深度學習模型都依然依賴於句法樹分析,句法樹存在較多錯誤。有研究表明,如果對於一個句子考慮其最可能的多個句法分析樹,分析結果準確率可以得到較大提升。將句子的多個可能句法樹信息結合起來用於關係抽取將是一個重要的研究方向。
參考文獻
Zhao, Shubin, and RalphGrishman. Extracting relations with integrated information using kernel methods. In Proceedings of ACL, 2005.
Mooney, Raymond J., and Razvan C. Bunescu. Subsequence kernels for relation extraction. In Proceedings ofNIPS, 2005.
Kambhatla, Nanda. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations. In Proceedings of ACL, 2004.
Culotta, Aron, Andrew McCallum,and Jonathan Betz. Integrating probabilistic extraction models and datamining to discover relations and patterns in text. In Proceedings of HLT-NAACL,2006.
Mintz, Mike, Steven Bills, RionSnow, and Dan Jurafsky. Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, 2009.
Socher, Richard, et al. Semantic compositionality through recursive matrix-vectorspaces. Proceedings of EMNLP-CoNLL, 2012.
Santos Cicero Nogueira dos, Xiang Bing, Zhou Bowen. Classifying Relations by Ranking with Convolutional Neural Networks. In Proceedings of ACL,2015.
Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao.Relation classification via con- volutional deep neural network. COLING,2014.
推薦閱讀:
※在不考慮語音輸入的前提下,訊飛輸入法和搜狗輸入法哪個更好?
※word2vec和sentence2vec的真正差別是什麼?後者和簡單用詞向量累加有什麼差別?
※寫了一篇識別文本情感的論文,用樸素貝葉斯方法;期刊回復沒有創新,拒錄。求建議?
※自然語言處理(NLP)和計算語言學之間的區別和聯繫是什麼?
TAG:自然语言处理 |