關係抽取對抗訓練——《Adversarial Training for Relation Extraction》閱讀筆記
來自專欄醒醒啊,工頭喊你搬磚了
前言
近半年都是一直在進行NLP中關係抽取的學習,對關係抽取的相關方法有了一定的理解。近幾年關係抽取中基於規則的方法基本不在研究潮流之列,基於機器學習的方法中有監督、半監督、無監督的方法均有人研究,我的畢設使用的融合語義特徵的有監督方法。而基於深度學習的方法是現在最火最熱的方法,模型多為RNN、CNN、BILSTM,以及上一篇的萬物皆Attention。關於深度學習的關係抽取方法模型就這麼幾個,大家都在反覆對比。但神經網路模型往往對輸入信號中的雜訊過於自信,因而便有了對抗訓練的研究。本篇筆記EMNLP2016會議中《Adversarial Training for Relation Extraction》一文進行描述。渣渣視角,紕漏較多,還請大佬指正。
相關概念
實體關係抽取是指從自然語言所表述的語料中獲得命名實體之間所存在的關係。如人與物品的製造使用關係(ART)、人與組織的從屬關係(ORG-AFF)等均屬於實體關係。
對抗訓練(AT)是通過對訓練數據產生對抗雜訊來規範分類演算法的一種手段。它鼓勵神經網路對未經修改的例子和擾動的例子進行正確的分類來實現深層模型,這實際上不僅增強了神經網路的魯棒性,而且提高了它的普遍性。Szegedy的文章《Intriguing properties of neural networks》表明將對抗樣本和普通樣本一起訓練模型訓練,可使模型稍微正則化。訓練對抗樣本和普通的數據增加不一樣:通常我們通過對數據進行變形來增加數據,這樣變形後的數據是可能出現在測試集里的。而對抗樣本這種數據通常不可能自然地出現在測試集中,但是它們可以揭露出模型的缺陷。
論文創新點
- 將對抗訓練側重於關係抽取任務,目標是預測給定幾個文本提及的特定實體對之間存在的關係。
- 在RNN和CNN上分別實驗並做出對比。
方法
文中首先介紹了多實例多標籤學習框架(MIML),然後描述了CNN及RNN。
對抗訓練(AT)是一種通過計算損失函數w.r.t數據的梯度方向來規範分類器,以提高對小的最壞情況擾動的魯棒性的方式。AT產生連續的擾動,所以我們在詞嵌入的基礎上添加對抗雜訊。形式上,考慮輸入數據X,並假設X中所有單詞的單詞嵌入是V。AT向V中添加一個小的對抗擾動e,並優化以下目標:
對於對抗訓練,唯一的參數是ε。文中實驗修正了基本模型的所有超參數,僅對ε進行了二分搜索,並顯示出ε的最有效值。數據集選取NYT及UW數據集。
文章結論
- RNN和CNN在對抗訓練AUC下的改進大致相同,但RNN的最優值總是遠大於CNN。這意味著,在對抗性攻擊下,經驗性RNN比CNN更強大,這也有助於RNN在召回增加時保持更高的精度。
- 在ε的選擇上,當ε = 0,AT損失退化為原始loss; 當ε變得太大,雜訊會改變句子的語義,並使得模型非常難以正確分類對抗的例子。值得注意的是,ε的最優值比詞嵌入的範數要小得多,這意味著只有在對句子特徵進行微小擾動的同時保持語句的語義不變的情況下,對抗訓練才能最有效地發揮作用。
最後
初次寫這類學習筆記,應當多多向大佬學習,有問題還請斧正。部分概念摘自博客,侵權刪。
推薦閱讀:
※腦洞大開的機器視覺多領域學習模型結構 | CVPR 2018論文解讀
※Recurrent Models of Visual Attention 源碼解析
※DarkNet-YOLOv3 訓練自己的數據集 Ubuntu16.04+cuda8.0
※[CVPR2018筆記]Embodied Question Answering
※CVPR 2018 | 曠視科技Face++提出RepLoss,優化解決密集遮擋問題
TAG:計算機視覺 |