關係抽取對抗訓練——《Adversarial Training for Relation Extraction》閱讀筆記

06-05

來自專欄醒醒啊，工頭喊你搬磚了

前言

近半年都是一直在進行NLP中關係抽取的學習，對關係抽取的相關方法有了一定的理解。近幾年關係抽取中基於規則的方法基本不在研究潮流之列，基於機器學習的方法中有監督、半監督、無監督的方法均有人研究，我的畢設使用的融合語義特徵的有監督方法。而基於深度學習的方法是現在最火最熱的方法，模型多為RNN、CNN、BILSTM，以及上一篇的萬物皆Attention。關於深度學習的關係抽取方法模型就這麼幾個，大家都在反覆對比。但神經網路模型往往對輸入信號中的雜訊過於自信，因而便有了對抗訓練的研究。本篇筆記EMNLP2016會議中《Adversarial Training for Relation Extraction》一文進行描述。渣渣視角，紕漏較多，還請大佬指正。

論文創新點

將對抗訓練側重於關係抽取任務，目標是預測給定幾個文本提及的特定實體對之間存在的關係。
在RNN和CNN上分別實驗並做出對比。

方法

文中首先介紹了多實例多標籤學習框架（MIML），然後描述了CNN及RNN。

對抗訓練（AT）是一種通過計算損失函數w.r.t數據的梯度方向來規範分類器，以提高對小的最壞情況擾動的魯棒性的方式。AT產生連續的擾動，所以我們在詞嵌入的基礎上添加對抗雜訊。形式上，考慮輸入數據X，並假設X中所有單詞的單詞嵌入是V。AT向V中添加一個小的對抗擾動e，並優化以下目標：

對於對抗訓練，唯一的參數是ε。文中實驗修正了基本模型的所有超參數，僅對ε進行了二分搜索，並顯示出ε的最有效值。數據集選取NYT及UW數據集。

文章結論

RNN和CNN在對抗訓練AUC下的改進大致相同，但RNN的最優值總是遠大於CNN。這意味著，在對抗性攻擊下，經驗性RNN比CNN更強大，這也有助於RNN在召回增加時保持更高的精度。
在ε的選擇上，當ε = 0，AT損失退化為原始loss; 當ε變得太大，雜訊會改變句子的語義，並使得模型非常難以正確分類對抗的例子。值得注意的是，ε的最優值比詞嵌入的範數要小得多，這意味著只有在對句子特徵進行微小擾動的同時保持語句的語義不變的情況下，對抗訓練才能最有效地發揮作用。

最後

初次寫這類學習筆記，應當多多向大佬學習，有問題還請斧正。部分概念摘自博客，侵權刪。

關係抽取對抗訓練——《Adversarial Training for Relation Extraction》閱讀筆記

前言

相關概念

論文創新點

方法

文章結論

最後