<Reinforcement Learning for Relation Classification from Noisy Data>閱讀筆記

05-01

引言

關係分類（Relation classification）是指在文本中提取實體之間的語義信息，在NLP中是一個很重要的問題。目前的工作一般集中於利用監督學習的方法，需要高質量的標註數據。

人工標註數據需要耗費很大的人力物力，所以利用遠程監督（distant supervision）來獲取訓練數據非常流行。遠程監督方法認為若在某個知識庫里兩個實體間有某種關係，那麼非結構化文本里所有包含這兩個實體的的句子都會表示這種關係，這種方法可以高效自動標註數據，但會帶來比較嚴重的噪音問題，例如，如果Obama和United States在知識庫中的關係是 BornIn，那麼「Barack Obama is the 44th President of the United States.」這樣的句子也會被標註為BornIn關係。

為了解決標註噪音問題，之前的工作用multi-instance learning的思想來解決實例的噪音問題，它們的訓練和測試都是在bag level上進行的，這樣的方式有一定效果但會受到兩個限制：

不能在sentence-level上進行預測。
對所有句子都是錯誤的bag比較敏感。

為了解決這兩個問題，本文提出了一個由一個instance selector和relation classifier新型關係分類模型，其中instance selector用於從sentence bag中篩選高質量的sentence，然後relation classifier在sentence-level上進行預測。

強化學習Reinforcement Learning

這是強化學習的基本模型，在每一步t

agent從environment獲取state $S_{t}$
agent根據獲取的state $S_{t}$ 按照policy function執行action $A_{t}$
agent從environment處獲取reward $R_{t}$
environment轉化到新的state $S_{t+1}$

模型的目標就是選擇actions使最大化total future rewards，其中actions可以會有長期的影響而reward也可能是delayed reward。

policy是控制agent行動的function，它把state映射到action上，分為兩類

deterministic policy $a=pi(s)$ ，在某個state下做出確定的action。
stochastic policy $pi(a|s)=P(A_{t}=a|S_{t}=s)$ ，在某個state下可能做出多種action（a或b），實際上是一個概率分布。

模型

模型結構如圖，左邊是基於強化學習的instance selector，右邊是經典的基於CNN的relation classifier。instance selector根據policy function對noisy data逐個進行篩選，對每個樣本都可以執行「選」或「不選」兩種action，篩選完畢之後會形成一個新的數據集cleaned data作為relation classifier的輸入，RC會評估這個數據集的好壞計算出reward返回給IS，並利用這個cleaned data更新自己的參數，再使用 policy gradient 來更新 policy function 的參數，這裡的 reward 採用的是數據集中所有樣本的平均 likelihood。

本文將關係分類問題分解成了兩個子問題：instance selection 和 relation classification。數據集X={( $x_{1},r_{1}$ ),( $x_{2},r_{2}$ ),....,( $x_{n},r_{n}$ )}，其中 $x_{i}$ 是一個用實體對( $h_{i},t_{i}$ )的句子，對應的帶有噪音的關係是 $r_{i}$ ，instance selection的目標就是篩選哪些句子是真的描述關係 $r _{i}$ 因此可以被選入訓練集的。而relation classification的目標則是給定句子 $x_{i}$ 和實體對 $(h_{i},t_{i})$ ，計算 $p_{Phi}(r_{i}|x_{i},h_{i},t_{i})$ 。

Instance Selector

每個句子 $x_{i}$ 都有一個對應的action $a_{i}$ (選或不選)，state $s_{i}$ 由目前的句子 $x_{i}$ ，已選的句子{ $x_{1},...,x_{i-1}$ }以及句子里包含的實體對 $(h_{i},t_{i})$ 所表示，instance selector在state $s_{i}$ 下根據stochastic policy做出action。

對應強化學習模型，instance selector就是一個agent，它與由raw data以及relation classifier組成的environment進行交互，並在所有selection都完成後的terminal state獲取relation classifier返回的delayed reward，這就意味著instance selector每次都要篩選完整個數據集才能更新自己的policy function，這樣顯然效率太低。因此本文將數據集X分解成N個bags $B=$ { $B^{1},B^{2},....,B^{N}$ }，每完成一個bag的selection就計算一次reward，其中每個bag對應一個實體對以及相應的有噪音的關係。在所有 bag 訓練完以後，再用篩選出的cleansed dataset $ilde{X}$ 來更新 Relation Classifier 的參數。

State

作者用一個實值向量 $F(s_{i})$ 來表示當前state，這個向量編碼了以下信息：

從relation classifier的CNN的非線性層獲取的當前句子的向量表示（vector representation）。
所有已選句子的向量表示的均值。
從預訓練好的embedding table獲取的實體對的向量表示。

Action

作者用 $a_{i}in(0,1)$ 來表示instance selector是否會選擇當前bag的第i個句子，其中policy function是

Reward

只有噹噹前bag處理完畢後才能獲取relation classifier反饋的delayed reward，因此只有在state $S_{|B|+1}$ 時reward才存在，因此reward的表達式為

其中 $ilde{B}$ 是已選句子的集合，也是當前B的子集， $r$ 則是當前bag $B$ 對應的關係， $p(r|x_{j})$ 是由relation classifier所計算的，若 $ilde{B}=phi$ ，則當前reward設置為所有句子的均值，這樣可以有效的排除全是噪音的bag。

Optimization

對於bag $B$ ，我們是要最大化其total reward的期望，因此目標函數為

其中 $a_{i}simpi_{Theta}(s_{i},a_{i})$ ， $s_{i+1} sim P(s_{i+1}|s_{i},a_{i})$ ，其中由於 $s_{i+1}$ 完全由state $s_{i}$ 和action $a_{i}$ 決定，因此 $P(s_{i+1}|s_{i},a_{i})=1$ 。 $V_{Theta}(s_{1}|B)$ 是從state $s_{1}$ 開始所獲得的expected future total reward的value function。

因為只有在最後一步reward才不為0，所以從 $s_{1}$ 到 $s_{|B|}$ 所有的value function都一樣，即 $v_{i}=V(s_{i}|B)=r(s_{|B|+1}|B)$ ，所以我們可以用以下方式更新policy

Relation Classifier

relation classifier用了一個CNN來提取句子的語義關係，以instance selector輸出的cleansed data作為輸入並計算一個reward返回給instance selector讓它完善自己的policy function。CNN網路包括一個input layer，一個convolution layer，一個max pooling layer和一個非線性層。

本文的relation classifier的主要特點是在sentence-level上進行relation classification，其它relation classifier的輸入是一個sentence bag，而本文的輸入是一個sentence。

Input Layer

對於每個句子 $x$ ，作者用一列向量來表示 $x=(w_{1},w_{2},...,w_{m})$ ， $w_{i}$ 由word embedding和position embedding組成， $w_{i}in R^{d}，d=d^{w}+2 imes d^{p}$

CNN

卷積操作作用於3個連續詞，共有230個卷積核，則卷積層的參數為 $W_{f}in R^{d^{s} imes (3d)},b_{f}in R^{d^{s}}$ 輸出 $Lin R^{d^{s}}$ 。

其中 $W_{r}in R^{n_{r} imes d^{s}},b^{r}in R^{n^{r}}$ 是全連接層的參數， $n_r$ 是總的關係數，並且

Loss Function

交叉熵函數，沒啥好講的

Model Training

本文用了在強化學習中非常熱門的預訓練法來訓練模型，即先在整個數據集上預訓練relation classifier的CNN Model，再固定CNN Model的參數來預訓練instance selector，最後再一起訓練。為了讓網路參數更新更加穩定，本文還利用了目標網路（target network）思想。