標籤:

主動學習中的經驗風險最小化

在傳統的監督學習中,學習的目標是找到一個最優的分類器,期望它能在沒有見過的數據上具有良好的泛化性能。經驗風險最小化(ERM, empirical risk minimization)是一個很好的方法。ERM要最小化的是在未知數據分布上的風險上界。這個上界通常是在可獲得數據上的經驗風險加上一個正則化項,來控制分類器的複雜度。

假定有一個data source D ,樣本記為 mathrm{z} = { mathrm{x}, y } ,服從一個未知的分布 p(mathrm{z})=p(mathrm{x}, y)S 是一個包含 n 個點的有限數據集,這 n 個點是從同一個分布 p(mathrm{z}) 中採樣得到的,也就是說他們是 i.i.d. 的。

真實風險和經驗風險滿足以下的關係:

其中, l( mathrm{z} ) in mathcal{L} 是損失函數, l ( mathrm{z} ) = l(f(mathrm{x}), y) , f(mathrm{x}) in mathcal{F}

真實風險定義為損失函數的期望:

egin{equation} E_D(l(mathrm{z})) = int_{mathrm{z} in D} l(mathrm{z})d mathrm{z} end{equation} .

經驗風險定義為損失函數的經驗平均值:

hat{E_s} ( l ( mathrm{z} )) = frac{1}{|S|} sum_{z in S} l( mathrm{z} ) .

損失函數 mathcal{L} 的Rademacher複雜度為:

sigma_1,cdotcdotcdot,sigma_n in { -1, 1 } 是獨立隨機變數,稱為Rademacher變數。

這裡要求 S 中的數據是獨立同分布的。然而在主動學習的背景下,這個假設是站不住腳的。因為在主動學習中,標記數據是從另一個分布 q(mathrm{x},y) 中選出來的。

為了得到主動學習下的ERM準則,重新定義風險上界不等式:

hat{E}_Q (l(mathrm{z})) 是可獲得標記的數據上的經驗風險,包括初始的已知數據和後來標記得到的數據。 R_q(mathcal{L}) 是基於這些標記數據的Rademacher複雜度。 E_D(l ( mathrm{z} )) - E_Q(l ( mathrm{z} )) 是不同分布真實風險的差。

hat{g}g 的上界, hat{g} in mathcal{C}(mathrm{x})

不等式右邊的項正好就是兩個分布的最大平均差異(MMD, maximum mean discrepancy term):

主動學習的ERM風險上界最終可以寫成:

通過使用核方法,將MMD限制在一個RKHS中,核為 k(mathrm{x}_i, mathrm{x}_j) ,到非線性空間的映射為 phi(x)

那麼主動學習的ERM準則可以歸納為以下定理(證明略):

參考文獻

Zheng Wang, JiepingYe. Querying discriminative and representative samples for batch mode active learning. KDD 2013: 158-166.


推薦閱讀:

【最優化】無約束優化方法-阻尼牛頓法
機器學習入門:邏輯回歸案例
Relation Classification名詞解釋(持續更新,歡迎補充)
談談機器學習與數據分析中的問題定義

TAG:機器學習 |