[論文閱讀]BIER - Boosting Independent Embeddings Robustly

06-05

論文說明

作者將adboost的思想用在了CNN學習上，通過將深度網路的最後一個嵌入層分成多個嵌入集成。具體的是通過在線梯度提升的方法訓練這個集成。前一個學習器對樣本識別效果會改變樣本的權值用於下一個學習器的學習。

論文框架

作者不採用Siamese網路，而只使用簡單的GoogleNet，在最後的嵌入層分成多個不重疊的組，這樣可以充分的發揮大的嵌入sizes的優勢（因為有paper提出，簡單的使用大的sizes會因為過擬合問題導致正確率下降）。每個組都是在一個同樣的特徵表達上單獨的度量學習過程。集成的正確率依賴於每個學習器的正確率。因為簡單的優化一個全局loss，會導致所有的學習器有著同樣的特徵表達，這樣每個組的學習器相關性就會非常的高。所以在線梯度學習過程中每個學習器會根據損失函數的梯度重新給訓練樣本賦予權重，這樣接下來的學習器會聚焦權重大的樣本訓練。

Boosting a Metric Network

本文的方法是基於度量的CNN，不同於學習一個距離度量，在本文中通過定義兩個嵌入的點積學習一個餘弦相似性得分 $s(cdot,cdot)$ :

$s(f(x^{1}),f(x^2))=dfrac{f(x^1)f(x^2)}{||f(x^1)||cdot||f(x^2)||}$

這樣，相似性的得分就會在-1與1之間。

在前面階段使用GoogLeNet，在最後的嵌入層再使用二元組或者三元組的方式。具體的通過採樣一個mini-batch的圖片，直接通過網路前向傳播，在網路最後的損失層再採樣樣本對和三元組。之後損失通過網路反向傳播。具體的採樣方法是先從數據集中採樣一定數量的類，再對每個類採樣一定數量的圖片。保證每個類大概有5到10到圖片，batch size大小設置為128.

文中考慮了三種不同的損失函數，如下圖所示：

其中 $s=s(f(x^{1}),f(x^2))$ 是圖片 $x^1$ 和 $x^2$ 的相似性得分。 $yin{1,0}$ 表示圖片對的標籤。 $s^-$ 表示負樣本對的相似性得分， $s^+$ 表示正樣本對的得分。m表示二元組和三元組的邊緣間隔。 $alpha 和eta$ 是尺度和平移參數。同時設置binomial deviance的 $C_y$ 來平衡正負樣本對：

$C_y=egin{cases}1quad ifquad y=1\25quad if quad y=0end{cases}$

Online Gradient Boosting CNNs for Metric Learning

將最後的嵌入層分成多個group，我們希望不同的group的學習器相關性要很低，不然相關性太高，之間並沒有差別，集成的方法效果也體現不出來。所以使用在線梯度提升的方法在固定的M個弱學習器上迭代最小化損失函數。根據損失函數的梯度會更新樣本權重，接下來的學習器就會在更新權重的樣本上再訓練。同樣，正確分類的樣本在下一個學習器中權值很低，而錯誤分類的樣本則會得到更高的權重。這樣的方式，接下來的學習器就會聚焦於不同於上一個學習器的樣本。這樣就能夠使得學習到的學習器差異很大。

對於一個損失 $l(cdot )$ ,我們找到一組弱學習器 ${f_1(x),f_2(x),...f_M(x)}$ 以及他們對應的提升模型：