度量學習中的pair-based loss

07-17

度量學習

度量學習（Metric Learning）是一種空間映射的方法，其能夠學習到一種特徵（Embedding）空間，在此空間中，所有的數據都被轉換成一個特徵向量，並且相似樣本的特徵向量之間距離小，不相似樣本的特徵向量之間距離大，從而對數據進行區分。度量學習應用在很多領域中，比如圖像檢索，人臉識別，目標跟蹤等等。

在深度學習中，很多度量學習的方法都是使用成對成對的樣本進行loss計算的，這類方法被稱為 pair-based deep metric learning。例如，在訓練模型的過程，我們隨意的選取兩個樣本，使用模型提取特徵，並計算他們特徵之間的距離。如果這兩個樣本屬於同一個類別，那我們希望他們之間的距離應該盡量的小，甚至為0；如果這兩個樣本屬於不同的類別，那我們希望他們之間的距離應該盡量的大，甚至是無窮大。正是根據這一原則，衍生出了許多不同類型的pair-based loss，使用這些loss對樣本對之間的距離進行計算，並根據生成的loss使用各種優化方法對模型進行更新。本文將介紹一些常見的pair-based metric learning loss。

Contrastive los

Contrastive loss^[1]是最簡單最直觀的一種pair-based deep metric learning loss，其思想就是：

1）選取一對樣本對，如果其是正樣本對，則其產生的loss就應該等於其特徵之間的距離（例如L2 loss）；因為我們的期望是他們之間的距離為0，所以凡是大於零的loss都需要被保留。

2）如果是負樣本對，他們之間的距離應該儘可能的大，至於應該大到多少則由我們人為的設定，假設設定的閾值為 $m$ ，如果距離大於 $m$ ，則說明模型已經不錯了，不需要對模型進行更新了，如果小於 $m$ ，則認為模型還不夠好，需要繼續訓練。

根據這一思想，可以得到如下形式的Contrastive Loss：

$mathcal{L} left( left lbrace D_{i j} ight brace ight)=sum_{y_{i j}=1} D_{i j}+sum_{y_{i j}=0}left[m-D_{i j} ight]_{+}$

上式中 $D_{ij}$ 代表樣本 $i$ 和 $j$ 之間的距離， $y_{ij} = 1$ 代表這兩個樣本屬於同一個類別，是一對正樣本對； $y{ij} = 0$ 代表這兩個樣本屬於不同類別，是一對負樣本對。 $[]_+$ 是hinge 函數： $[x]_+ = max(0, x)$ 。

如上式，如果是正樣本對，其產生的loss就等於兩個樣本之間的距離，這裡的距離函數一般取L2距離。如果是負樣本對，當兩個樣本之間的距離大 $m$ 時，其loss為0，在模型更新的時候，loss為0，意味著不對模型進行更新。

Contrastive loss能夠讓正樣本對儘可能的近，負樣本對儘可能的遠，這樣可以增大類間差異，減小類內差異。但是其需要指定一個固定的margin，即公式中的 $m$ ，因為 $m$ 是固定的，所以這裡就隱含了一個很強的假設，即每個類目的樣本分布都是相同的，不過一般情況下這個強假設未必成立。

例如，有一個數據集有三種動物，分別是狗、狼、貓，直觀上狗和狼比較像，狗和貓的差異比較大，所以狗狼之間的margin應該小於狗貓之間的margin，但是Contrastive loss使用的是固定的margin，如果margin設定的比較大，模型可能無法很好的區分狗和狼，而margin設定的比較小的話，可能又無法很好的區分狗和貓。

Triplet loss

Constrastive Loss的思想是讓正樣本對之間的距離儘可能的小，負樣本對之間的距離儘可能的大。從而達到增大類間差異，減小類內差。在訓練的過程中選取的要麼是正樣本對，要麼是負樣本對。

Triplet Loss^[2]的思想是讓負樣本對之間的距離大於正樣本對之間的距離，在訓練過的過程中同時選取一對正樣本對和負樣本對，且正負樣本對中有一個樣本是相同的。仍舊以前面的狗、狼、貓數據為例，首先隨機選取一個樣本，此樣本稱之為anchor 樣本，假設此樣本類別為狗，然後選取一個與anchor樣本同類別的樣本（另一個狗狗），稱之為positive，並讓其與anchor樣本組成一個正樣本對（anchor-positive）；再選取一個與anchor不同類別的樣本（貓），稱之為negative，讓其與anchor樣本組成一個負樣本對（anchor-negative）。這樣一共選取了三個樣本，即triplet。

其loss形式如下：

$mathcal{L} left( left lbrace D_{i j} ight brace ight) =sum_{(i,j,k), atop y_{ij}=1, y_{ik}=0} left[D_{ij}-D_{ik}+m ight]_+$