【論文筆記】Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in

論文地址:arxiv.org/abs/1701.0771 accepted by ICCV 2017

Motivation:目前GAN的研究主要在生成高質量的圖片,如何使用這些生成的圖片任是個挑戰。

CNN的方法中使用標記和未標記數據用作半監督學習依然存在挑戰。

因為行人重識別數據集需要繪製行人框和打標籤,因此數據獲得成本很高。使用GAN來擴大和豐富訓練數據集可能有較好表現。

Method:

訓練集中的數據用於訓練GAN 模型。

將真實訓練數據和新生成的數據合併為CNN的訓練輸入。

ResNet-50修改最後一個全連接層,讓K個神經元預測K-類,其中K是原始訓練集(以及合併的新訓練集)中類的數量。不將新樣本視為額外的類,而是在現有的類上統一分配標籤分布。最後的全連接層保持K維。採用異常值的標籤平滑正則化(LSRO)方法。

引入半監督pipeline,將GAN生成的圖片整合到CNN學習中。

將LSRO方法用到半監督學習中,未標註數據整合規範到CNN學習過程。證明LSRO方法優於兩個處理未標記數據的策略。

證明提出的半監督pipeline在ResNet baseline上能夠持續改進超過三個行人重識別數據集和一個finegrained recognition數據集。

異常值的標籤平滑正則化(LSRO)方法

LSR標籤的non-ground truth類部分不設為0,而設為一個小數。這種方式不要求網路趨近於ground truth類,可以減輕過擬合。LSR使用交叉熵損失(cross-entropy loss)。

令k∈{1,2,...,K}是訓練數據的預定義類別,其中K是類別的數目。 交叉熵損失可表示為:

其中p(k)∈[0,1]是輸入屬於k類的預測概率。

q(k)是ground truth分布。 設y是ground truth類別標籤,

q(k)可以定義為:

如果去掉等式1中的0項,等式3中交叉熵損失相當於只考慮方程中的ground truth項 。

所以,最小化交叉熵損失等價於最大化ground truth類別的預測概率。引入了標籤平滑正則化(LSR)來做non-ground truth類的分布。 鼓勵網路不要對ground truth過於自信。

其中ε∈[0,1]是一個超參數。 如果ε為零,則方程 4變為方程 2.如果ε太大,模型可能無法預測ground truth標籤。 所以在大多數情況下,ε被設置為0.1。

假設 non-ground truth採用統一的標籤分布。結合方程 1和方程 4,交叉熵損失演變為:

相比於等式3,等式5增加更多關注到其他類,而不僅僅是ground truth類。

離群值的標籤平滑正則化(LSRO

將生成圖片的類別標籤分布定義為:

我們稱等式6為離群值的標籤平滑正則化(LSRO)。

在等式2中將真實圖片用獨熱分布被定義,用於計算損失。

結合等式2等式6等式1 將交叉熵損失重寫為:

真實的訓練圖像,Z = 0。對於生成的訓練圖像,Z = 1。

推薦閱讀:

TAG:行人重識別 | 計算機視覺 | 生成對抗網路GAN |