A Discriminatively Learned CNN Embedding for Person Re-identification

05-24

Abstract:在re-ID中，重要有兩種兩種流行的CNN模型，verification models（輸入兩張圖片，判斷是不是同一個人），identification models（給定圖片，判斷人物身份或是找到相同的人）。本文結合了這兩種模型，找出更具區分能力的描述符（descriptor）。我們提出了一個Siamese network同時計算verification and identification loss。給出一對圖片，網路不僅判斷兩張圖片中行人的身份，並且判斷兩張圖片是否為同一行人。所以網路同時學到了discriminative embedding和similarity。

1 Introduction

下圖是兩種常用的CNN模型，

Verification model的缺點在於僅僅使用了一個弱的re-ID標籤（即兩張圖片是不是同一個人），其他圖像的注釋信息未被使用。

為了充分利用re-ID標籤，identification models使用多分類任務來學習特徵。在訓練網路時，圖像經過非線性函數得到ID，最後連接cross-entropy layer作為loss。在測試過程中，從全連接層提取特徵，然後normalization。兩張圖片的相似度是通過兩張圖片normalization後的特徵之間的歐式距離判斷的。主要的缺點在於訓練網路時的目的與測試時不同。網路本身沒有考慮圖像之間的相似性測量。

由此可見，兩種模型的優缺點是互補的。見下圖：

2 Related Work

3 Proposed method

圖中的CaffeNet使用ImageNet預訓練的模型，去掉了最後的FC。添加了三個conv layer，一個square layer，三個loss。在re-ID任務中，圖中CaffeNet後的f作為圖像的descriptor。

Identification Loss：為了fine-tune ImageNet上的預訓練模型，我們使用conv layer 替換原有的最後一層FC layer（1000-d）。因為Market-1501行人身份總數為751.所以我們添加的卷積層為751個1*1*4096的kernel。最終每張圖片變為一個1*1*751的tensor。在conv之後，不使用relu.同原有的多分類任務一樣，同樣使用cross-entropy作為損失函數：

Verification Loss：其中square layer，將得到的兩個4096位tensor逐位相減，平方求和。

。卷積層為2個1*1*4096的kernel。不加relu。經過softmax得到兩個概率，兩個概率相加之和為1。因為將其看為二分類問題，所以損失函數依然採用cross-entropy。

Identification vs. Verification：

Training and Optimization：

（1）input preparation：resize image至256*256。所有圖像減去所有訓練圖像的平均像素。訓練時，所有圖片被剪成227*227，

4 Experiment