A Discriminatively Learned CNN Embedding for Person Re-identification

A Discriminatively Learned CNN Embedding for Person Re-identification

A Discriminatively Learned CNN Embedding for Person Re-identification

Abstract:在re-ID中,重要有兩種兩種流行的CNN模型,verification models(輸入兩張圖片,判斷是不是同一個人),identification models(給定圖片,判斷人物身份或是找到相同的人)。本文結合了這兩種模型,找出更具區分能力的描述符(descriptor)。我們提出了一個Siamese network同時計算verification and identification loss。給出一對圖片,網路不僅判斷兩張圖片中行人的身份,並且判斷兩張圖片是否為同一行人。所以網路同時學到了discriminative embedding和similarity。

1 Introduction

下圖是兩種常用的CNN模型,

Verification model的缺點在於僅僅使用了一個弱的re-ID標籤(即兩張圖片是不是同一個人),其他圖像的注釋信息未被使用。

為了充分利用re-ID標籤,identification models使用多分類任務來學習特徵。在訓練網路時,圖像經過非線性函數得到ID,最後連接cross-entropy layer作為loss。在測試過程中,從全連接層提取特徵,然後normalization。兩張圖片的相似度是通過兩張圖片normalization後的特徵之間的歐式距離判斷的。主要的缺點在於訓練網路時的目的與測試時不同。網路本身沒有考慮圖像之間的相似性測量。

由此可見,兩種模型的優缺點是互補的。見下圖:

2 Related Work

3 Proposed method

圖中的CaffeNet使用ImageNet預訓練的模型,去掉了最後的FC。添加了三個conv layer,一個square layer,三個loss。在re-ID任務中,圖中CaffeNet後的f作為圖像的descriptor。

Identification Loss:為了fine-tune ImageNet上的預訓練模型,我們使用conv layer 替換原有的最後一層FC layer(1000-d)。因為Market-1501行人身份總數為751.所以我們添加的卷積層為751個1*1*4096的kernel。最終每張圖片變為一個1*1*751的tensor。在conv之後,不使用relu.同原有的多分類任務一樣,同樣使用cross-entropy作為損失函數:

Verification Loss:其中square layer,將得到的兩個4096位tensor逐位相減,平方求和。

。卷積層為2個1*1*4096的kernel。不加relu。經過softmax得到兩個概率,兩個概率相加之和為1。因為將其看為二分類問題,所以損失函數依然採用cross-entropy。

Identification vs. Verification:

Training and Optimization:

(1)input preparation:resize image至256*256。所有圖像減去所有訓練圖像的平均像素。訓練時,所有圖片被剪成227*227,

4 Experiment


推薦閱讀:

Video-based Person ReID的時序建模
ICCV 2017 Person Re-ID相關論文
CVPR 2018 Person Re-ID相關論文
【論文筆記】Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Ident

TAG:卷積神經網路CNN | 深度學習DeepLearning | 行人重識別 |