A Discriminatively Learned CNN Embedding for Person Re-identification
A Discriminatively Learned CNN Embedding for Person Re-identification
Abstract:在re-ID中,重要有兩種兩種流行的CNN模型,verification models(輸入兩張圖片,判斷是不是同一個人),identification models(給定圖片,判斷人物身份或是找到相同的人)。本文結合了這兩種模型,找出更具區分能力的描述符(descriptor)。我們提出了一個Siamese network同時計算verification and identification loss。給出一對圖片,網路不僅判斷兩張圖片中行人的身份,並且判斷兩張圖片是否為同一行人。所以網路同時學到了discriminative embedding和similarity。
1 Introduction
下圖是兩種常用的CNN模型,
Verification model的缺點在於僅僅使用了一個弱的re-ID標籤(即兩張圖片是不是同一個人),其他圖像的注釋信息未被使用。
為了充分利用re-ID標籤,identification models使用多分類任務來學習特徵。在訓練網路時,圖像經過非線性函數得到ID,最後連接cross-entropy layer作為loss。在測試過程中,從全連接層提取特徵,然後normalization。兩張圖片的相似度是通過兩張圖片normalization後的特徵之間的歐式距離判斷的。主要的缺點在於訓練網路時的目的與測試時不同。網路本身沒有考慮圖像之間的相似性測量。
由此可見,兩種模型的優缺點是互補的。見下圖:
2 Related Work
3 Proposed method
圖中的CaffeNet使用ImageNet預訓練的模型,去掉了最後的FC。添加了三個conv layer,一個square layer,三個loss。在re-ID任務中,圖中CaffeNet後的f作為圖像的descriptor。
Identification Loss:為了fine-tune ImageNet上的預訓練模型,我們使用conv layer 替換原有的最後一層FC layer(1000-d)。因為Market-1501行人身份總數為751.所以我們添加的卷積層為751個1*1*4096的kernel。最終每張圖片變為一個1*1*751的tensor。在conv之後,不使用relu.同原有的多分類任務一樣,同樣使用cross-entropy作為損失函數:
Verification Loss:其中square layer,將得到的兩個4096位tensor逐位相減,平方求和。
。卷積層為2個1*1*4096的kernel。不加relu。經過softmax得到兩個概率,兩個概率相加之和為1。因為將其看為二分類問題,所以損失函數依然採用cross-entropy。
Identification vs. Verification:
Training and Optimization:
(1)input preparation:resize image至256*256。所有圖像減去所有訓練圖像的平均像素。訓練時,所有圖片被剪成227*227,
4 Experiment
推薦閱讀:
※Video-based Person ReID的時序建模
※ICCV 2017 Person Re-ID相關論文
※CVPR 2018 Person Re-ID相關論文
※【論文筆記】Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Ident
TAG:卷積神經網路CNN | 深度學習DeepLearning | 行人重識別 |