標籤:

行人再識別-Attention

行人再識別-Attention

來自專欄博士paper

任務:基於視頻的行人再識別。query,gallery:一個視頻序列

motivation:

  1. 一個序列的幀的質量差異較大:遮擋、模糊、跟錯。
  2. 根據不同的query,gallery序列的幀的重要程度可能不一樣(對於正向的query,gallery中正向的幀應該賦予較高的權重,對於側向的query,gallery中側向的幀應該賦予較高的權重)
  • Quality Aware Network for Set to Set Recognition

motivation:一個序列里各個圖片的質量都不相同,應該給高質量的圖片賦予較高的權重。

  1. 對每張圖片提取特徵,得到每張圖片的權重,加權後得到序列的特徵,
  2. 對某張圖片有softmax約束。
  3. 對整個序列有triplet loss 和 contrastive loss的約束。
  • Region-based Quality Estimation Network for Large-scale Person Re-identification

motivation:一張圖片的各個區域的質量與不相同,如果圖像底部遮擋的話,上身的信息還可以利用。

  1. 把圖像等分為3:2:2,每個區域有一個時序上的得分,加權後得到三個特徵。
  2. 將三個特徵連接作為圖像的特徵。
  3. 對於每張圖片有softmax,對於序列有triplet loss 和 contrastive loss的約束。
  • Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification

motivation:各個幀做時序上的得分之前,應該先做空間的對齊。對同一個特徵(頭)做時序上的attention。

  1. restrict random sample:把一個序列等分為6份,每份隨機選一幀,作為序列的代表。
  2. 對於每幀,估計K個空間attention,得到K個特徵。
  3. 對K個特徵分別做時序的attention,加權得到K個特徵,連接作為序列的特徵。
  4. 用在線softmax進行優化
  5. 測試的時候,將序列等分為6份,每份取第一幀,將該6幀輸入網路得到的特徵作為序列的特徵。

推薦閱讀:

【論文筆記】Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Ident
Video-based Person ReID的時序建模
A Discriminatively Learned CNN Embedding for Person Re-identification
AlignedReID 論文筆記

TAG:行人重識別 |