[VFR]Quality Aware Network閱讀筆記

[VFR]Quality Aware Network閱讀筆記

來自專欄 CV喵的進階

轉載請註明出處:CV喵的進階

原文鏈接

這是CVPR2017商湯的一篇論文。論文的方法在人臉識別和ReID上都可行,github上公開了ReID部分的代碼。但是本篇文章主要討論與人臉相關的部分。

一、問題介紹

在之前的文章中已經介紹過人臉視頻識別了,傳送門:

秋月Lilac:Neural Aggregation Network for Video Face Recognition閱讀筆記?

zhuanlan.zhihu.com圖標

簡單的說,解決的問題就是set to set的識別。

實際應用中,涉及的是以下場景:

  • 搜集到的某個身份ID的圖像的數量往往都會大於1,至於取哪張去做最後的識別?

二、相關工作

以往的工作中,解決set to set的識別問題的方法分為兩種:

  • 把圖像集看做convex hull 或是affine hull說是子空間,根據集合的分布,在Hilbert space或是Grassmann mainfold上抽樣,轉換成metric learning 問題
  • 通過對圖像集的聚合,將set to set識別的問題退化為點對點識別的問題。

本文的解決方案就是第二種方法,即將視頻中的多幀信息聚合為一個最佳的特徵,簡化視頻識別過程中的複雜度。

三、網路結構

QAN的模型結構很簡單,就是在平時的識別網路上添加了質量分數的分支。結構如下:

質量分支是一個簡單的網路達到預估分數的作用。

值得一提的是,與NAN比QAN的另外一大好處,QAN是端到端訓練的。

下圖是質量分數的打分結果,論文作者拿ReID的打分結果展示的打分效果。分數在最佳到最差的漸變過程中,作者分析,若圖像中心出現多個行人,分數就會偏低。出現模糊的行人,分數會偏低。

為了驗證網路的打分結果的準確度,作者找了6個志願者,對圖像質量打分取平均,與網路打分結果進行了對比,精確度達到了78%:

四、實驗結果

實驗結果都是當時的SOA

  • 視頻人臉識別

人臉識別的訓練用了很大的數據集,是VGG Face擴展版本--身份數目從 2.6K擴展到90K,圖像數量從2.6百萬到5百萬。

關於視頻人臉識別,首先了解下相關數據集,其中較簡單的是IJB-A和YTF:

實驗結果:

  • ReID

實驗結果:

從arxiv上最新掛出來的相關論文的實驗數據可知,QAN在ReID的以上的數據集上表現仍然是最佳的水平(也可能是我搜到的論文沒有統計完全)。

五、總結

QAN的結構簡單,端到端的訓練簡單,效果很好是毋庸置疑的。但是在實際應用中,由於用了triplet loss,收斂的速度很慢。

除此之外,一直有個疑問就是,set to set的識別的應用場景難道只有在匯總身份的多圖像信息么?

但是匯總身份信息的前提是,已經確認多幀圖像為同一個人的身份,這樣的邏輯嚴重的限制了它的使用場景。

在實際應用場景,更需要先將視頻的多幀的圖像質量打分,再去檢測識別。這種需求的圖像質量打分與往常的圖像的質量分數評估不同,但與set to set的識別的邏輯也有很大出入。


推薦閱讀:

《七堂極簡物理課》——對物理髮展的極簡梳理
如何用思維導圖快速記住一本書
聖女的救濟
《刻意練習:如何從新手到大師》 讀書筆記
讀書筆記·人物誌·毛澤東(1):上學

TAG:讀書筆記 | 科技 | 機器學習 |