[VFR]Quality Aware Network閱讀筆記
來自專欄 CV喵的進階
轉載請註明出處:CV喵的進階
原文鏈接
這是CVPR2017商湯的一篇論文。論文的方法在人臉識別和ReID上都可行,github上公開了ReID部分的代碼。但是本篇文章主要討論與人臉相關的部分。
一、問題介紹
在之前的文章中已經介紹過人臉視頻識別了,傳送門:
秋月Lilac:Neural Aggregation Network for Video Face Recognition閱讀筆記
簡單的說,解決的問題就是set to set的識別。
實際應用中,涉及的是以下場景:
- 搜集到的某個身份ID的圖像的數量往往都會大於1,至於取哪張去做最後的識別?
二、相關工作
以往的工作中,解決set to set的識別問題的方法分為兩種:
- 把圖像集看做convex hull 或是affine hull說是子空間,根據集合的分布,在Hilbert space或是Grassmann mainfold上抽樣,轉換成metric learning 問題
- 通過對圖像集的聚合,將set to set識別的問題退化為點對點識別的問題。
本文的解決方案就是第二種方法,即將視頻中的多幀信息聚合為一個最佳的特徵,簡化視頻識別過程中的複雜度。
三、網路結構
QAN的模型結構很簡單,就是在平時的識別網路上添加了質量分數的分支。結構如下:
質量分支是一個簡單的網路達到預估分數的作用。
值得一提的是,與NAN比QAN的另外一大好處,QAN是端到端訓練的。
下圖是質量分數的打分結果,論文作者拿ReID的打分結果展示的打分效果。分數在最佳到最差的漸變過程中,作者分析,若圖像中心出現多個行人,分數就會偏低。出現模糊的行人,分數會偏低。
為了驗證網路的打分結果的準確度,作者找了6個志願者,對圖像質量打分取平均,與網路打分結果進行了對比,精確度達到了78%:
四、實驗結果
實驗結果都是當時的SOA
- 視頻人臉識別
人臉識別的訓練用了很大的數據集,是VGG Face擴展版本--身份數目從 2.6K擴展到90K,圖像數量從2.6百萬到5百萬。
關於視頻人臉識別,首先了解下相關數據集,其中較簡單的是IJB-A和YTF:
實驗結果:
- ReID
實驗結果:
從arxiv上最新掛出來的相關論文的實驗數據可知,QAN在ReID的以上的數據集上表現仍然是最佳的水平(也可能是我搜到的論文沒有統計完全)。
五、總結
QAN的結構簡單,端到端的訓練簡單,效果很好是毋庸置疑的。但是在實際應用中,由於用了triplet loss,收斂的速度很慢。
除此之外,一直有個疑問就是,set to set的識別的應用場景難道只有在匯總身份的多圖像信息么?
但是匯總身份信息的前提是,已經確認多幀圖像為同一個人的身份,這樣的邏輯嚴重的限制了它的使用場景。
在實際應用場景,更需要先將視頻的多幀的圖像質量打分,再去檢測識別。這種需求的圖像質量打分與往常的圖像的質量分數評估不同,但與set to set的識別的邏輯也有很大出入。
推薦閱讀:
※《七堂極簡物理課》——對物理髮展的極簡梳理
※如何用思維導圖快速記住一本書
※聖女的救濟
※《刻意練習:如何從新手到大師》 讀書筆記
※讀書筆記·人物誌·毛澤東(1):上學