[VFR]基於關鍵幀提取的CNN-閱讀筆記
來自專欄 CV喵的進階2 人贊了文章
轉載請註明出處:CV喵的進階
原文鏈接
【強迫症必須吐槽一下文章題目字數開始受限制,英文論文題目的一半內容都擠不下】
CNN Based Key Frame Extraction for Face in Video Recognition【ISBA2018】
和《Boosting Face in Video Recognition via CNN based Key Frame Extraction》【ICB2018】內容幾乎一致,差不多算是一稿多投了吧。但是這當然不是重點啦。本文會把兩篇文章的實驗結果匯總在一起。
一、問題介紹
視頻人臉識別速度還是個很頭疼的問題。監控和視頻分析需要處理的視頻量大,且很多需要實時處理。逐幀處理確實過於浪費。
傳送門:
特徵聚合來解決這個問題:
秋月Lilac:[VFR]Quality Aware Network閱讀筆記秋月Lilac:Neural Aggregation Network for Video Face Recognition閱讀筆記本文選擇的解決方案是抽取,盡量有效的抽取關鍵幀。傳送門的兩篇頂會論文里的實驗其實有涉及抽取一幀的或幾幀的效果不如聚合。但是這種方案的速度會略快,論文說可以達到實時,均沒有公開代碼,也不方便比較速度。本文只是為了記錄下VFR的一種解決方案。
二、相關工作
提取關鍵幀的方法分為三種:基於聚類(eg:K-means)、基於光流(eg:Lucas-Lanade),基於質量。本文屬於最後一種,
基於質量的文章中,主要是根據不同的度量標準給圖像或是人臉質量打分。常見的基於人臉的 對稱性,銳利,對比度,亮度,以及結合聚類和相似度的方法。其中作者15年的方法可以達到實時進行質量評估,但是需要根據不同場景下的不同視頻進行pre-defined empirical weights.
- 本文主要是對人臉打分。低分的人臉往往是非正臉,或是亮度很差,或是人臉的誤檢。如下圖所示,最後選取那張大圖。
- 其次,本文的方法不在需要預設置權重。
- 可以通過控制frame processing rate來權衡效果和速度
- GPU上可實時
三、網路結構
整體流程如下:
關鍵幀提取具體流程
- 人臉檢測:Viola Jones HAAR feature based cascade classifier for facedetection
- 所有檢測到的臉被跟蹤(當背景不變的時候)
- 若檢測到人臉數量不變,且背景不變,則將這些檢測出的人臉進行質量評估,打分。
- 若當前幀的某人臉的分數更高,作為關鍵幀。
- 當背景改變,或是某幀檢測出的人數發生變化,輸出所有關鍵幀後,刪除關鍵幀buffer,重新這個流程。
人臉質量評估模塊
訓練CNN期間使用Euclidean Loss function
前後端人臉識別模塊
使用了googlenet結構,和ChokePoint和VGG數據集
四、實驗結果
當人臉質量打分低的時候,打分低的人臉去做識別,錯誤率會很高。質量分數越高,錯誤率會越低。在ChokePoint dataset中有16個單人視頻,兩個多人視頻( P2E-S5和P2L-S5)
開篇說的可能一稿多投的那篇論文,方法相同,實驗在常見的數據集上進行的,結果如下:
五、總結
兩篇論文東西一樣,把一套完整的實驗結果拆到了兩篇。
論文整體還算清晰,解決方案簡單實用。將檢測和跟蹤結合後做質量評估提取關鍵幀。但是實驗的說服力一般,並不能和SOA們做真正的比較。多人臉視頻更具有實用性,但是期間的跟蹤會很麻煩。
至於實時性,我覺得歸功於整個框架中,質量評估模塊簡單,效果一般,所以也算是權衡之後的一個結果。
推薦閱讀: