[VFR]基於關鍵幀提取的CNN-閱讀筆記

08-15

來自專欄 CV喵的進階2 人贊了文章

轉載請註明出處：CV喵的進階
原文鏈接

【強迫症必須吐槽一下文章題目字數開始受限制，英文論文題目的一半內容都擠不下】

CNN Based Key Frame Extraction for Face in Video Recognition【ISBA2018】

和《Boosting Face in Video Recognition via CNN based Key Frame Extraction》【ICB2018】內容幾乎一致，差不多算是一稿多投了吧。但是這當然不是重點啦。本文會把兩篇文章的實驗結果匯總在一起。

視頻人臉識別速度還是個很頭疼的問題。監控和視頻分析需要處理的視頻量大，且很多需要實時處理。逐幀處理確實過於浪費。

傳送門：

特徵聚合來解決這個問題：

秋月Lilac：[VFR]Quality Aware Network閱讀筆記?

zhuanlan.zhihu.com秋月Lilac：Neural Aggregation Network for Video Face Recognition閱讀筆記?

zhuanlan.zhihu.com

本文選擇的解決方案是抽取，盡量有效的抽取關鍵幀。傳送門的兩篇頂會論文里的實驗其實有涉及抽取一幀的或幾幀的效果不如聚合。但是這種方案的速度會略快，論文說可以達到實時，均沒有公開代碼，也不方便比較速度。本文只是為了記錄下VFR的一種解決方案。

提取關鍵幀的方法分為三種：基於聚類(eg：K-means)、基於光流(eg：Lucas-Lanade)，基於質量。本文屬於最後一種，

基於質量的文章中，主要是根據不同的度量標準給圖像或是人臉質量打分。常見的基於人臉的對稱性，銳利，對比度，亮度，以及結合聚類和相似度的方法。其中作者15年的方法可以達到實時進行質量評估，但是需要根據不同場景下的不同視頻進行pre-defined empirical weights.

整體流程如下：

關鍵幀提取具體流程

Face tracking and key-frame extracting flowchart

人臉質量評估模塊

CNN based FQA module

訓練CNN期間使用Euclidean Loss function

前後端人臉識別模塊

開篇說的可能一稿多投的那篇論文，方法相同，實驗在常見的數據集上進行的，結果如下：

兩篇論文東西一樣，把一套完整的實驗結果拆到了兩篇。

論文整體還算清晰，解決方案簡單實用。將檢測和跟蹤結合後做質量評估提取關鍵幀。但是實驗的說服力一般，並不能和SOA們做真正的比較。多人臉視頻更具有實用性，但是期間的跟蹤會很麻煩。

至於實時性，我覺得歸功於整個框架中，質量評估模塊簡單，效果一般，所以也算是權衡之後的一個結果。