[計算機視覺論文速遞] 2018-04-17

05-07

通知：這篇文章有7篇論文速遞信息，涉及人臉識別、人臉對齊、目標檢測、語義分割、實例分割和視頻分割等方向

Face

[1]《Towards Improved Cartoon Face Detection and Recognition Systems》

Abstract：鑒於近年來人臉檢測和識別技術取得重大進展，我們想測試他們能否為卡通人臉工作 - 這一領域目前尚未開發，主要是由於缺乏豐富的數據集和傳統方法的失敗在這些上。在本文中，我們採用各種最先進的深度學習框架來檢測和識別卡通人物的臉部，並提出一種新的卡通人臉識別方法。對於人臉檢測，我們的工作證明了多任務級聯卷積網路（MTCNN）架構的有效性，並將其與其他基準方法進行了對比。對於人臉識別，我們提出了兩種基於特徵的技術：（i）結合Inception v3網路的特徵學習能力和支持向量機（SVM）的特徵識別能力的歸納轉移方法，（ii）提出的混合卷積神經網路（HCNN）的識別框架，通過融合像素值和15個手動定位面部關鍵點進行訓練。所有的方法都在 wild 卡通面孔（IIIT-CFW）資料庫中進行評估。我們使用多個輸入約束條件下的幾個度量標準來詳細分析模型的性能。實驗表明，基於MTCNN的模型相對於現有技術的檢測方法在真陽性率，假陽性率和假陰性率上分別獲得3.97％，1.19％和2.78％的相應增益，而識別模型在F分數方面超過了最先進的水平。 Inception v3 + SVM識別模型還為卡通性別識別的任務建立了新的基準F評分0.910。我們還引入了一個小型資料庫，其中包含屬於IIIT-CFW資料庫中50位公眾人物的卡通人臉的15個關鍵點的位置坐標。

arXiv：https://arxiv.org/abs/1804.01753

註：漫畫人物目標檢測，因崔斯汀~

[2]《Face Alignment in Full Pose Range: A 3D Total Solution》

IEEE TPAMI 2017

Abstract：面部對齊，將人臉模型擬合到圖像並提取面部像素的語義含義，一直是計算機視覺中的一個重要話題。但是，大多數演算法都是針對面向中小型人臉（偏航角度小於45度）的人臉進行設計的，這種方法缺乏將大型人臉對齊至90度的能力。挑戰有三方面。首先，常用的關鍵點（landmark）人臉模型假定所有的關鍵點都是可見的，因此不適用於大型姿勢。其次，從正面視圖到配置文件視圖，大型姿勢的臉部外觀變化更為劇烈。第三，由於不可見的landmark必須被猜測，因此以大姿勢標記landmark非常具有挑戰性。在本文中，我們建議在稱為3D稠密面對齊（3DDFA）的新對齊框架中處理這三個挑戰，其中通過級聯卷積神經網路將稠密3D可變形模型（3DMM）擬合到圖像。我們還利用3D信息在剖面視圖中合成人臉圖像，以提供豐富的訓練樣本。在具有挑戰性的AFLW資料庫上的實驗表明，所提出的方法比現有技術的方法取得顯著的改進。

arXiv：https://arxiv.org/abs/1804.01005

目標檢測

[3]《Transferring Common-Sense Knowledge for Object Detection》

Abstract：我們提出將源類別中的常識知識（common-sense）轉換為可擴展對象檢測的目標類別的想法。在我們的設置中，源類別的訓練數據具有邊界框注釋，而針對目標類別的訓練數據僅具有圖像級別注釋。目前最先進的方法著重於圖像級視覺或語義相似性，以將在源類別上訓練的檢測器適應新的目標類別。相反，我們的關鍵思想是（i）不是在圖像層面使用相似性，而是在區域層面使用相似性，以及（ii）利用更豐富的常識（基於屬性，空間等）來指導該演算法用於學習正確的檢測。我們從現成的知識庫中自動獲取這些常識提示，無需額外的人力。在具有挑戰性的MS COCO數據集上，我們發現使用常識知識可以大大提高現有傳輸學習基線的檢測性能。

arXiv：https://arxiv.org/abs/1804.01077

圖像分割

[4]《A Pyramid CNN for Dense-Leaves Segmentation》

Abstract：在茂密樹葉中重疊葉片的自動檢測和分割可能是困難的任務，特別是對於具有強烈紋理和高遮擋的葉子。我們呈現密集葉，這是一種帶有ground truth 分割標籤的圖像數據集，可用於訓練和量化野外葉片分割演算法。我們還提出了一種具有多尺度預測的金字塔卷積神經網路，用於檢測和區分來自內部紋理的葉邊界。使用這些檢測到的邊界，通過基於分水嶺的演算法來估計個體葉周圍的閉合輪廓邊界。結果是一個密集葉片的實例分段器。獲得對於密集葉子中的葉子的有希望的分割結果。

arXiv：https://arxiv.org/abs/1804.01646

[5]《Normalized Cut Loss for Weakly-supervised CNN Segmentation》

CVPR 2018

Abstract：最近的語義分割方法訓練深度卷積神經網路，其中帶有完全注釋的面具需要像素精度以進行高質量的訓練。常見的弱監督方法使用標準的互動式分割方法作為預處理從部分輸入（例如塗鴉或種子）生成完整的掩模。但是，由於標準損失函數（例如交叉熵）不能區分種子和可能錯誤標記的其他像素，因此這種掩模中的錯誤導致較差的訓練。受半監督學習的一般思想的啟發，我們通過一種新的原理性損失函數來解決這些問題，該函數用「淺」分割中的標準標準來評估網路輸出，例如，歸一化切割。與以前的工作不同，我們損失的交叉熵部分僅評估標籤已知的種子，而歸一化切割軟評估所有像素的一致性。我們專註於通過快速雙邊濾波在線性時間高效實現密集高斯核的規範化切割損失。我們的歸一化切割損失分割方法使得弱監督訓練的質量顯著接近完全監督的方法。

arXiv：https://arxiv.org/abs/1804.01346

[6]《Weakly Supervised Instance Segmentation using Class Peak Response》

CVPR 2018

Abstract：現在還沒有發現使用圖像級標籤進行弱監督實例分割，大多還是利用代價高的像素級掩模。在本文中，我們通過利用類別峰值響應（class peak response）來啟用實例掩碼提取的分類網路來解決這個具有挑戰性的問題。僅使用圖像標籤監督，以完全卷積方式的CNN分類器可以生成類別響應map，該圖指定每個圖像位置處的分類置信度。我們觀察到，類別響應地圖中的局部最大值，即峰值通常對應於每個實例內存在的強烈視覺線索。受此啟發，我們首先設計了一個過程來刺激從類別響應map出現的峰值。出現的峰值然後被反向傳播並且有效地映射到每個對象實例的高度信息區域，例如實例邊界。我們將從類峰值響應生成的上述地圖稱為峰值響應圖（PRM）。 PRM提供了詳細的實例級表示，它允許即使使用一些現成的方法也可以提取實例掩碼。據我們所知，我們首次報告了具有挑戰性的圖像級監督實例分割任務的結果。大量的實驗表明，我們的方法還提高了弱監督的逐點定位以及語義分割性能，並報告了流行基準測試中的最新結果，包括PASCAL VOC 2012和MS COCO。

arXiv：https://arxiv.org/abs/1804.00880

homopage(含源碼)：http://yzhou.work/PRM/

註：提出了PRM（Peak Response Maps）！感覺很亮眼！

視頻分割

[7]《Dynamic Video Segmentation Network》

CVPR 2018

Abstract：在本文中，我們提出了一個動態視頻分割網路（DVSNet）的詳細設計，用於快速高效的語義視頻分割。 DVSNet由兩個卷積神經網路組成：分割網路和流動網路。前者產生高度準確的語義分割，但更深入和更慢。後者比前者快得多，但其輸出需要進一步處理以產生不太準確的語義分割。我們探索使用決策網路來根據稱為預期置信度分數的度量自適應地將不同的幀區域分配給不同的網路。具有較高預期置信度得分的幀區域遍歷流網路。具有較低預期置信度得分的幀區域必須通過分割網路。我們已經廣泛地對DVSNet的各種配置進行了實驗，並針對所提出的決策網路研究了許多變體。實驗結果表明，我們的DVSNet能夠在Cityscape數據集上以19.8 fps達到70.4％mIoU。 DVSNet的高速版本能夠在相同的數據集上提供30.4的fps和63.2％的mIoU。 DVSNet還可以減少高達95％的計算工作量。

arXiv：https://arxiv.org/abs/1804.00931

註：視頻分割，真的很有意義！

往期精彩回顧

【CVPR 2018 行人重識別】相關論文介紹（上）

【CVPR 2018 行人重識別】相關論文介紹（下）

重磅：TensorFlow實現YOLOv3（內含福利）

-------我是可愛的分割線-------

若喜歡Amusi推送的文章，請掃描下方二維碼關注CVer公眾號！

http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)

-------我還是可愛的分割線-------

喜歡CVer的文章，記得點贊哦！

歡迎關注Amusi的知乎專欄，歡迎大家關注，一起進步