[計算機視覺論文速遞] 2018-05-08

[計算機視覺論文速遞] 2018-05-08

來自專欄 計算機視覺論文速遞

通知:這篇文章有6篇論文速遞信息,涉及CNN新網路、人臉檢測、目標檢測和超解析度等方向(含2篇CVPR論文)

CNN


[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation》

Abstract:收集(Harvesting)密集的像素級注釋以訓練深度神經網路進行語義分割代價非常大且難以處理的。儘管從容易獲得標籤的合成數據中學習聽起來很有希望,但由於域差異(domain discrepancies)而對新穎的實際數據進行測試時性能明顯下降。我們提出了雙通道對準網路(Dual Channel-wise Alignment Networks,DCAN),這是一種簡單而有效的方法,可減少像素級和特徵級的域偏移。探索CNN特徵map的每個通道的統計數據,我們的框架在圖像生成器和分割網路中執行通道方式(channel-wise)的特徵對齊,從而保留空間結構和語義信息。具體來說,給定來自源域的圖像和來自目標域的未標記樣本,生成器即時合成新圖像以在外觀上類似於來自目標域的樣本,並且分割網路在預測語義之前進一步細化高級特徵它們都利用來自目標域的採樣圖像的特徵統計。與近期依靠對抗訓練的工作不同,我們的框架非常輕巧,易於訓練。將經過合成分割基準訓練的模型與適合真實城市場景的大量實驗證明了該框架的有效性。

arXiv:arxiv.org/abs/1804.0582


[2]《IGCV2: Interleaved Structured Sparse Convolutional Neural Networks》

CVPR 2018

Abstract:在本文中,我們研究了設計有效的卷積神經網路結構,這些結構的目的在於消除卷積核中的冗餘。除了結構化稀疏內核,低階(low-rank)內核和低階內核的產品之外,結構化稀疏內核(structured sparse kernels)的產品是結構化的,它是解釋最近開發的交錯群卷積(interleaved group convolutions,IGC)及其變體(例如,Xception ),吸引了越來越多的關注。

受觀察結果的啟發,包含在IGC中的卷積中的卷積可以用相同的方式進一步分解,我們提出了一個模塊化構建塊{IGCV2:}交錯結構化稀疏卷積。它將由兩個結構化稀疏內核組成的交織群卷積推廣到更多結構化稀疏內核的產品,進一步消除冗餘。我們提出了互補條件和平衡條件來指導結構化稀疏核的設計,在模型大小,計算複雜度和分類精度三個方面取得平衡。實驗結果證明了與交錯群卷積和Xception相比,這三個方面的平衡優勢,以及與其他最先進的架構設計方法相比的競爭性能。

arXiv:arxiv.org/abs/1804.0620

Face


[3]《Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks》

CVPR 2018

Abstract:旋轉不變人臉檢測,即檢測具有任意旋轉平面(RIP)角度的人臉,在不受約束的應用中廣泛需要,但由於人臉外觀的巨大變化仍然是一項具有挑戰性的任務。大多數現有方法都以速度或準確度來處理大型RIP變體。為了更有效地解決這個問題,我們提出逐步校準網路(PCN)以粗到細的方式執行旋轉不變的人臉檢測。 PCN由三個階段組成,每個階段不僅可以區分人臉和非人臉,還可以逐個校準每個人臉候選人的RIP方向。通過將校準過程分為幾個漸進步驟,並且只在早期階段預測粗略方向,PCN可以實現精確和快速的校準。通過逐步減少RIP範圍對面部和非面部進行二元分類,PCN可以以360°全形RIP角度精確檢測面部。這種設計導致實時旋轉不變的人臉檢測器。在多向FDDB和包含廣泛旋轉面部的WIDER FACE的具有挑戰性的子集上的實驗表明,我們的PCN實現了相當高的性能。

arXiv:arxiv.org/abs/1804.0603

github:github.com/Jack-CV/PCN

Object Detection


[4]《Towards High Performance Video Object Detection for Mobiles》

Abstract:儘管最近在桌面GPU上成功實現了視頻對象檢測,但它的體系結構對手機來說仍然過於沉重。 稀疏特徵傳播和多幀特徵聚合的關鍵原理是否適用於非常有限的計算資源也不清楚。 在本文中,我們提出了一個輕量級網路體系結構,用於在手機上進行視頻對象檢測。 輕量級圖像對象檢測器應用於稀疏關鍵幀。 一個非常小的網路Light Flow旨在跨幀建立對應關係。 流引導的GRU模塊旨在有效地聚合關鍵幀上的特徵。 對於非關鍵幀,執行稀疏特徵傳播。 整個網路可以進行端到端的培訓。 所提出的系統在移動設備(例如,HuaWei Mate 8)上以25.6fps的速度獲得60.2%的mAP分數。

arXiv:arxiv.org/abs/1804.0583

註:華為Mate8上跑,厲害了!


[5]《Robust Physical Adversarial Attack on Faster R-CNN Object Detector》

Abstract:鑒於直接操作數字輸入空間中的圖像像素的能力,敵手可能容易產生不可察覺的干擾以愚弄深度神經網路(DNN)圖像分類器,如以前的工作中所證明的那樣。在這項工作中,我們解決了製造物理對抗性擾動的更具挑戰性的問題,以愚弄基於圖像的物體探測器,如Faster R-CNN。攻擊一個目標檢測器比攻擊一個圖像分類器要困難得多,因為它需要誤導不同尺度的多個邊界框中的分類結果。將數字攻擊擴展到物理世界增加了另一層困難,因為它要求擾動足夠強大,以適應不同的觀看距離和角度,照明條件和攝像機限制造成的真實世界的失真。我們表明,最初提出的用於增強圖像分類中對抗性擾動魯棒性的轉換期望技術可成功適用於對象檢測設置。我們的方法可能會產生對抗擾動的停車標誌,這些標誌一直被Faster R-CNN誤檢為其他物體,對自動駕駛車輛和其他安全關鍵型計算機視覺系統構成潛在威脅。

arXiv:arxiv.org/abs/1804.0581

Super Resolution


[6]《Densely Connected High Order Residual Network for Single Frame Image Super Resolution》

Abstract:深度卷積神經網路(DCNN)近來在超解析度研究中被廣泛採用,但以前的工作主要集中在模型中儘可能多的層次上,本文中我們提出了一種關於圖像恢復問題的新觀點,可以構造反映圖像恢復過程的物理意義的神經網路模型,即將圖像復原的先驗知識直接嵌入到神經網路模型的結構中,我們採用對稱非線性色空間(symmetric non-linear colorspace),S形(sigmoidal)傳遞, 為取代諸如sRGB,Rec.709等非對稱非線性顏色空間的傳統轉換,我們還提出了一種「reuse plus patch」方法來處理不同縮放因子的超解析度,我們提出的方法和模型表現出總體上優越的性能,even though our model was only roughly trained and could still be underfitting the training set.

arXiv:arxiv.org/abs/1804.0590

往期精彩回顧

三個牛人教你怎麼高效閱讀論文

[計算機視覺論文速遞] 2018-04-28

YOLOv3:你一定不能錯過

-------我是可愛的分割線-------

若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!

weixin.qq.com/r/NioZAUb (二維碼自動識別)

-------我還是可愛的分割線-------

喜歡CVer的文章,記得點贊哦!


推薦閱讀:

Focal Loss for Dense Object Detection解讀
2017年歷史文章匯總|深度學習
Learning to Segment Every Thing論文導讀
讀論文系列:Object Detection NIPS2015 Faster RCNN

TAG:機器學習 | 深度學習DeepLearning | 計算機視覺 |