[計算機視覺論文速遞] 2018-03-30
通知:這篇文章有9篇論文速遞信息,涉及目標檢測、圖像分割、目標跟蹤、三維重建和立體匹配等方向
PS:由於時間問題,本文沒有附上相應圖示,還請見諒
目標檢測
[1]《Optimizing the Trade-off between Single-Stage and Two-Stage Object Detectors using Image Difficulty Prediction》
Abstract:主要有兩種類型的最先進的物體探測器。一方面,我們two-stage探測器,比如Faster R-CNN(基於區域的卷積神經網路)或Mask R-CNN,它們(i)使用區域提議網路在第一階段產生興趣區域, (ii)將區域提案發送到pipeline中以進行對象分類和邊界框回歸。這樣的模型達到了最高的準確率,但通常較慢。另一方面,我們有YOLO(You Only Look Once)和SSD(Singe Shot MultiBox Detector)等single-stage探測器,將物體探測作為一個簡單的回歸問題,它將輸入圖像作為輸入圖像並學習類概率,邊界框坐標。這種模型的準確率較低,但比two-stage物體探測器快得多。在本文中,我們建議使用圖像難度預測器來實現目標檢測中精度和速度之間的最佳平衡。將圖像難度預測器應用到測試圖像上,將其分解為簡易圖像和困難圖像。一旦分離後,簡單的圖像將被發送到更快的single-stage探測器,而困難圖像被發送到更精確的two-stage探測器。我們在PASCAL VOC 2007上進行的實驗表明,使用圖像難度與圖像的隨機分割相比毫不遜色。我們的方法是靈活的,因為它允許選擇一個期望的閾值,將圖像分成簡單和較難。
註:還能有這種操作?!感覺就是一個預處理,但實際中還是要訓練兩個模型,咦!不過如果總體測試,精度和速度若達到均衡也很棒!
arXiv:
[1803.08707] Optimizing the Trade-off between Single-Stage and Two-Stage Object Detectors using Image Difficulty Prediction[2]《Speeding-up Object Detection Training for Robotics with FALKON》
Abstract:最新的物體檢測深度學習方法得到了顯著的性能提升,但在機器人應用中使用時會受到限制。最相關的問題之一是訓練時間長,這是由於相關訓練集的大小和不平衡造成的,其特徵在於很少的正樣本和負樣本(即背景)例子。提出的方法,無論是基於反向傳播的端對端學習[22],or standard kernel methods trained with Hard Negatives Mining on top of deep features [8],都證明是有效的,但對於在線應用卻不合適。在本文中,我們提出了一種新穎的物體檢測pipeline,克服了這個問題,並提供了與60倍訓練加速相當的性能。我們的流程結合了(i)區域提議網路和[22]中的深度特徵提取器,以有效地選擇候選RoI並將它們編碼成強大的表示,(ii)最近提出的FALKON [23]演算法,一種新的基於內核的方法可以快速訓練數百萬分。我們通過利用方法中固有的隨機子採樣,結合一種新穎,快速的自舉方法來解決訓練數據的大小和不平衡問題。我們評估標準計算機視覺設置(PASCAL VOC 2007 [5])中該方法的有效性,並證明其適用於由iCubWorld Transformations [18]數據集表示的真實機器人場景。
arXiv:
[1803.08740] Speeding-up Object Detection Training for Robotics with FALKON[3]《Object Detection for Comics using Manga109 Annotations》
Abstract:隨著數字化漫畫的發展,圖像理解技術變得越來越重要。在本文中,我們著重於對象檢測,這是圖像理解的基礎任務。儘管基於卷積神經網路(CNN)的方法在自然圖像的對象檢測中存檔良好,但在將這些方法應用於漫畫對象檢測任務時存在兩個問題。首先,沒有大規模的帶注釋的漫畫數據集。基於CNN的方法需要大規模的注釋用於訓練。其次,與自然圖像相比,漫畫中的物體高度重疊。這種重疊會導致現有的基於CNN的方法中的分配問題。為了解決這些問題,我們提出了一個新的注釋數據集和一個新的CNN模型。我們注釋了現有的漫畫圖像數據集,並創建了最大的注釋數據集Manga109-annotations。對於分配問題,我們提出了一種新的基於CNN的探測器SSD300-fork。我們使用Manga109注釋比較SSD300-fork與其他檢測方法,並確認我們的模型基於mAP得分勝過了它們。
註:上述將annotation翻譯成了注釋,有些不妥,但思來想去,翻譯成標籤、標記都還是不好。講真,還是意會比較好。
arXiv:
[1803.08670] Object Detection for Comics using Manga109 Annotations
圖像分割
[4]《Context Encoding for Semantic Segmentation》
CVPR 2018
Abstract:最近的工作已經在利用全卷積網路(FCN)框架通過使用擴張/Atrous 卷積,利用多尺度特徵和細化邊界來提高用於像素標記的空間解析度方面取得重大進展。在本文中,我們通過引入上下文編碼模塊來探索全局上下文信息在語義分割中的影響,上下文編碼模塊捕獲場景的語義上下文並選擇性地突出顯示與類相關的特徵圖。所提出的上下文編碼模塊顯著改善了語義分割結果,並且在FCN上僅有邊際額外計算成本。我們的方法在PASCAL-Context上獲得了51.7%的最新成果,在PASCAL VOC 2012上獲得了85.9%的mIoU。我們的單一模型在ADE20K測試集上取得了0.5567的最終成績,超過了COCO 2017冠軍此外,我們還探討了上下文編碼模塊如何改進CIFAR-10數據集上圖像分類的相對淺層網路的特徵表示。我們的14層網路已經實現了3.45%的錯誤率,這與具有10倍以上層數的最先進方法相當。完整系統的源代碼是公開可用的。
arXiv:
[1803.08904] Context Encoding for Semantic Segmentation註:代碼已公開!
zhanghang1989/MXNet-Gluon-SyncBN
[5]《Deep learning and its application to medical image segmentation》
Abstract:在醫學成像中最常見的任務之一是語義分割。自動實現這種分割一直是一個活躍的研究領域,但由於不同患者的解剖結構差異很大,這項任務已被證明非常具有挑戰性。然而,深度學習的最新進展使得顯著提高了計算機視覺領域中的圖像識別和語義分割方法的性能。由於在深度學習框架中採用數據驅動的分層特徵學習方法,這些進步可以毫不費力地轉化為醫學圖像。深卷積神經網路的幾種變體已成功應用於醫學圖像。特別是完全卷積體系結構已被證明是有效的3D醫學圖像分割。在本文中,我們將介紹如何構建一個可以處理3D圖像以產生自動語義分割的3D完全卷積網路(FCN)。該模型經過臨床計算機斷層掃描(CT)數據集的訓練和評估,並顯示了多器官分割的最新性能。
arXiv:
[1803.08691] Deep learning and its application to medical image segmentation目標跟蹤
[6]《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》
CVPR 2018
Abstract:鑒別相關濾波器(DCF)在視覺追蹤中是有效的,但遭受不需要的邊界效應。已經提出空間正則化DCF(SRDCF)來通過對DCF係數執行空間懲罰來解決這個問題,這不可避免地以複雜性增加的價格提高了跟蹤性能。為了處理在線更新,SRDCF在多個訓練圖像上制定了模型,進一步增加了提高效率的難度。在這項工作中,通過將單個樣本的時間正則化引入SRDCF,我們提出了我們的空間 - 時間正則化相關濾波器(STRCF)。受到在線被動 - 積極(PA)演算法的啟發,我們將時間正則化引入單樣本SRDCF,從而產生我們的時空正則化相關濾波器(STRCF)。 STRCF公式不僅可以作為SRDCF與多個訓練樣本的合理近似,而且在外觀變化大的情況下也可以提供比SRDCF更強大的外觀模型。此外,它可以通過乘法器的交替方向法(ADMM)有效解決。通過結合時間和空間正則化,我們的STRCF可以處理邊界效應,而不會產生太多的效率損失,並且在精確度和速度方面比SRDCF實現更好的性能。實驗在三個基準數據集上進行:OTB-2015,Temple-Color和VOT-2016。與SRDCF相比,具有手工特徵的STRCF提供了5倍的加速,分別在OTB-2015和Temple-Color上獲得了5.4%和3.6%的AUC分數。此外,STRCF與CNN功能相結合,對於最先進的基於CNN的跟蹤器也表現出色,並且在OTB-2015上獲得了68.3%的AUC評分。
arXiv:
[1803.08679] Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking[7]《Region-filtering Correlation Tracking》
Abstract:最近,相關濾波器已經證明了在視覺跟蹤方面的出色表現。但是,基本訓練樣本區域大於目標區域,包括干涉區域(IR)。基訓練樣本的循環移位訓練樣本中的IR嚴重降低了跟蹤模型的質量。在本文中,我們提出了新穎的區域濾波相關跟蹤(RFCT)來解決這個問題。我們立即通過將空間圖引入標準CF配方來過濾訓練樣本。與現有的相關濾波跟蹤器相比,我們提出的跟蹤器具有以下優點:(1)可以在較大的搜索區域上學習相關濾波器,而不受空間映射的干擾。 (2)由於通過空間圖處理訓練樣本,在訓練樣本中控制背景信息和目標信息是更一般的方法。空間圖的值不受限制,那麼可以探索更好的空間圖。 (3)增加精確過濾器的重量比例以減輕模型corruption。在兩個基準數據集上進行實驗:OTB-2013和OTB-2015。對這些基準的定量評估表明,所提出的RFCT演算法對於幾種最先進的方法有良好的表現。
arXiv:
[1803.08687] Region-filtering Correlation Tracking三維重建
ICIP 2017
[8]《CSfM: Community-based Structure from Motion》
Abstract:動態結構方法大致可以分為兩類:增量式和全局式。雖然增量式方法對異常值具有魯棒性,但會受到誤差累積和大量計算負擔的影響。全局方式具有同時估計所有相機姿態的優點,但它通常對極外幾何異常值很敏感。在本文中,我們提出了一個基於自適應社區的SfM(CSfM)方法,該方法既考慮到魯棒性又考慮效率。首先,極線幾何圖形被劃分為不同的社區。然後,並行解決每個community 的重建問題。最後,重構結果由一種新的全局相似性平均方法合併,解決了三個凸L1優化問題。實驗結果表明,我們的方法在計算效率方面比許多先進的SfM方法執行得更好,同時獲得與許多最先進的增量SfM相似或更好的重構精度和魯棒性方法。
arXiv:
Community-based Structure from Motion立體匹配
[9]《Pyramid Stereo Matching Network》
CVPR 2018
Abstract:最近的研究表明,從一對立體圖像進行深度估計可以被制定為一個監督學習任務,用卷積神經網路(CNN)來解決。 然而,目前的體系結構依賴於基於parch的Siamese網路,缺乏利用上下文信息來查找在所示區域的對應關係的手段。為了解決這個問題,我們提出PSMNet,一個由兩個主要模塊組成的金字塔立體匹配網路:空間金字塔池和3D CNN。空間金字塔池模塊通過聚合不同尺度和位置的上下文來利用全局上下文信息的能力來形成cost volume。3D CNN學習使用堆疊的多個hourglass網路結合中間監督來調整cost volume。所提出的方法在幾個基準數據集上進行了評估。 我們的方法在2018年3月18日之前的KITTI 2012和2015排行榜中排名第一。
arXiv:
[1803.08669] Pyramid Stereo Matching Networkgithub:
JiaRenChang/PSMNet------我是可愛的分割線-------
若喜歡Amusi推送的文章(目前還只是論文速遞,後期會鋪送一些更硬的乾貨),可以掃描下方二維碼關注CVer公眾號!
http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)
推薦閱讀:
※【目標檢測簡史】Mask-RCNN
※PASCAL VOC數據集的標註格式
※目標檢測:SPPNet 論文閱讀
※基於深度學習的「目標檢測」演算法綜述
※目標檢測入門(二):模型的評測與訓練技巧
TAG:深度學習DeepLearning | 計算機視覺 | 目標檢測 |