[計算機視覺論文速遞] 2018-04-23
通知:這篇文章有6篇論文速遞信息,涉及目標檢測、圖像分割、3D卷積等方向(含1篇CVPR論文)
目標檢測
[1]《Zero-Shot Object Detection》
Abstract:我們介紹和解決了Zero-Shot 目標檢測(ZSD)的問題,它旨在檢測訓練期間未觀察到的物體類別。我們與一組具有挑戰性的對象類一起工作,而不是將我們限制在類似和/或細粒度的類別中。之前的zero-shot classification工作。我們遵循一個原則性的方法,首先適應ZSD的視覺語義嵌入。然後我們討論與選擇背景類相關的問題,並激發兩種背景感知方法來學習魯棒檢測器。其中一個模型使用固定的背景類,另一個基於迭代的潛在分配。我們還概述了與使用有限數量的訓練類別相關的挑戰,並提出了基於使用大量類別的輔助數據對語義標籤空間進行密集採樣的解決方案。我們提出了兩種標準檢測數據集 - MSCOCO和VisualGenome的新型分割,並討論了廣泛的實證結果,以突出所提出的方法的優點。我們提供有用的insights into the algorithm,並通過提出一些開放問題來鼓勵進一步的研究。
arXiv:[1804.04340] Zero-Shot Object Detection
註:對Zero-Shot方向感興趣的同學可以自行google一下 zero-shot classification
圖像分割
[2]《Outline Objects using Deep Reinforcement Learning》
Abstract:圖像分割需要局部邊界位置信息和全局對象上下文信息。 最近最先進的方法 - 全卷積網路 - 的性能在端到端訓練風格中同時平衡兩種信息之後,由於神經網路限制而出現瓶頸。 為了克服這個問題,我們將語義圖像分割成時間子任務。 首先,我們找到一個物體邊界的可能像素位置; 然後在有限長度內按步驟追蹤邊界,直到整個對象被勾畫出來。 我們提出了第一個深度強化學習方法來進行語義圖像分割,稱為DeepOutline,它在Coco val2017數據集中的中等和大尺寸人員類別中優於Coco檢測排行榜中的其他演算法。 同時,它通過強化學習計算機視覺問題,提供了一種分而治之的方法。
arXiv:[1804.04603] Outline Objects using Deep Reinforcement Learning
註:使用了強化學習(Reinforcement Learning),實在很6
[3]《A two-stage 3D Unet framework for multi-class segmentation on full resolution image》
Abstract:深度卷積神經網路(CNN)已被廣泛用於多種類別的數據分割,並獲得了最先進的性能。然而,處理大型高解析度3D數據時的一個常見問題是,由於計算設備的存儲容量有限,輸入深度CNN的體積必須進行裁剪(crop)或降採樣(downsample)。這些操作會導致輸入數據 batches 中解析度的降低和類不平衡的增加,從而降低分割演算法的性能。受到圖像超解析度CNN(SRCNN)和self-normalization(SNN)的架構的啟發,我們開發了一個兩階段修改的Unet框架,它可以同時學習檢測整個體積內的ROI並對體素進行分類而不會丟失原始圖像解析度。對各種多模式音量的實驗表明,當用簡單加權的模子係數和我們定製的學習程序進行訓練時,該框架顯示比具有高級相似性度量標準的最先進的深CNN更好的分割性能。
arXiv:[1804.04341] A two-stage 3D Unet framework for multi-class segmentation on full resolution image
3D
[4]《Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling》
CVPR 2018
Abstract:我們從一個圖像研究三維形狀建模,並從三個方面對其做出貢獻。 首先,我們展示了Pix3D,這是一個不同圖像形狀對與像素級2D-3D對齊的大型benchmark。 Pix3D在形狀相關的任務中有著廣泛的應用,包括重建,檢索,視點估計等。然而,構建這樣的大規模數據集非常具有挑戰性; 現有數據集或者只包含合成數據,或者缺少2D圖像和3D圖形之間的精確對齊,或者僅包含少量圖像。 其次,我們通過行為研究來校準三維形狀重建的評估標準,並使用它們客觀地,系統地對Pix3D上的cutting-edge重建演算法進行基準測試。 第三,我們設計了一個同時進行三維重建和姿態估計的新模型; 我們的多任務學習方法可以在兩項任務中實現最先進的性能。
arXiv:Dataset and Methods for Single-Image 3D Shape Modeling
homepage:Pix3D
code:xingyuansun/pix3d
[5]《CubeNet: Equivariance to 3D Rotation and Translation》
Abstract:3D卷積神經網路對應用於其輸入的轉換很敏感。這是一個問題,因為3D對象的體素化版本(voxelized version)及其旋轉的克隆在通過網路的最後一層之後看起來彼此不相關。相反,理想化的模型會保留體素化對象的有意義的表示,同時解釋兩個輸入之間的姿態差異。等變表示向量有兩個組成部分:不變身份(identity)部分和轉換的可辨別編碼。無法解釋姿態差異的模型會「稀釋」表示,以追求優化分類或回歸損失函數。
我們引入了一個群組(group)卷積神經網路,它具有三維平移和直角旋轉的線性等變性。我們稱之為網路CubeNet,反映它的立方體狀對稱性。通過構建,這個網路有助於保持3D形狀的全局和局部簽名,因為它通過連續的層次進行轉換。我們將該網路應用於各種3D推理問題,實現了ModelNet10分類挑戰的最新技術,以及ISBI 2012 Connectome分段基準測試的可比性能。就我們所知,這是第一個用於體素表示的3D旋轉等變CNN。
arXiv:Equivariance to 3D Rotation and Translation
註:一般2D對象都是用pixel,而3D對象是用voxel來計算,後者難度很大啊!
其它
[6]《Extraction of Airways using Graph Neural Networks》
Abstract:我們從圖像數據中提取樹結構(如氣道)的提取,作為圖形細化任務。 為此,我們提出了一種圖形自動編碼器模型,該模型使用基於圖形神經網路(GNN)的編碼器來學習來自輸入節點特徵的嵌入和解碼器以預測節點之間的連接。 GNN模型的性能與平均野外網路相比,能夠從3D胸部CT掃描中提取氣道。
arXiv:[1804.04436] Extraction of Airways using Graph Neural Networks
-------我是可愛的分割線-------
若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!
http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)
-------我還是可愛的分割線-------
喜歡CVer的文章,記得點贊哦!
推薦閱讀:
※魔幻光影濾鏡(3):美女人像「劃重點」
※背景及基本概念介紹
※深度反向投影網路(DBPN)--通過Back-Projection來超解析度的新方法
※每天一練P8-Python和OpenCV做圖像處理(adaptiveThreshold)
※skimage例子學習(二)將灰度變換的濾波器應用到RGB圖像
TAG:深度學習DeepLearning | 計算機視覺 | 圖像處理 |