[計算機視覺論文速遞] ECCV 2018專場1-2
來自專欄計算機視覺論文速遞27 人贊了文章
來源:CVer微信公眾號
編輯:Amusi參考1:[計算機視覺論文速遞] 2018-07-19 ECCV 2018專場1參考2:[計算機視覺論文速遞] ECCV 2018 專場2
Semantic Segmentation
《Effective Use of Synthetic Data for Urban Scene Semantic Segmentation》
ECCV 2018
Abstract:訓練深度網路以執行語義分割需要大量標記數據。為了減輕注釋真實圖像的手動工作,研究人員研究了合成數據的使用,這些數據可以自動標記。不幸的是,在合成數據上訓練的網路在真實圖像上表現得相對較差。雖然這可以通過域適應(domain adaptation)來解決,但是現有方法都需要在訓練期間訪問真實圖像。在本文中,我們介紹了一種截然不同的處理合成圖像的方法,這種方法不需要在訓練時看到任何真實的圖像。Our approach builds on the observation that foreground and background classes are not affected in the same manner by the domain shift, and thus should be treated differently。特別是,前者應該以基於檢測的方式處理,以更好地解釋這樣的事實:雖然它們在合成圖像中的紋理不是照片般逼真的,但它們的形狀看起來很自然。我們的實驗證明了我們的方法對Cityscapes和CamVid的有效性,僅對合成數據進行了訓練。
arXiv:https://arxiv.org/abs/1807.06132
註:domain adaptation這個概念最近很火!
Stereo
《ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems》
ECCV 2018
Abstract:在本文中,我們介紹ActiveStereoNet,這是active立體系統的第一個深度學習解決方案。由於缺乏ground truth,我們的方法是完全自監督的,但它產生精確的深度,子像素精度為像素的1/30;它沒有遭受常見的過度平滑問題;它保留了邊緣;它明確地處理遮擋。我們引入了一種新的重建損失(reconstruction loss),它對雜訊和無紋理patches更加穩健,並且對於光照變化是不變的。使用具有自適應支持權重方案的基於窗口的成本聚合來優化所提出的損失。這種成本聚合是邊緣保留並使損失函數平滑,這是使網路達到令人信服的結果的關鍵。最後,我們展示了預測無效區域(如遮擋)的任務如何在沒有ground truth的情況下進行端到端的訓練。該component對於減少模糊至關重要,特別是改善了深度不連續性的預測。對真實和合成數據進行廣泛的定量和定性評估,證明了在許多具有挑戰性的場景中的最新技術成果。
https://arxiv.org/abs/1807.06009
CNN
《CBAM: Convolutional Block Attention Module》
ECCV 2018
Abstract:我們提出了卷積塊注意力模塊(CBAM,Convolutional Block Attention Module ),這是一種用於前饋卷積神經網路的簡單而有效的注意力(attention)模塊。給定中間特徵圖,我們的模塊沿著兩個單獨的維度(通道和空間)順序地(sequentially)推斷注意力圖,然後將注意力圖乘以輸入特徵圖以進行自適應特徵細化。由於CBAM是一個輕量級的通用模塊,它可以無縫地集成到任何CNN架構中,代價可以忽略不計,並且可以與基本CNN一起進行端到端的訓練。 我們通過對ImageNet-1K,MS~COCO檢測和VOC~2007檢測數據集的大量實驗來驗證我們的CBAM。 我們的實驗表明,各種模型在分類和檢測性能方面均有一定的改進,證明了CBAM的廣泛適用性。 代碼和模型將隨後公開提供。
arXiv:https://arxiv.org/abs/1807.06521
Multi-View Reconstruction
《Specular-to-Diffuse Translation for Multi-View Reconstruction》
ECCV 2018
Abstract:大多數多視圖3D重建演算法,特別是當使用來自陰影的形狀提示時,假設對象外觀主要是漫射的(predominantly diffuse)。為了緩解這種限制,我們引入了S2Dnet,一種生成的對抗網路,用於將具有鏡面反射的物體的多個視圖轉換為漫反射( diffuse),從而可以更有效地應用多視圖重建方法。我們的網路將無監督的圖像到圖像轉換擴展到多視圖「鏡面到漫反射」的轉換。為了在多個視圖中保留對象外觀,我們引入了一個多視圖一致性損失(MVC,Multi-View Coherence loss),用於評估視圖轉換後局部patches的相似性和faithfulness。我們的MVC損失確保在圖像到圖像轉換下保留多視圖圖像之間的局部對應的相似性。因此,與幾種單視圖 baseline 技術相比,我們的網路產生了明顯更好的結果。此外,我們使用基於物理的渲染精心設計並生成大型綜合訓練數據集。在測試過程中,我們的網路僅將原始光澤圖像作為輸入,無需額外信息,如分割掩模或光照估計。結果表明,使用我們的網路過濾的圖像可以顯著地改善多視圖重建。我們還展示了在現實世界訓練和測試數據上的出色表現。
https://arxiv.org/abs/1807.05439
歡迎關注CVer微信公眾號,了解更多最新的關於深度學習、機器學習和計算機視覺相關的知識。
喜歡,點個贊哦!
推薦閱讀:
TAG:計算機視覺 | 深度學習DeepLearning | 機器學習 |