ICCV2017語義分割相關論文摘要及框架

ICCV2017語義分割相關論文摘要及框架

來自專欄語義分割的學習

寫在前面:ICCV會議兩年舉辦一次,所以之間沒有ICCV2016。這次給大家一個更全的查找論文的地址,其內容部分截圖如下,其中包括了CV相關的幾大頂級會議,也包括了我上篇文章所提的CVPR,ECCV,還有一些CV相關資源。

鏈接地址:Computer Vision Resource

ICCV2017相關論文地址:openaccess.thecvf.com/I

希望大家如果發現我所寫東西有什麼問題,及時在下方留言批評指正,這樣也造福其他看這篇文章的同學。另外,有什麼好的想法或建議,也希望各位不吝賜教,在下方留言。同時,感謝那些關注這一專欄以及點贊的同學,謝謝你們對我的鼓勵,我會努力做的更好。最後,祝大家在各自領域研究中,直掛雲帆濟滄海。

1. VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation

摘要:

豐富而密集的人為標記數據集是近期視覺語言理解發展的主要因素。許多看似遙遠的注釋(例如,語義分割和視覺問答(VQA)),其本質上是相互聯繫的,因為它們揭示了人類對相同視覺場景的理解的不同層次和視角-甚至是同一組圖像(例如,COCO的圖像)。COCO的流行與那些注釋和任務有關。明確地將它們聯繫起來可能會使個人任務以及視覺語言的統一建模都受益匪淺。

我們提出了將COCO提供的實例分割與VQA數據集中的問題和答案(QA)相關聯的初步工作,並將收集的鏈接命名為視覺問題和分割答案(VQS)。他們在以前單獨的任務之間轉移人員監督,為現有問題提供更有效的手段,並為新的研究問題和模型打開大門。我們在本文中研究了VQS數據的兩個應用:監督VQA的注意力和一個新的以問題為中心的語義分割任務。對於前者,我們通過使用分割-QA鏈接作為顯式監督學習的一些注意特徵來簡單地增加多層感知器,從而獲得關於VQA實際多選任務的最新結果。為了對後者進行觀察,我們研究了兩種可能的方法,並將它們與假設在測試階段給出了實例分割的oracle方法進行比較。

2. Cascaded Feature Network for Semantic Segmentation of RGB-D Images

摘要:

完全卷積網路(FCN)已成功應用於用RGB圖像表示的場景的語義分割中。利用深度通道增強的圖像提供了對圖像中場景的幾何信息的更多理解。問題是如何最好地利用這些額外信息來改善分割性能。

在本文中,我們提出了一個具有多個分支的神經網路,用於分割RGB-D圖像。我們的方法是使用可用的深度將圖像分割成具有物體/場景的常見視覺特徵或者常見的「場景解析度」的層。我們引入了上下文感知感受域(CaRF),它可以更好地控制學習特徵的相關上下文信息。配備有CaRF,網路的每個分支在語義上對相關的相似場景解析度進行分割,從而形成更易於學習的更集中的領域。此外,我們的網路與一個分支的特徵級聯,增加了相鄰分支的功能。我們表明,這種級聯功能豐富了每個分支的上下文信息,並提高了整體性能。我們的網路實現的準確性優於兩個公共數據集的最先進方法。

3. Predicting Deeper into the Future of Semantic Segmentation

摘要:

預測並因此預期未來的能力是智力的重要屬性。它在實時系統中也是至關重要的,例如在機器人或自動駕駛中,這取決於視覺場景理解的決策。雖然在以前的工作中已經研究了對未來視頻幀中的原始RGB像素值的預測,但是在這裡我們引入了預測未來幀的語義分割的新任務。給定一系列視頻幀,我們的目標是預測尚未觀察到的視頻幀的分割圖,這些視頻幀可以在未來一秒或更遠的時間內進行。我們開發了一個自回歸卷積神經網路,學習迭代生成多個幀。我們在Cityscapes數據集上的結果表明,直接預測未來的分割比預測然後分割未來的RGB幀要好得多。未來高達半秒的預測結果在視覺上令人信服,並且比基於使用光流的變形語義分割的基線的預測結果準確得多。

4. Deep Dual Learning for Semantic Image Segmentation

摘要:

深度神經網路已經推進了許多計算機視覺任務,因為它們具有從大量標記數據中學習的強大能力。然而,由於訓練集的規模有限,其中每個像素標籤圖的獲取成本很高,因此它們的表現在語義圖像分割中沒有得到充分利用。為了減少標籤工作,一個自然的解決方案是從Internet收集與圖像級標籤相關的其他圖像。與將標籤圖和標籤視為獨立監督的現有作品不同,我們提出了一種新穎的學習設置,即雙重圖像分割(DIS),它由兩個互補的學習問題共同解決。一個預測圖像中的標籤圖和標籤,另一個使用預測的標籤圖重建圖像。 DIS有三個吸引人的特性。 1)給定僅帶標籤的圖像,可以通過利用圖像和標籤作為約束來推斷其標籤圖。捕獲精確對象類和邊界的估計標籤圖被用作訓練中的基本事實以提高性能。 2)DIS能夠清除有噪音的標籤。 3)DIS顯著減少了訓練中每個像素注釋的數量,同時仍然達到了最先進的性能。大量實驗證明了DIS的有效性,其在Pascal VOC 2012測試集上優於現有的最佳性能基準12.6%,無需任何後處理,如CRF / MRF平滑。

5. Universal Adversarial Perturbations Against Semantic Image Segmentation

摘要:

雖然深度學習在感知任務上非常成功,但它也被證明易受輸入的對抗性擾動的影響。這些擾動表示添加到輸入中的雜訊,這些雜訊是專門為欺騙系統而生成的,同時對人類來說是不易察覺的。更嚴重的是,甚至存在與輸入無關的普遍擾動,但仍在大多數輸入上欺騙網路。雖然最近的工作主要集中在圖像分類上,但這項工作提出了對語義圖像分割的攻擊:我們提出了一種生成(通用)對抗性擾動的方法,該方法使網路產生期望的目標分割作為輸出。我們憑經驗證明存在幾乎不可察覺的通用雜訊模式,這導致任意輸入的預測分割幾乎相同。此外,我們還示出了通用雜訊的存在,其從分割中移除目標類(例如,所有行人),而在其他情況下保持大致不變的分割。

6. RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation

摘要:

在使用RGBD數據的多級室內語義分割中,已經表明將深度特徵結合到RGB特徵中有助於提高分割精度。然而,先前的研究尚未充分利用多模態特徵融合的潛力,例如,簡單地連接RGB和深度特徵或平均RGB和深度分數圖。為了學習多模態特徵的最優融合,本文提出了一種新的網路,將殘差學習的核心思想擴展到RGB-D語義分割。我們的網路通過包含多模態特徵融合模塊和多級特徵細化模塊,有效地捕獲多級RGB-D CNN特徵。特徵融合塊學習殘餘RGB和深度特徵及其組合,以充分利用RGB和深度數據的互補特性。特徵細化塊學習來自多個級別的融合特徵的組合,以實現高解析度預測。我們的網路可以通過充分利用跳躍連接,從端到端的每種模態中有效地訓練有辨別力的多級功能。我們的綜合實驗表明,所提出的架構在兩個具有挑戰性的RGB-D室內數據集NYUDv2和SUN RGB-D上實現了最先進的精度。

7. Video Deblurring via Semantic Segmentation and Pixel-Wise Non-Linear Kernel

摘要:

視頻去模糊是一個具有挑戰性的問題,因為模糊很複雜,通常是由相機抖動,物體運動和深度變化的組合引起的。光流可以用於核估計,因為它預測運動軌跡。然而,在對象邊界的複雜場景中估計通常是不準確的,這在核估計中是至關重要的。在本文中,我們利用每個模糊幀中的語義分割來理解場景內容,並使用不同的圖像區域運動模型來指導光流估計。雖然現有的像素模糊模型假設模糊核與曝光時間期間的光流相同,但是當像素處的運動模糊軌跡與估計的線性光流不同時,該假設不成立。我們分析了運動模糊軌跡和光流之間的關係,並提出了一種新的像素方式非線性核模型來解釋運動模糊。所提出的模糊模型基於非線性光流,其更有效地描述複雜的運動模糊。針對具有挑戰性的模糊視頻的大量實驗表明,所提出的演算法相對最先進的方法表現出色。

8.Bringing Background into the Foreground: Making All Classes Equal in Weakly-supervised Video Semantic Segmentation

摘要:

像素級注釋是昂貴的,並且需要耗費時間。 因此,僅使用圖像標籤的弱監督可能對語義分割產生重大影響。近年來,無論是來自單個圖像還是來自視頻,弱監督語義分割都取得了很大進展。但是,大多數現有方法旨在處理單個後台類。在實際應用中,例如自主導航,推理多個背景類通常是至關重要的。在本文中,我們通過使用分類器熱圖來介紹這樣做的方法。然後,我們開發了一個雙流深度架構,共同利用外觀和運動,並根據我們的熱圖設計損失來訓練它。我們的實驗證明了我們的分類器熱圖和我們的雙流架構在具有挑戰性的城市場景數據集和YouTube-Objects基準測試中的優勢,在此基礎上我們獲得了最先進的結果。

9. Semi Supervised Semantic Segmentation Using Generative Adversarial Network

摘要:

語義分割一直是計算機視覺中長期存在的挑戰性任務。它旨在為每個圖像像素分配標籤,並且需要大量的像素級注釋數據,這通常是不可得的。為了解決這種缺乏注釋的問題,在本文中,我們一方面利用大量可用的未標記或弱標記數據,另一方面利用通過生成對抗網路創建的非真實圖像。特別是,我們提出了一個基於生成對抗網路(GAN)的半監督框架,它包含一個生成器網路,為多類分類器提供額外的訓練樣例,作為GAN框架中的鑒別器,分配樣本a標記來自K個可能類的y標籤或將其標記為假樣本(額外類)。基本思想是添加大的假視覺數據迫使實際樣本在特徵空間中靠近,這反過來又改善了多類像素分類。為了通過GAN確保更高質量的生成圖像並因此改進像素分類,我們通過添加弱注釋數據來擴展上述框架,即,我們向生成器提供類級信息。我們在幾個具有挑戰性的基準視覺數據集上測試我們的方法,即PASCAL,SiftFLow,Stanford和CamVid,與最先進的語義分割方法相比,實現了有競爭力的性能。

10. Adversarial Examples for Semantic Segmentation and Object Detection

摘要:

已經充分證明,對抗性示例,即添加了視覺上不可察覺的擾動的自然圖像,導致深度網路在圖像分類上失敗。在本文中,我們將對抗性示例擴展到語義分割和對象檢測,這些實例要困難得多。我們的觀察是分割和檢測都基於對圖像上的多個目標進行分類(例如,目標是分割中的像素或感受野,以及檢測中的對象提議)。這激勵我們優化一組目標上的損失函數,以產生對抗性擾動。基於此,我們提出了一種名為密集對抗生成(DAG)的新演算法,該演算法適用於最先進的網路進行分割和檢測。我們發現,對抗性擾動可以通過具有不同訓練數據的進行網路傳遞,基於不同的體系結構,甚至用於不同的識別任務。特別是,具有相同架構的網路之間的傳輸能力比其他情況更有效。此外,我們表明,總體異構擾動往往會帶來更好的傳遞性能,這提供了一種有效的黑盒對抗攻擊方法。

11. Curriculum Domain Adaptation for Semantic Segmentation of Urban Scenes

摘要:

在過去的五年中,卷積神經網路(CNNs)已經戰勝了語義分割,這是各種新興工業應用的核心任務,如自動駕駛和醫學成像。然而,訓練CNN需要大量數據,這些數據難以收集並且難以注釋。計算機圖形學的最新進展使得利用計算機生成的注釋在照片擬真的合成數據上訓練CNN模型成為可能。儘管如此,真實圖像和合成數據之間的域不匹配會顯著降低模型的性能。因此,我們提出了一種課程式學習方法,以盡量減少語義分割中的域差距。課程域適應首先解決簡單任務,以推斷關於目標領域的一些必要屬性;特別地,第一個任務是學習在地標超像素上的圖像和局部分布上的全局標籤分布。這些很容易估計,因為城市交通場景的圖像具有強烈的特性(例如,建築物,街道,汽車等的大小和空間關係)。然後,我們以這樣的方式訓練分割網路,使得目標域中的網路預測遵循那些推斷的屬性。在實驗中,我們的方法明顯優於基線以及針對同一問題的唯一已知現有方法。

推薦閱讀:

TAG:深度學習DeepLearning | 圖像分割 | 計算機視覺 |