CVPR2018語義分割相關論文摘要翻譯及框架

09-06

來自專欄語義分割的學習14 人贊了文章

寫在前面：翻譯的可能不是很好，歡迎大家留言批評指正。另外，如果各位關於語義分割有什麼好的建議，希望在留言區不吝賜教。為了方便大家發現更多的好論文，在這裡我把CVPR2018所有論文的下載地址放下面，如果想找文中這些，只需搜索semantic segmengtation。

論文下載地址：http://openaccess.thecvf.com/CVPR2018.py

1. Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation

摘要：

分割標籤的不足是語義分割領域的主要障礙之一。為了緩解這個問題，我們提出了一種新穎的框架，可以根據圖像級別的標籤生成圖像的分割標籤。在這種弱監督的環境中，已知訓練的模型將局部判別部分而不是整個對象區域分割。我們的解決方案是將這種本地響應傳播到屬於同一語義實體的附近區域。為此，我們提出了一種稱為AffinityNet的深度神經網路（DNN），它可以預測一對相鄰圖像坐標之間的語義關聯。然後通過AffinityNet預測的親和力隨機遊走來實現語義傳播。更重要的是，用於訓練AffinityNet的監督由初始判別部分分割給出，其作為分割注釋是不完整的，但足以用於學習小圖像區域內的語義關聯。因此，整個框架僅依賴於圖像級類標籤，並且不需要任何額外的數據或注釋。在PASCAL VOC 2012數據集中，通過我們的方法生成的分段標籤學習的DNN優於以前受過相同監督級別訓練的模型，甚至比依賴更強監督的模型更具競爭力。

2. On the Robustness of Semantic Segmentation Models to Adversarial Attacks

摘要：

已經證明深度神經網路（DNN）在大多數識別任務（例如圖像分類和分割）上表現出色。然而，它們也被證明易受對抗性例子的影響。這種現象最近引起了很多關注，但尚未對多個大規模數據集和複雜任務（如語義分割）進行廣泛研究，這些任務通常需要更多專用網路以及其他組件，如CRF，擴張卷積，跳過連接和多尺度處理。

在本文中，我們使用兩個大型數據集，向我們展示了對現代語義分割模型的對抗性攻擊的第一次嚴格評估。我們分析了不同網路架構，模型容量和多尺度處理的影響，並表明許多關於分類任務的觀察並不總是轉移到這個更複雜的任務。此外，我們展示了深層結構模型和多尺度處理中的平均場推理如何自然地實現了最近提出的對抗性防禦。我們的觀察將有助於未來在理解和防禦對抗性例子方面的努力。此外，在短期內，由於其固有的穩健性，我們展示了目前哪些分割模型在安全關鍵應用中應該是首選的。

3. Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation

摘要：

我們提出了一種新穎的端到端可訓練，深度，編碼器解碼器架構，用於單通道語義分割。我們的方法基於具有特徵級遠程跳過連接的級聯架構。編碼器結合了ResNeXt的剩餘構建塊的結構，並採用重複構建塊的策略，該構建塊聚合具有相同拓撲的一組變換。解碼器具有由塊組成的新穎架構，其（i）捕獲上下文信息，（ii）生成語義特徵，以及（iii）實現不同輸出解析度之間的融合。至關重要的是，我們引入了密集的解碼器快捷方式連接，以允許解碼器塊使用來自所有先前解碼器級別的語義特徵映射，即來自所有更高級別的特徵映射。密集的解碼器連接允許從一個解碼器塊到另一個解碼器塊進行有效信息傳播，以及用於顯著提高準確度的多級特徵融合。重要的是，這些連接使我們的方法能夠在幾個具有挑戰性的數據集上獲得最先進的性能，而無需對以前的工作進行耗時的多尺度平均。

4. ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes

摘要：

近年來，利用合成數據來學習深度模型已引起越來越多的關注。然而，當將學習模型應用於現實世界場景時，合成圖像和真實圖像之間的固有域差異通常會導致顯著的性能下降。這主要是由於兩個原因：1）模型過分合成圖像，使得卷積濾波器無法提取真實圖像的信息表示; 2）合成數據和實際數據之間存在分布差異，這也稱為域適應問題。為此，我們通過學習合成數據，提出了一種新的面向現實的城市場景語義分割適應方法。首先，我們提出了一種目標引導蒸餾方法來學習真實的圖像樣式，這是通過訓練分割模型來模擬使用真實圖像的預訓練真實樣式模型來實現的。其次，我們進一步利用城市場景圖像中呈現的內在空間結構，並提出一種空間軟體適應方案，以有效地對齊兩個域的分布。這兩個模塊可以很容易地與現有的最先進的語義分割網路集成，以改善它們在從合成到真實城市場景的適應性時的普遍性。我們通過調整GTAV和SYNTHIA數據集來評估Cityscapes數據集上提出的方法，其中結果證明了我們方法的有效性。

5. Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and

Semantic Segmentation Based on Weakly Supervised Learning

摘要：

監督對象檢測和語義分割需要對象或甚至像素級注釋。當僅存在圖像級標籤時，弱監督演算法難以實現準確的預測。頂級弱監督演算法所達到的準確度仍遠低於完全受監督的演算法。在本文中，我們提出了一種新的弱監督課程學習流程，用於多標籤對象識別，檢測和語義分割。在這個管道中，我們首先獲得訓練圖像的中間對象定位和像素標記結果，然後使用這些結果以完全監督的方式訓練任務特定的深度網路。整個過程包括四個階段，包括訓練圖像中的對象定位，過濾和融合對象實例，訓練圖像的像素標記以及任務特定的網路訓練。為了在訓練圖像中獲得乾淨的對象實例，我們提出了一種新的演算法，用於對從多個解決方案機制收集的對象實例進行過濾，融合和分類。在此演算法中，我們結合了度量學習和基於密度的聚類來過濾檢測到的對象實例。實驗表明，我們的弱監督管道在多標籤圖像分類以及弱監督對象檢測方面取得了最新成果，並且在MS-COCO，PASCAL VOC 2007和PASCAL VOC 2012上的弱監督語義分割中獲得了非常有競爭力的結果。

6. Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing

摘要：

本文研究了僅使用圖像級標籤作為監督來學習圖像語義分割網路的問題，這一點很重要，因為它可以顯著減少人類的注釋工作。最近關於該問題的最新方法首先使用深度分類網路推斷每個對象類的稀疏和判別區域，然後使用判別區域作為監督來訓練語義分割網路。在種子區域生長的傳統圖像分割方法的啟發下，我們提出從判別區域開始訓練語義分割網路，逐步增加種子區域生長的像素級監督。種子區域增長模塊集成在深度分割網路中，可以從深層特徵中受益。與具有固定/靜態標籤的傳統深度網路不同，所提出的弱監督網路使用圖像內的上下文信息生成新標籤。所提出的方法明顯優於使用靜態標籤的弱監督語義分割方法，並獲得最先進的性能，在PASCAL VOC 2012測試集上獲得63.2％的mIoU分數，在COCO數據集上獲得26.0％的mIoU分數。

7. Large-scale Point Cloud Semantic Segmentation with Superpoint Graphs

摘要：

我們提出了一種新穎的基於深度學習的框架，以解決數百萬點的大規模點雲的語義分割挑戰。我們認為3D點雲的組織可以通過稱為超點圖（SPG）的結構有效地捕獲，該結構從掃描場景的分區導出為幾何同構元素。 SPG提供了對象部分之間的上下文關係的緊湊但豐富的表示，然後由圖形卷積網路利用。我們的框架為分割室外LiDAR掃描（Semantic3D測試集的+11.9和+8.8 mIoU點）以及室內掃描（S3DIS數據集的+12.4 mIoU點）達到了新的技術水平。

8. Low-Latency Video Semantic Segmentation

摘要：

近年來，語義分割取得了顯著進展。然而，將分割技術應用於基於視頻的應用程序仍然是一項具有挑戰性的任務。具體地說，視頻流的高吞吐量，運行完全卷積網路的絕對成本，以及許多現實世界應用中的低延遲要求，例如，自動駕駛，對視頻分割框架的設計提出了重大挑戰。為了解決這一綜合挑戰，我們開發了視頻語義分割框架，其中包含兩個新穎的組件：（1）特徵傳播模塊，通過空間變異卷積自適應地融合特徵，從而降低每幀計算的成本; （2）自適應調度器，其基於精度預測動態地分配計算。兩個組件協同工作以確保低延遲，同時保持高分割質量。在Cityscapes和CamVid上，與現有技術相比，所提出的框架獲得了競爭性能，同時大大減少了從360毫秒到119毫秒的延遲。

9. Semantic Video Segmentation by Gated Recurrent Flow Propagation

摘要：

語義視頻分割具有挑戰性，因為需要處理和標記大量數據才能構建準確的模型。在本文中，我們提出了一種深度的，端到端的可訓練的視頻分割方法，除了稀疏標記的幀之外，還能夠利用未標記數據中存在的信息，以便改進語義估計。我們的模型結合了卷積結構和時空變換器復現層，該層能夠通過光流在時間上傳播標記信息，基於其局部估計的不確定性自適應地選通。流與識別和門控時間傳播模塊可以聯合且端到端地訓練。我們模型的時間門控遞歸流傳播組件可以插入任何靜態語義分割架構，並將其轉換為弱監督視頻處理架構。我們在具有挑戰性的CityScapes和Camvid數據集以及多個深層體系結構中的實驗表明，所得到的模型可以利用未標記的時間幀，在標記的時間框架旁邊，以提高視頻分割的準確性和時間標籤的一致性，沒有額外的注釋成本，幾乎沒有額外的計算。

10. Learning from Synthetic Data: Addressing Domain Shift for Semantic Segmentation

摘要：

視覺域適應是計算機視覺中極為重要的問題。以前的方法展示了甚至深度神經網路無法跨域轉移學習信息表示。對於獲取手工標記數據非常困難和繁瑣的任務，這個問題更加嚴重。在這項工作中，我們專註於調整分割網路在合成和真實領域中學習的表示。與先前使用簡單對抗性目標或超像素信息來輔助過程的方法相反，我們提出了一種基於生成對抗網路（GAN）的方法，該方法使嵌入在學習的特徵空間中更接近。為了展示我們的方法的一般性和可擴展性，我們表明我們可以在合成到真實域適應的兩個具有挑戰性的場景中實現最先進的結果。其他探索性實驗表明，我們的方法：（1）推廣到看不見的域，（2）導致源和目標分布的改進對齊。

11. Bootstrapping the Performance of Webly Supervised Semantic Segmentation

摘要：

用於語義分割的完全監督的方法需要訓練像素級類掩模，其創建在手工勞動和時間方面是昂貴的。在這項工作中，我們專註於弱監督，開發一種訓練高質量像素級分類器進行語義分割的方法，只使用圖像級類標籤作為提供的基礎事實。我們的方法被制定為兩步方法，其中我們首先旨在通過自舉過程為訓練圖像創建精確的像素級掩碼，然後在更標準的監督設置中使用這些現在精確分割的圖像作為代理地面實況。我們工作的關鍵驅動因素是，在目標數據集中，我們通常具有可靠的地面實況圖像級標籤，而從網路爬行的數據可能具有不可靠的標籤，但可以過濾以僅包含易於分割的圖像，因此具有可靠性邊界。這兩種形式的信息是互補的，我們使用這種觀察來建立一種新穎的雙向轉移學習框架。該框架在兩個域之間傳遞知識，目標域和Web域，引導弱監督語義分段的性能。在基於VGG16網路和ResNet50的流行基準數據集PASCAL VOC 2012上進行實驗，我們達到了最先進的性能，分別為60.2％IoU和63.9％IoU1。

12. Learning to Adapt Structured Output Space for Semantic Segmentation

摘要：

基於卷積神經網路的語義分割方法依賴於像素級地面實況的監督，但對看不見的圖像域可能無法很好地概括。由於標記過程繁瑣且勞動密集，因此開發能夠將源地面實況標籤適應目標域的演算法具有重要意義。在本文中，我們提出了一種在語義分割的背景下進行領域適應的對抗性學習方法。將語義分割視為包含源域和目標域之間空間相似性的結構化輸出，我們在輸出空間中採用對抗性學習。為了進一步增強自適應模型，我們構建了一個多層次的對抗網路，以有效地執行不同特徵級別的輸出空間域自適應。在各種領域適應設置下進行廣泛的實驗和消融研究，包括合成到實際和跨城市場景。我們表明，所提出的方法在準確性和視覺質量方面對最先進的方法表現出良好的效果

13. Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

摘要：

圖像標籤監督下的弱監督語義分割是一項具有挑戰性的任務，因為它直接將高級語義與低級別表現相關聯。為了彌合這一差距，在本文中，我們提出了一個迭代的自底而上和自上而下的框架，它可以選一種框架來擴展對象區域並優化分割網路。我們從分類網路產生的初始定位開始。雖然分類網路只響應小而粗略的判別對象區域，但我們認為，這些區域包含有關對象的重要共同特徵。因此，在自底而上的步驟中，我們從初始定位中挖掘常見對象特徵，並使用挖掘的特徵擴展對象區域。為了補充非歧視區域，然後在貝葉斯框架下考慮顯著性圖以細化對象區域。然後在自上而下的步驟中，精製對象區域用作監督以訓練分割網路並預測對象掩碼。這些對象掩碼提供更準確的定位並包含更多對象區域。此外，我們將這些對象掩碼作為初始定位並從中挖掘出常見的對象特徵。迭代地進行這些過程以逐步產生精細對象掩模並優化分割網路。 Pascal VOC 2012數據集的實驗結果表明，所提出的方法大大超過了以前最先進的方法。

14. Revisiting Dilated Convolution: A Simple Approach for Weakly- and SemiSupervised Semantic Segmentation

摘要：

儘管取得了顯著的進步，但弱監督的細分方法仍然不如完全受監督的對應方式。我們認為性能差距主要來自他們學習從圖像級監督產生高質量密集對象定點陣圖的限制。為了緩解這種差距，我們重新審視了擴張卷積[1]並揭示了如何以一種新穎的方式利用它來有效地克服弱監督分割方法的這一關鍵限制。具體而言，我們發現不同的膨脹率可以有效地擴大卷積核的感受域，更重要的是將周圍的判別信息轉移到非判別對象區域，促進這些區域在對象定點陣圖中的出現。然後，我們設計了一個通用的分類網路，配備了不同擴張率的卷積塊。它可以生成密集可靠的對象定點陣圖，並有效地受益於弱監督和半監督語義分割。儘管顯而易見，但我們提出的方法在優於狀態方面獲得了優越的性能。特別是，它在Pascal VOC 2012測試集中的微弱（僅圖像級別標籤可用）和半（（1,464個分割掩碼可用）監督設置達到60.8％和67.6％mIoU分數，這是新的現狀。

15. DenseASPP for Semantic Segmentation in Street Scenes

摘要：

語義圖像分割是自動駕駛中的基本街道場景理解任務，其中高解析度圖像中的每個像素被分類為一組語義標籤。與其他場景不同，自動駕駛場景中的物體表現出非常大的尺度變化，這對於必須正確編碼多尺度信息的意義上的高級特徵表示提出了巨大挑戰。為了解決這個問題，引入了一個atrous卷積[14]來生成具有更大感受野的特徵而不犧牲空間解析度。基於atrous卷積，Atrous空間金字塔池（ASPP）[2]被提出用於將使用不同擴張率的多個atrous卷積特徵連接成最終特徵表示。雖然ASPP能夠生成多尺度特徵，但我們認為尺度軸中的特徵解析度對於自動駕駛場景來說不夠密集。為此，我們提出了密集連接的Atrous空間金字塔池（DenseASPP），它以密集的方式連接一組atrous卷積層，這樣它就可以生成多尺度特徵，不僅覆蓋更大的範圍，而且還覆蓋了尺度範圍密集，不會顯著增加模型尺寸。我們在街景場景基準Cityscapes [4]上評估DenseASPP並實現最先進的性能。

16. Learning a Discriminative Feature Network for Semantic Segmentation

摘要：

大多數現有的語義分割方法仍然存在兩個方面的挑戰：類內不一致和類間不明確。為解決這兩個問題，我們提出了一種判別特徵網路（DFN），它包含兩個子網路：平滑網路和邊界網路。具體來說，為了處理類內不一致問題，我們專門設計了一個帶有通道注意塊的平滑網路和全局平均池，以選擇更具辨別力的特徵。此外，我們提出了一個邊界網路，使邊界的雙邊特徵與深度語義邊界監督可區分。基於我們提出的DFN，我們實現了最先進的性能，PASCAL VOC 2012的平均IOU為86.2％，Cityscapes數據集的平均IOU為80.3％。

17. Context Encoding for Semantic Segmentation

摘要：

最近的工作通過採用擴張/ Atrous卷積，利用多尺度特徵和精化邊界，在使用全卷積網路（FCN）框架改進像素標註的空間解析度方面取得了重大進展。在本文中，我們通過引入上下文編碼模塊來探索全局上下文信息在語義分割中的影響，上下文編碼模塊捕獲場景的語義上下文並選擇性地突出類依賴的特徵圖。所提出的上下文編碼模塊顯著改善了語義分段結果，僅比FCN略微增加了計算成本。我們的方法在PASCAL-Context上獲得了51.7％mIoU，在PASCAL VOC 2012上實現了85.9％mIoU。我們的單一模型在ADE20K測試集上達到了0.5567的最終得分，超過了COCO-Place的獲獎作品挑戰2017.此外，我們還探討了上下文編碼模塊如何改善CIFAR-10數據集上圖像分類的相對淺層網路的特徵表示。我們的14層網路實現了3.45％的錯誤率，這與具有超過10倍以上層的最先進方法相當。完整系統的源代碼是公開的。

18. Fully Convolutional Adaptation Networks for Semantic Segmentation?

摘要：

深度神經網路的最新進展令人信服地證明了在大型數據集上學習視覺模型的高能力。然而，收集專家標記的數據集尤其是像素級注釋是一個非常昂貴的過程。一個吸引人的選擇是渲染合成數據（例如，計算機遊戲）並自動生成基礎事實。然而，簡單地應用在合成圖像上學習的模型可能由於域移位而導致真實圖像上的高泛化誤差。在本文中，我們從視覺外觀級別和表示級域適應的角度來促進這個問題。前者使源域圖像看起來好像是從目標域中的「樣式」中繪製出來的，而後者則試圖學習域不變表示。具體來說，我們提出了完全卷積自適應網路（FCAN），這是一種用於語義分割的新型深層體系結構，它結合了外觀自適應網路（AAN）和表示自適應網路（RAN）。AAN在像素空間中學習從一個域到另一個域的變換，並且以對抗性學習方式優化RAN以最大限度地利用學習的源和目標表示來欺騙域鑒別器。從GTA5（遊戲視頻）到城市景觀（城市街景）的語義分割轉移進行了廣泛的實驗，我們的建議在與無人監督的適應技術進行比較時取得了優異的成果。更值得注意的是，我們獲得了一項新的記錄：在無監督的環境中，BDDS（drivecam視頻）的mIoU為47.5％。

19.On the Importance of Label Quality for Semantic Segmentation

摘要：

卷積網路(ConvNets)已成為語義圖像分割的主流方法。生成此任務所需的準確的像素級標籤是一個繁瑣且耗時的過程;但是，生成近似粗糙標籤只能在標籤質量和ConvNets的語義分割性能之間取得一小部分。我們創建了一個非常大的合成數據集，帶有完美標記的街景場景。從這些完美的標籤中，我們綜合粗化不同質量的標籤，並估算生產它們所需的人工小時數。我們通過訓練不同數量的ConvNets進行一系列實驗。訓練圖像和標籤質量。我們發現ConvNets的性能主要取決於創建訓練標籤所花費的時間。也就是說，較大的粗略注釋數據集可以產生與較小的精細注釋數據集相同的性能。此外，精細 - 使用少量精細注釋標籤對粗略預訓練的ConvNets進行調整可以產生相當或優越的性能，僅使用大量精細注釋標籤進行訓練，只需標註成本的一小部分。我們證明我們的結果也適用於不同的網路架構，以及城市場景中的各種對象類。