ICCV2015語義分割相關論文摘要及框架

ICCV2015語義分割相關論文摘要及框架

來自專欄語義分割的學習

寫在前面:除了CVPR會議外,計算機視覺相關頂級會議還有ICCV,以及ECCV,這篇是關於ICCV2015年的語義分割相關論文。下面的第三篇是用語義分割方法來進行目標檢測的,能發表在這個級別的會議,說明結果還是不錯的,這也給我們一個新的思路,用目標檢測或者是其他相關的任務的方法來處理語義分割。我還是將ICCV2015論文的地址放在下面,如果只放這幾篇論文的地址話,不利於大家去這麼好的頂級會議上發現新的「寶藏」。

另外,由於自己水平有限,所以應該還是有一些問題。歡迎大家在下面留言,批評指正。如果大家有什麼好的思路或想法,也可以在下方交流討論。茫茫人海能在我這篇文章相遇,相信也是有共同志向的人。

ICCV2015論文地址:openaccess.thecvf.com/I

1. BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation

摘要:

最近領先的語義分割方法依賴於使用人類注釋的像素級分割掩模訓練的深度卷積網路。這種像素精確的監督需要昂貴的標籤工作並且限制通常受益於更多訓練數據的深度網路的性能。在本文中,我們提出了一種方法,該方法可以實現競爭準確性,但只需要很容易獲得邊界框注釋。基本思想是在自動生成區域提議和訓練卷積網路之間進行迭代。這兩個步驟逐漸恢復分割掩碼以改善網路,反之亦然。我們的方法稱為「BoxSup」,僅由框監督產生的競賽結果(例如,62.0%mAP用於驗證),與在相同設置下由掩模完全監督的強基線(例如,63.8%mAP)相同。通過利用大量的邊界框,BoxSup進一步在PASCAL VOC 2012和PASCAL-CONTEXT [26]上產生了最先進的結果。

2. Semantic Segmentation of RGBD Images with Mutex Constraints

摘要:

在本文中,我們解決了室內場景的RGB-D圖像的語義場景分割問題。我們提出了一種新穎的圖像區域標記方法,該方法通過硬互斥(互斥)約束來增強CRF公式。這樣,我們的方法可以以規則的方式利用來自Kinect的豐富而精確的3D幾何結構。最終的標記結果必須滿足所有互斥約束條件,這樣我們就可以消除那些違反物理定律常識的配置,例如將一個地板放在一個床頭柜上方。提出了三類互斥約束:全局對象共現約束,相對高度關係約束和局部支持關係約束。我們評估了我們在NYU-Depth V2數據集上的方法,該數據集由1449個雜亂的室內場景組成,並且還測試了我們在NYU-Depth V2數據集上直接在最近的SUN3D數據集上訓練的模型的推廣,而沒有任何新的訓練。實驗結果表明,我們在兩個數據集的場景標記方面都明顯優於最先進的方法。

3. Object detection via a multi-region & semantic segmentation-aware CNN model(目標檢測)

摘要:

我們提出了一種目標檢測系統,該系統依賴於多區域深度卷積神經網路(CNN),該網路還編碼語義分割感知特徵。所得到的基於CNN的表示旨在捕獲各種各樣的辨別外觀因子,並展示對於精確對象定位而言必不可少的定位靈敏度。 我們通過將其集成在迭代定位機制上來利用我們的識別模塊的上述屬性,該機制在對邊框域進行評分並使用深度CNN回歸模型來改進其位置之間交替。由於我們模塊的有效使用,我們檢測到具有非常高的定位精度的對象。 在PASCAL VOC2007和PASCAL VOC2012的檢測挑戰中,我們的mAP分別達到78.2%和73.9%,超過任何其他已發表的工作。

4. Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing

摘要:

我們引入了Segment-Phrase Table(SPT),這是一組文本短語與其相應分割之間的雙射關聯。利用最近在對象識別和自然語言語義方面取得的進展,我們展示了如何使用最少的人工監督成功構建高質量的段短語表。更重要的是,我們證明了這種豐富的雙模型資源對於視覺以及自然語言理解釋放的獨特價值。首先,我們展示了細粒度的文本標籤有助於上下文推理,有助於滿足跨圖像段的語義約束。此功能使我們能夠在基準數據集上實現最先進的分割結果。接下來,我們展示了高質量分割與文本短語的關聯有助於對這些文本短語進行更豐富的語義理解和推理。利用此功能,我們可以激發視覺蘊涵和視覺釋義的問題,並展示其在大型數據集上的實用性。

5. Semantic Image Segmentation via Deep Parsing Network

摘要:

本文通過將豐富的信息結合到馬爾可夫隨機場(MRF)中來解決語義圖像分割問題,包括高階關係和標籤上下文的混合。與先前使用迭代演算法優化MRF的工作不同,我們通過提出卷積神經網路(CNN),即深度解析網路(DPN)來解決MRF,其在單個正向通道中實現確定性的端到端計算。具體而言,DPN擴展了當代CNN架構以模擬一元術語,並且仔細設計了附加層以近似成對術語的平均場演算法(MF)。它有幾個吸引人的特性。首先,與最近組合CNN和MRF的工作不同,其中在反向傳播期間每個訓練圖像需要多次MF迭代,DPN能夠通過近似MF的一次迭代來實現高性能。其次,DPN代表了各種類型的成對術語,使許多現有作品成為其特殊情況。第三,DPN使MF更容易在圖形處理單元(GPU)中並行化和加速。DPN在PASCAL VOC 2012數據集上進行了全面評估,其中單個DPN模型產生了新的最先進的分割準確率為77.5%。

6. Learning Deconvolution Network for Semantic Segmentation

摘要:

我們通過學習深度去卷積網路提出了一種新穎的語義分割演算法。我們在VGG 16層網路採用的卷積層之上學習網路。解卷積網路由解卷積和反池化層組成,它們識別像素類標籤並預測分割掩碼。我們將訓練好的網路應用於輸入圖像中的每個提案,並通過以簡單的方式組合來自所有提議的結果來構建最終的語義分割圖。所提出的演算法通過集成深度去卷積網路和提議方式預測,減輕了基於完全卷積網路的現有方法的局限性;我們的分割方法通常會識別詳細的結構並自然地處理多個尺度的對象。我們的網路在PASCAL VOC 2012數據集中表現出色,並且我們通過完全卷積網路的集合在不使用Microsoft COCO數據集的情況下獲得了最佳準確度(72.5%)。

7. Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

摘要:

最近在具有強像素級注釋的大量圖像上訓練的深度卷積神經網路(DCNN)顯著地推動了語義圖像分割中的現有技術。 我們研究了學習DCNN用於語義圖像分割的更具挑戰性的問題:(1)弱注釋的訓練數據,例如邊界框或圖像級標籤,或者(2)少數強標記和許多弱標記圖像的組合,源自一個 或多個數據集。 我們開發了期望最大化(EM)方法,用於在這些弱監督和半監督設置下進行語義圖像分割模型訓練。廣泛的實驗評估表明,所提出的技術可以學習模型,在具有挑戰性的PASCAL VOC 2012圖像分割基準測試中提供有競爭力的結果,同時顯著減少注釋工作量的需求。我們通過https://bitbucket.org/deeplab/d共享論文系統實現的源代碼。

8. Weakly supervised graph based semantic segmentation by learning communities of image-parts

摘要:

我們提出了一種弱監督的語義分割方法。目標是只給定部分信息的圖像指定像素級標籤,例如圖像級標籤的圖像。這在許多應用場景中是一個重要問題,在這些場景中難以獲得準確的分割或者不可能獲得詳細的注釋。所提出的方法從初始粗分割開始,然後是將相關圖像部分分組到群體中的譜聚類方法。然後構建群體驅動的圖,捕獲群體之間的空間和特徵關係,而標籤圖捕獲圖像標籤之間的相關性。最後,將圖像級別標籤映射到適當的群體公式化為凸優化問題。所提出的方法不需要圖像級標籤的位置信息,並且可以使用部分標記的數據集來訓練。與最先進的弱監督方法相比,我們在MSRC-21數據集上實現了9%的顯著性能提升,在LabelMe數據集上實現了11%的顯著性能提升,同時速度提高了300多倍。

9. Semantic Segmentation With Object Clique Potentials

摘要:

我們提出了語義分割的對象集團勢能。 我們的對象集團勢能解決了基於完全卷積網路的解決方案中出現的錯誤分類的對象問題。 與基於分割建議的方法產生的對象集合相比,我們的對象集合具有明顯更小的尺寸,使得我們的方法消耗的計算量顯著減少。關於系統設計和模型形成,我們的對象集團勢能可以被視為基於定位表現的CRF模型的功能補充,並與這些有效方法協同工作以進一步提高性能。大量實驗驗證了我們的方法。

10. Multiresolution hierarchy co-clustering for semantic segmentation in sequences with small variations

摘要:

本文提出了一種協同聚類技術,給定一組圖像及其層次結構,從這些層次結構中聚類節點,以獲得圖像集合的連貫多解析度表示。 我們將共聚類形式化為二次半分配問題,並使用線性編程鬆弛方法來解決它,從而有效地利用來自層次結構的信息。最初,我們解決了為每個圖像生成最佳,一致的分區的問題,然後,我們將此方法擴展到多解析度框架。 最後,我們將該框架特定為具有小變化的序列中的迭代多解析度視頻分割演算法。我們在視頻遮擋/對象邊界檢測數據集上評估演算法,表明它在這些場景中產生了最先進的結果。


推薦閱讀:

TAG:深度學習DeepLearning | 計算機視覺 | 圖像分割 |