如何在語義分割中使用弱監督方法

07-18

如何在語義分割中使用弱監督方法

來自專欄關於語義分割的分享8 人贊了文章

最近剛參加完valse2018，感覺收穫非常大（閉門造車是不行的），未來的方嚮應該不再是需要精細的標籤，通過粗糙的標籤同樣也能訓練出來好的模型，今天就分享一篇魏雲超的論文，推薦去看他的研究經歷，鏈接在此：程程：讓機器「一葉知秋」：弱監督視覺語義分割|VALSE2018之九。

------------------------------------------我是分割線------------------------------------------

[論文創新點]

主要是使用dilation擴張感受野，這個在deeplabv3中有過介紹，不同的dilation擁有不同的感受野。原來作者是通過擦除一部分已經定位到的區域，不斷找到次貢獻較大的區域，也就是說明目前的感受野無法得到整個目標的定位，然而通過不同大小的dilation可以解決這個問題。

論文分析了擴張卷積的作用，揭示它適合對密集定位目標區域的需求，以建立一個良好的弱監督分割模型，這是弱/半監督圖像語義分割的新方法。
論文提出了一種簡單而有效的方法，利用擴張卷積通過特徵之間的差異信息來密集地定位對象。
論文提出的方法適用於弱監督和半監督方式來學習語義分割網路。它們在Pascal VOC測試集上獲得了60.8％和67.6％的mIoU。

[論文實現方法]

文章主要介紹了擴張卷積可以提升卷積核的感受野，可定位到更加完整的目標區域，放張圖感受一下：

而且不同比例的dilation可以適應不同大小的目標區域定位，對於小目標來說，小比例的dilation就可以找到整個目標區域，而大目標則趨向更大比例的dilation（類似金字塔架構），還是看圖：

因此作者認為用多個比例的dilation融合可以做到比較好的目標定位效果，但在比例的選取上，作者發現過大比例的dilation會引入背景雜訊，因此作者通過實驗，覺得d=3,6,9時的定位效果會比較好。儘管已經使用了較小比例的dilation，但是依舊會引入背景，於是作者提出了一種簡單的抗雜訊融合策略來抑制與對象無關的區域，並將生成的局部圖融合成一個完整的區域。

具體方法如下：

目標相關區域通常可以通過兩個或更多個定點陣圖區分開來，而背景區域在不同的擴張情況下顯示出多樣性。
為了去除背景區域，對用不同dilation（d = 3; 6; 9）生成的定點陣圖求平均。然後，將得到的平均圖添加到普通卷積得到的定點陣圖從而生成最終的定點陣圖。

用公式解釋比較快一點，假設 $H_{0}$ 是普通卷積得到的定點陣圖， $H_{i}$ (i=1,2,..., $n_{d}$ 且 $n_{d}$ 是dilation卷積個數) ,最終的定點陣圖H為：

基於得到的最終定點陣圖H，當像素值大於預定閾值則被視為前景，即對象相關區域。

正題來了：對於弱監督的應用，如上圖所示，作者根據圖像級別的標籤得到confidence maps，並在線計算得出segmentation mask，與從密集定點陣圖中導出的segmentation mask一起作用，監督語義分割模型的訓練。

【實驗】

關於弱監督語義分割，其中一個segmentation mask叫做online predicted segmentation mask，開始我也沒搞懂，問了原作者，作者說是只有image-label對應的confidence map被用來infer mask，我猜測應該是對應的label的mask（比如說dog）和背景mask通過argmax推測得到的掩碼。
還有一個是在會上聽作者說的，就是在不同類別的交集區域，可以設置為不學習的label(255)，這樣可以提升分割精度，我認為說的很對，在Cityscapes的coarse annotation中就是這麼給的，看下圖：

Coarse Annotation in Cityscapes DataSet

論文鏈接：Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation