ExFuse: Enhancing Feature Fusion for Semantic Segmentation

ExFuse: Enhancing Feature Fusion for Semantic Segmentation

來自專欄 新知

[arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

筆記同步發表於CSDN博客

Zhenli Zhang, Xiangyu Zhang, Chao Peng, Dazhi Cheng, Jian Sun

from Fudan, Face++ and BIT

paper link

Motivation

這篇文章著重研究語義分割網路中高低層特徵融合的效率問題。在很多工作中,融合不同尺度的特徵是提高分割性能的一個重要手段。低層特徵解析度更高,包含更多位置、細節信息,但是由於經過的卷積更少,其語義性更低,雜訊更多。高層特徵具有更強的語義信息,但是解析度很低,對細節的感知能力較差。如何將兩者高效融合,取其長處,棄之糟泊,是改善分割模型的關鍵。

這篇文章從兩個大的方向上提出了改善思路,即1.增加低層特徵的語義和2.在高層特徵中增加更多空間信息。其中包括5個改善的細節,在下面一一介紹。

Method

這篇文章是基於GCN網路[1]進行改進的。新提出的結構直接在GCN上進行添加。 作者首先認為GCN的高低層特徵融合效率比較低。為了證明這點,作者在VOC 2012的驗證集上,使用不同的網路主幹逐層融合不同尺度的特徵,觀察其性能變化,如下圖所示。可見融合第三級(res4)特徵對性能提升最大,而更底層的特徵則對性能幾乎沒有影響。因此需要提出一些更高效的方法。

本文工作的結構圖如下圖所示,其中虛線標出的SS, SEB, ECRE和DAP是本文提出的。

Direction 1: Introducing More Semantic Information into Low-level Features

這篇文章中,作者為了增加低層特徵的語義信息做了三點改進:

  1. 網路結構重排(layer rearrengement),構建更適合於分割的預訓練模型;
  2. 深度語義監督(semantic supervision);
  3. 語義嵌入支路(semantic embedding branch),將高層特徵融入低層特徵。

Layer rearrangement

ResNeXt網路結構中,各級的網路包含的殘差單元個數為{3,4,23,3}。為了提高底層特徵的語義性,一個想法便是讓低層的兩級網路擁有的層數更多。因此作者將殘差單元個數重排為{8,8,9,8},並重新在ImageNet上預訓練模型。重排後網路的分類性能沒有明顯變化,但是分割模型可以提高約0.8個點(mean intersection over union)的性能。

Semantic Supervision (SS)

深度語義監督其實在其他的一些工作里(如GoogLeNet,邊緣檢測的HED等等)已經使用到了。這裡的使用方法基本上沒有太大變化,能夠帶來大約1個點的提升。

參見結構圖。

Semantic Embedding Branch (SEB)

語義嵌入支路的結構如下圖所示:

其做法是將高層特徵上採樣後,與低層特徵逐像素相乘,用在GCN之前。該部分能帶來大約0.7個點的提升。

Direction 2: Embedding More Spatial Resolution into High-level Features

高層特徵空間信息的損失只要是由於其自身的低解析度(尺寸小)。這篇文章嘗試將更多的空間特徵融入到通道(channel)中去,包括:

  1. 通道解析度嵌入(explicit channel resolution embedding);
  2. 稠密鄰域預測(densely adjacent prediction)。

Explicit Channel Resolution Embedding (ECRE)

其思路是在上採樣支路中使用[2,3,4]工作中都使用到的子像素上採樣模塊(sub-pixel upsample)。作者的出發點並不是前人工作中強調的如速度快、消除反卷積的棋盤效應等等,而是通過這個結構能夠讓和空間信息相關的監督信息回傳到各個通道中,從而讓不同通道包含不同空間信息。該模塊和原有的反卷積一起使用才能顯示出更好的性能。同單獨使用反卷積相比,性能可以提高約0.6個點。

Densely Adjacent Prediction (DAP)

DAP模塊只使用在輸出預測結果的時候。其想法也是通過擴展通道數來增加空間信息。舉一個例子來描述其功能,假設DAP的作用區域為3x3,輸出結果的通道數為21,則擴展後的輸出通道數為21x3x3。每3x3個通道融合成一個通道。如在最終結果中,第5通道(共21通道)的(12,13)坐標上的像素,是通過DAP之前的第5+0通道(11,12)、5+1通道的(11,13)、5+2通道的(11,14)、5+3通道的(12,12)、5+4通道的(12,13)、5+5通道的(12,14)…平均得到的。DAP能帶來約0.6個點的提升。

Experiment

這篇文章的另一貢獻是在VOC 2012的測試集上取得了目前最好的性能。有關網路訓練的詳細步驟可以參見文章的實驗部分內容。

Reference

[1] Peng, C., Zhang, X., Yu, G., Luo, G., Sun, J.: Large kernel matters - improve

semantic segmentation by global convolutional network. (2017)

[2] Shi, W., Caballero, J., Huszar, F., Totz, J., Aitken, A.P., Bishop, R., Rueckert, D., Wang, Z.: Real-time single image and video super-resolution using an effcient sub-pixel convolutional neural network. (2016) 1874-1883

[3] Aitken, A., Ledig, C., Theis, L., Caballero, J., Wang, Z., Shi, W.: Checkerboard artifact free sub-pixel convolution: A note on sub-pixel convolution, resize convolution

and convolution resize. (2017)

[4] Wang, P., Chen, P., Yuan, Y., Liu, D., Huang, Z., Hou, X., Cottrell, G.: Understanding convolution for semantic segmentation. (2017)


推薦閱讀:

TAG:計算機視覺 | 深度學習DeepLearning | 圖像分割 |