金字塔注意力網路：一種利用底層像素與高級特徵的語義分割網路

07-16

來自專欄機器之心59 人贊了文章

選自arXiv，機器之心編譯。

目前很多語義分割方法在細節方面做得都不好，近日北京理工、曠視科技、北京大學機器感知重點實驗室的研究者提出金字塔形注意力網路，它結合注意力機制和空間金字塔去提取精準的密集特徵而用於像素級標註任務，這種方法不再使用複雜化的擴張卷積和人工設計的解碼網路。

在卷積神經網路的近期發展中，根據其豐富的層級特徵和端到端的可訓練框架，像素級語義分割方面有了可觀的進步。但是在編程高維度代表的過程中，原本像素級的環境背景中的空間解析度會降低。如圖 1 顯示，FCN 基線無法在細節部分做出精準預測。第二排圖片中，在牛旁邊的羊被識別到錯誤分類之中；以及第一排圖片中自行車的把手沒有被識別成功。對此我們需要考慮兩個具有挑戰性的問題。

第一個問題在於不同比例的物體很難被分類到同一類別之中。要解決這個問題，PSPNet[33] 或者 DeepLab[2] 系統需要在不同的網格尺度或者擴張 ASPP 率（Atrous Spatial Pyramid Pooling）中執行空間金字塔池化。在 ASPP 模塊中，擴張卷積是一種可能會產生網格誤差的稀疏計算。此外，PSPNet 中的金字塔池化（pyramid pooling）模塊也可能會降低像素級的定位信息。根據 SENet[8] 和 Parsenet[18] 提供的靈感，我們嘗試為從 CNN 提取出的高級特徵抽取精準的像素級注意力。圖 1 中顯示的金字塔池化模塊可以增加感受野並更高效地分類細節。

圖 1：VOC 數據集的視覺化結果 [5]。如圖所示，FCN 基礎模型難以在細節部分做出準確預測。第一排圖片中自行車的把手沒有被識別成功，第二排圖片中在牛旁邊的羊被識別到了錯誤類別。本論文提出的特徵金字塔注意力（FPA）模塊和全局注意力上採樣（GAU）模塊設計用於提升感受野和高效地恢復像素定位細節。

另一個問題在於高級特徵更適用於做類別分類，但不適用於重建原始解析度的二元預測。一些 U 型網路如 SegNet、Refinene、Tiramisu 和 Large Kernel Matters，用複雜的解碼模塊去使用底層信息幫助高級特徵恢復圖片細節，然而這樣的過程需要花費大量時間。要解決這個問題，我們需要一個有效的解碼模塊，即全局注意力上採樣（GAU），它可以抽取高級特徵的全局上下文信息，並在不增加過多計算成本的同時引導加權底層特徵的信息。

總結來說，我們的論文有三大貢獻。首先，我們提出了特徵金字塔注意力模塊可在 FCN 基礎像素預測模型嵌入不同尺度的上下文特徵。之後，我們開發了一個高效解碼模塊 GAU 以幫助語義分割。最後，結合特徵金字塔注意力和全局注意力上採樣，我們的金字塔注意力網路架構可在 VOC 2012 和 cityscapes 基準上達到當前最優水平。

方法

在這一章中，作者首先會介紹特徵金字塔注意力模塊和全局注意力上採樣模塊，之後會描述完整的編碼器-解碼器網路架構，以及為語義分割任務所設計的金字塔注意力網路。

圖 2：金字塔注意力網路總覽。我們用 ResNet-101 來提取密集型特徵，然後用 FPA 和 GAU 來提取精準的像素級預測和定位細節。圖中藍色線和紅色線依次代表下採樣和上採樣的運算。

特徵金字塔注意力

啟發自注意力機制，我們考慮如何為從 CNN 提取出的高級特徵提供精準的像素級注意力。在目前的語義分割架構中，金字塔結構可以提取出不同尺寸的特徵信息並增加像素級的感受野，但是這樣的結構缺少全局上下文先驗注意力去選擇在 SENet 和 EncNet 中的對應通道的特徵。另一方面，使用對應通道注意力向量還不足以有效提取多個尺度的特徵且缺少像素級的信息。

圖 3：特徵金字塔注意力模塊結構。a）空間金字塔池化結構。b）特徵金字塔注意力模塊。4×4, 8×8, 16×16, 32×32 表示的是特徵圖的解析度。虛線框表示全局池化分支，藍色線和紅色線依次代表下採樣和上採樣的運算。

全局注意力上採樣

我們認為解碼模塊最主要的特性是去修復類別像素的定位。更多的，多類信息的高級特徵可以用於加權底層信息而選擇精準解析度細節。

圖 4：全局注意力的上採樣模塊結構。

實驗結果

表 1：特徵金字塔注意力的性能細節以及不同設置。『SE』表示用 SENet 注意力模塊去替換金字塔結構。對於特徵金字塔注意力模塊中的金字塔結構，『C333』表示所有卷積核尺寸是 3 × 3。如圖 3 所示，『C357』表示所有卷積核尺寸依次是 3 × 3、5 × 5 和 7 × 7。『MAX』和『AVE』表示最大池化和平均池化運算。『GP』表示全局池化分支。

表 6： PASCAL VOC 2012 測試集中每一個類別的推斷結果。PAN 勝過的目前最優水平並在沒有 COCO 數據集預訓練的情況下達到 84.0%。

論文：Pyramid Attention Network for Semantic Segmentation

論文地址：https://arxiv.org/pdf/1805.10180.pdf

金字塔注意力網路（PAN）致力於探索全局上下文信息對語義分割的作用。不同於大部分的工作，我們結合注意力機制和空間金字塔去提取精準的密集特徵而用於像素級標註任務，這種方法不再使用複雜化的擴張卷積和人工設計的解碼網路。具體地，我們引入特徵金字塔注意力模塊在高級輸出特徵上執行空間金字塔注意力，並結合全局池化學習一個更完善的特徵表示。此外，全局注意力上採樣模塊在每個解碼器層提供全局上下文信息，並指導底層特徵選擇類別的定位細節。這個方法在 PASCAL VOC 2012 數據集上達到當前最優水平的 IoU 精準度（84.0%），在 Cityscapes 基準也獲得當前最優水平的性能，它們都沒有在 COCO 數據集上進行預訓練。