CVPR 2018 | 商湯科技論文詳解：基於空間特徵調製的圖像超解析度

08-11

來自專欄 CVPR論文解讀24 人贊了文章

在底層視覺演算法領域，商湯科技提出的面向生成更自然真實紋理圖像的超解析度演算法。本文為商湯科技CVPR 2018論文解讀第3期。
論文：Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform
作者：Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

論文鏈接：

https://arxiv.org/abs/1804.02815
Project page:
http://mmlab.ie.cuhk.edu.hk/projects/SFTGAN/

簡介

單幀圖像超解析度旨在基於單張低解析度圖像恢復對應的高解析度圖像。卷積神經網路近年在圖像超解析度任務中表現出了優異的重建效果，但是恢復出自然而真實的紋理依然是超解析度任務中的一大挑戰。

如何恢復出自然而真實的紋理呢？一個有效的方式是考慮語義類別先驗，即使用圖像中不同區域所屬的語義類別作為圖像超解析度的先驗條件，比如天空、草地、水、建築、森林、山、植物等。不同類別下的紋理擁有各自獨特的特性，換句話說，語義類別能夠更好的約束超分辨中同一低解析度圖存在多個可能解的情況。如圖1中展示的建築和植物的例子，它們的低解析度圖像塊非常類似。雖然結合生成對抗式網路（GAN）進行超分復原，若未考慮圖像區域的類別先驗信息，獲得的結果雖然增加了紋理細節，但是並不符合圖像區域本身應該具有的紋理特點。

圖1：不同的語義先驗對建築和植物區域圖像超解析度的影響

在結合語義類別先驗的過程中會遇到兩個問題。第一個問題是，如何表達語義類別先驗，特別是當一個圖像中存在多種語義類別時。本文選擇了語義分割概率圖作為先驗條件，其能提供像素級的圖像區域信息，每個像素點的概率向量能夠更精細地調控紋理結果。第二個問題是，如何有效地將語義先驗結合到網路中去。本文提出了一種新的空間特徵調製層（SFT），它能將額外的圖像先驗（比如語義分割概率圖）有效地結合到網路中去，恢復出與所屬語義類別特徵一致的紋理。

最終結果顯示（如圖2所示）和現有的SRGAN模型以及EnhanceNet模型相比，使用空間特徵調製層的超解析度網路能夠生成更加自然的紋理，恢復出的高解析度圖像視覺效果更為真實。

圖2：在4倍超解析度下，SRCNN、SRGAN、EnhanceNet和本文提出SFT-GAN演算法最終結果的比較

空間特徵調製

本文提出的空間特徵調製層受到條件BN層的啟發，但是條件BN層以及其他的特徵調製層（比如FiLM），往往忽略了網路提取特徵的空間信息，即對於同一個特徵圖的不同位置，調製的參數保持一致。但是超解析度等底層視覺任務往往需要考慮更多的圖像空間信息，並在不同的位置進行不同的處理。基於這個觀點，本文提出了空間特徵調製層，其結構如圖3所示。

圖3：空間特徵調製層的結構

空間特徵調製層對網路的中間特徵進行仿射變換，變換的參數由額外的先驗條件（如本文中考慮的語義分割概率圖）經過若干層神經網路變換得到。若以F表示網路的特徵，γ 和 β 分別表示得到的仿射變換的尺度和平移參數，那麼經過空間特徵調製層得到的輸出特徵為：

空間特徵調製層可以方便地被集成至現有的超解析度網路，如SRResNet等。圖4是本文中使用的網路結構。為了提升演算法效率，先將語義分割概率圖經過一個Condition Network得到共享的中間條件，然後把這些條件「廣播」至所有的SFT層。本文演算法模型在網路的訓練中，同時使用了perceptual loss和adversarial loss，被簡稱為SFT-GAN。

圖4：網路框架示意圖

實驗結果

語義分割結果

如圖5所示，當前基於深度學習的語義分割網路在低解析度數據集上進行fine-tune後，對於大多數場景能夠生成較為滿意的分割效果。

圖5：語義分割結果

SFT-GAN和其他模型的結果比較

圖6展示了SFT-GAN模型和其他模型結果的比較，可以看到基於GAN的演算法模型SRGAN、EnhanceNet以及本文的SFT-GAN在視覺效果上超過了以優化PSNR為目標的模型。SFT-GAN在紋理的恢復上能夠生成比SRGAN和EnhanceNet更自然真實的結果（圖中的動物毛髮、建築物的磚塊、以及水的波紋）。

圖6：本文SFT-GAN模型和現有超解析度模型的結果對比

在進行的人類用戶評價中，SFT-GAN模型在各個語義類別上也比之前的基於GAN的方法有著顯著的提升（如圖7所示）。

圖7：人類用戶評價不同演算法效果

其他實驗探究

本文還可視化了語義分割概率圖和特徵調製層參數的關係。圖8中展示了建築和草地類別的概率圖以及網路中某一層的調製參數的聯繫。可以看到，調製參數和語義分割概率圖有著緊密的聯繫，同時在調製參數中不同類別的界限依舊比較清晰。

圖8：語義分割概率圖和特徵調製層參數的聯繫

實際場景中，物體類別的分隔界限通常並不十分明顯，比如圖9中的植物和草的區域，它們之間的過渡是「無縫」且連續的，而本文中使用的語義分割概率圖以及調製層的參數也是連續變化的。因此，SFT-GAN可以更為精細地調製紋理的生成。

圖9：SFT層能夠更為精細地調製參數

本文還比較了其他結合先驗條件的方式：

將圖像和得到的語義分割概率圖級聯起來共同輸入；
通過不同的分支處理不同的場景類別，然後利用語義分割概率圖融合起來；
不考慮空間關係的特徵調製方法FiLM。

從圖10中可以看到：

方法1）的結果沒有SFT層有效（SFT-GAN模型中有多個SFT層能將先驗條件更為緊密地結合）；

方法2）的效率不夠高（SFT-GAN只需要進行一次前向運算）；

方法3）由於沒有空間位置的關係，導致不同類別之間的紋理相互干擾。

圖10：不同先驗條件結合方式的結果比較

結論

本文深入探討了如何使用語義分割概率圖作為語義先驗來約束超解析度的解空間，使生成的圖像紋理更符合真實而自然的紋理特性。還提出了一種新穎的空間特徵調製層（SFT）來有效地將先驗條件結合到現有網路中。空間特徵調製層可以和現有的超解析度網路使用同樣的損失函數，端到端地進行訓練。測試時，整個網路可以接受任意大小尺寸的圖像作為輸入，只需要一次前向傳播，就能夠輸出結合語義類別先驗的高解析度圖像。實驗結果顯示，相較於現有超解析度演算法，本文SFT-GAN模型生成的圖像具有更加真實自然的紋理。

參考文獻

SRGAN: C.Ledig, L.Theis, F.Husz′ar, J.Caballero, A.Cunningham, A.Acosta, A.Aitken, A.Tejani, J.Totz, Z.Wang, et al.Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017.
EnhanceNet: M.S.Sajjadi, B.Scholkopf, and M.Hirsch. EnhanceNet: Single image super-resolution through automated texture synthesis. In ICCV, 2017
FilM: E.Perez, F.Strub, http://H.de Vries, V.Dumoulin, and A.Courville. FiLM: Visual reasoning with a general conditioning layer. In AAAI 2018.