深度反向投影網路（DBPN）--通過Back-Projection來超解析度的新方法

03-12

這篇論文是投在CVPR2018的。

[1803.02735] Deep Back-Projection Networks For Super-Resolution

Deep Back-Projection Networks For Super-Resolution

睡覺之前看到這篇論文，正好最近對超解析度很興趣，乾脆看完寫個筆記再睡覺，也是看到還沒有人寫過這篇論文的筆記，拋磚引玉。

之前的做圖像超解析度的深度學習方法都是先從低解析度的圖像中學習到圖像信息的表示，然後在通過非線性映射將這樣的表示映射到高解析度的圖像上去。DBPN的作者在論文中指出，之前的方法並沒有很好的完全使用到低解析度圖像和高解析度圖像之間共有的關係。DBPN通過借鑒傳統方法中的反向投影（Back Projection）方法，構造了迭代式升降採樣（Iterative up and downsampling）的方法，實現了超出以往的SOTA（State Of The Art）的表現。

深度學習在超解析度中的四種類型

1）Predefined upsampling：這種方法通常是先在網路之外將原始的LR（Low Resolution）的圖像通過插值法擴大到MR級別的圖像，再將MR圖像輸入網路。這種方法是深度學習方法在超解析度領域的開山之作SRCNN所採用的，SRCNN先將圖像插值擴大，在通過三個簡單的卷積層將其映射到HR圖像上。之後使用同樣方法的網路通常是通過殘差結構（VDSR、DRCN）或者遞歸結構（DRCN）來獲得更好的非線性映射的。然而，這種方法有一個問題，就是有可能在插值過程中向圖像中加入新的雜訊。

2）Single upsampling：FSRCNN和ESPCN都屬於這個類型，輸入他們的都是原始的LR圖像，通過非線性映射之後，在網路的最後再重組成為HR圖像（FSRCNN是反卷積，ESPCN是亞像素卷積層）。這種方法在實踐中非常的快，但是因為網路容量有限，這兩個網路都不能學習到太過複雜的映射。NTIRE2017的冠軍EDSR也是這樣的方法，但是因為其參數過多，需要過長的訓練時間，所以為後續實現更少參數的網路留下了空間。

3）Progressive upsampling：代表就是LapSRN，這種方法在一個前向傳播的網路中逐步的放大圖像的解析度，我們可以將其簡化成為是幾個stack在一起的升採樣網路，因為這種方法僅僅依賴於有限的低解析度信息，所以很輕易的就被深度較淺的DBPN打敗了。

4）Iterative up and downsampling：也就是這篇文章所提出的方法，作者關注在不同的深度提高SR的採樣率，並且將重建的損失分布到各個階段去，這種方法通過學習多個升降採樣運算元來使得網路能在生成更深的特徵的時候保留更多的HR信息。

Deep Back-Projection Networks

DBPN的最重要的Building Block就是Projection Units，也就是可以訓練的將LR特徵映射到HR特徵的up-projection和將HR特徵映射到LR的down-projection。

設 $I^h$ 和 $I^l$ 分別為HR和LR圖像，大小分別為 $(M imes{N})$ 和 $(M^{} imes{N^{}})$ ，Up-projection unit的定義如下：

down-projection的定義為：

projection unit的結構如下：

值得一提的是，在projection unit使用的卷積層中，卷積核大小是比較大的（8x8或12x12），在其他的網路中，過大的卷積核會導致參數增多，訓練變慢，但是在projection unit中，大卷積核有利於在更淺的網路中獲得更好的表現。

作者同時也受到了DenseNet的啟發，提出了D-DBPN，其中Dense projection unit的結構如下：

下圖是作者實現的D-DBPN的結構圖：

設 $conv(f,n)$ 為一個卷積核尺寸為 $f$ ，卷積核數量為 $n$ 的卷積層。

D-DBPN網路分為三個部分，Initial Feature Extraction：通過一個 $conv(3,n_0)$ 提取特徵，之後再用一個 $conv(1,n_R)$ 的卷積層來將特徵降維到 $n_R$ ，Back-Projection Stages：這是一個稠密連接的一連串的反向投影的層，每一個層的輸出又在最後被concat到一起，進入最後的Reconstruction：使用一個 $conv(3,3)$ 來生成HR大小的圖像。

在實驗中發現，DBPN在8x的放大倍率上效果比其他的網路結構都要好，雖然在2x和4x上的PSNR值沒有EDSR高，但是生成的HR圖像其實要比EDSR更為平滑，更接近ground truth，如下圖：

關於實驗中參數的設置，早上起來再補上。。