NTIRE 2018 超解析度 CVPR Workshop

NTIRE 2018 超解析度 CVPR Workshop

來自專欄計算機視覺論文速遞57 人贊了文章

大牛分享 | NTIRE 2018 圖像超解析度 CVPR Workshop優勝方案

原創:王超鋒

來源:CVer 微信公眾號

NTIRE 2018 圖像超解析度 CVPR Workshop優勝方案

很榮幸邀請了王超鋒同學為大家做關於《NTIRE 2018 圖像超解析度 CVPR Workshop優勝方案》專題分享。

王超鋒同學,研究生階段主要研究圖像超解析度(Image Super Resolution)方向,他是Amusi 眼中的深度學習大佬。向他邀文了很久,大佬終於答應寫一篇專題分享,再次感謝。

話不多說,下面介紹專題正文:

專題正文

今年的CVPR已經在美國鹽湖城結束。這裡主要想借著CPVR聊一下目前low level領域上的一些進展,本人研究生時,做過一些超解析度上不算太深入的研究。目前工作了,實踐的少了,但依然有關注這個方向。這幾天整理關注了下NTIRE 圖像復原(Image Restoration)挑戰賽上超解析度賽道上一些優勝隊伍的方法。在這裡跟大家分享下,如有錯誤的地方,還請指正,學習為主。

今年是NTIRE挑戰賽舉辦的第二年(以下都稱為NTIRE2018),主要有圖像超解析度(super-resolution)、圖像去霧(dehazing)、光譜重建(spectral reconstruction)三個方向。網站如下: vision.ee.ethz.ch/ntire。超解析度上有四個賽道,其中一個為使用經典的bicubic降尺度方式作為待重建圖像,進行8倍放大重建。這也是目前大部分文獻中最常見的設置方式之一。而其餘三個賽道均是來自不同程度(Mild、Difficult、Wild)未知退化運算元模擬相機採集的待重建圖像,進行4倍放大重建。

暫時拋開比賽,聊一點近幾年基於深度學習的超解析度重建的背景。從我自己了解的論文來看,目前基於深度學習(主要還是CNN)最為經典的論文應該是SRCNN[1]、FSRCNN[2]、ESPCN[3]、VDSR[4]、EDSR[5]、SRGAN[6]這幾篇論文。

SRCNN是最早用CNN來進行超解析度重建的論文(Kaiming He也參與其中),FSRCNN是SRCNN作者的改進,主要貢獻在於直接原圖像進行端對端的重建,在速度上也非常快,如圖1。

圖1. SRCNN和FSRCNN

如圖2,ESPCN主要提出了subpixel convolution的方法,這種方式在之後很多方法的上採樣重建中都有被使用(NTIRE2017的超解析度冠軍EDSR也採用了該方法)。如圖3,VDSR則是第一個將全局殘差引入SR的方法,使得訓練速度明顯加快,在PSNR以及SSIM評價指標上有了很大的提升。VDSR之後大部分方法都採用了這種方式。當然還有很多很優秀的網路例如RED、DRRN、MemNet、LapSR這裡不在過多介紹。有興趣的朋友可以深入了解下。

圖2. ESPCN

圖3. VDSR

EDSR是首屆NTIRE2017的超解析度冠軍,其主要使用了增強的ResNet,移除了batchnorm,使用了L1 loss訓練。如圖4。

圖4. EDSR

而SRGAN則是第一篇(我的認知里是第一篇,有待查證,同時期Li FeiFei組[7]也有類似的一篇做style transfer的論文中做了SR)將GAN引入SR重建的,如圖5,此外SRGAN與其他上述方法,不同的是重建得到的圖像雖然比上述方法都要清晰,但在PSNR和SSIM上都要比上述方法甚至是bicubic上採用得到都要低很多。主要原因SRGAN使用了style transfer里用到的感知損失(當然也用非GAN方法使用感知損失的,例如EnhanceNet[8]),而感知損失重建的圖像在人類的認知視覺上更舒服,但細節恢復上確實會和原圖相差很多。論文中的圖片上我們就可以找找茬。

圖5. SRGAN

圖6. 4倍放大SRGAN-HR和ground truth,細節部分被修改,整體視覺感受較好

所以在我的理解里,即便是超解析度重建,依然可以將其分為兩個方向。第一個方向力求恢復出真實可靠的細節部分,應用場景例如醫學影像上的超解析度重建,低解析度攝像頭人臉或者外形的恢復等對細節要求苛刻的場景。另一個則追求整體視覺效果,細節部位要求不高。例如低解析度視頻電視的恢復、相機模糊圖像的恢復等。

簡單介紹了背景,回到NTIRE2018這個比賽,這次比賽使用的數據集為DIV2K數據集[9],一共包含1000張2K解析度的RGB圖像,其中800張為訓練集,100張為驗證集,100張為測試集。評價標準使用了PSNR、SSIM。這就意味著這個場景下使用感知損失重建並不會是個很好的選擇。大部分隊伍以強化網路特徵學習或者添加模糊運算元先驗為主。以下我將對一些有意思的方法進行簡單的闡述,若有錯誤請指正。

經典的bicubic 8倍放大賽道上,Toyota-TI 提出的deep back-projection networks(DBPN)[10]獲得了第一名,如圖。DBPN本身已經被CVPR2018收錄,NTIRE2018上也證明其在bicubic經典方式上效果的顯著性。DBPN主要思想認為以往的CNN方法中,從LR到SR是一個完全上採用的過程,這過程中沒有完全處理好LR到SR的與HR之間的差異。在高倍放大下更為顯著。所以DBPN提供了一個up-down的映射單元,希望通過迭代上下交替採樣的糾正反饋機制,恢復更好的細節特徵。論文中的結果以及本次NTIRE2018的結果可以看出DBPN在高倍放大下比LapSR、EDSR擁有更好的效果。

圖7. DBPN

來自杜克大學的Pixel Overflow 以及Duke Data Science團隊,在bicubic 8倍以及Mild、Difficult 4倍放大賽道分別獲得了第二名、第七名、第七名的成績。由於兩個團隊最後的論文是一篇,所以這裡放在一起簡單做個介紹。

團隊在SR重建上,定位在兩個優化問題,第一,個人理解上應該是與DBPN類似,如何在大尺寸放大獲得更好的細節收益。第二問題則針對Mild、Difficult現實LR圖像中存在的雜訊,如何在放大圖像的同時不放大雜訊,減弱雜訊對重建的影響。

針對第一個問題,在bicubic上Pixel Overflow使用了EDSR模型,並使用了許多技巧例如RGB Layer Shuffle 、Per-Image Mean、Shift Residual Scaling Factor等.(NTIRE2018報告中介紹該團隊使用了sobel濾波器提取SR和ground truth特徵以強調邊緣和細節的損失,但團隊報告中似乎說明了這一方法並未有效)。

針對第二個問題,團隊使用在EDSR前增加了一個去噪網路,兩者通過將去除輸出層的去噪網路與去除輸入層的EDSR串接實現端對端的模型訓練。如圖8,實驗表明去除頭尾的方式比直接串聯兩個網路的方式效果更好。

圖8. DNISR為原始串接網路,DNSR為去尾去頭的網路

經典bicubic的第三名rainbow團隊借鑒了EDSR以及SRDenseNet的結構,結合金字塔逐步重建的方式,在增強特徵的同時,使用DenseNet重複利用特徵的特點取得了不錯的效果。如圖9。

個人理解上DenseNet的重複利用特徵的方式在SR上是個非常有用的方式,因為高頻信息在淺層上會更豐富,將淺層信息直接輸送到後面網路會更有利於邊緣細節部分的重建。這一點可以參考ICCV2017上的MemNet[11]。

圖9. rainbow團隊網路結構

CVPR2017的LapSR[12],使用了金字塔網路逐步重建方式,在高倍重建中擁有快速且較優的效果。前面的rainbow團隊以及同賽道的第四名DRZ團隊同樣使用了類似的結構,提出了非對稱的金字塔逐步重建網路ProSR,如圖10。同時,DRZ和rainbow團隊一樣也使用了類似Dense block的結構單元。

在ProSR的論文中有詳細闡述他們的方案,同時他們也基於該網路結合GAN提出了ProGANSR,當然也有結合感知損失,在感知層面上取得非常優秀的效果。

圖10. ProSR

UIUC-IFP 團隊的同樣基於EDSR進行改進,提出了WDSR,如圖11。其主要做了如下三點改進。第一,改進了殘差快,具體做法正好和ResNet的bottleneck方式相反,bottleneck在塊內減少feature map數量,輸出時恢復到與輸入時一致。WDSR則是在塊內增加feature map數量,輸出是減少到與輸入一致。

第二點EDSR中移除了batchnorm, 而WDSR則增加了weightsnorm,雖然不會帶來性能上的收益,但能使用更大的學習率加快訓練。

第三點,出於速度上的考慮,WDSR移除了EDSR尾部冗餘的一些卷積。而在現實圖片的三個賽道上,由於LR和HR之間存在偏移的情況。該團隊,使用了預校準來減輕LR和HR之間的偏移。最終WDSR在bicubic上獲得了第七名,而在現實圖片的Mild、Difficult、Wild三個三道上分別取得了第一名、第一名和第二名的好成績。

圖11. WDSR

來自香港中文大學和商湯的PDN團隊,提出了PolyDenseNet。PDN由多個PD block組成。每個PD block內由多個Dense block組成,每個Dense block的輸出包括輸入最終add到最終輸出上,但每一項的add操作都會有個權重係數,如圖12。PDN似乎只參加了現實圖片的Wild的賽道(可能覺得這個賽道難度最高吧),最終使用了PolyDenseNet和變體的PolyDenseNet的集成獲得了該賽道的第一名,在PSNR以及SSIM上大幅度的領先了第二名WDSR(用了4塊Titan Xp,體量應該也不小 )。

但由於沒有找到其詳細的論文介紹(找到的朋友請給個地址),因此不太確定作者這麼做的motivation到底是什麼。本人YY一下,可能出發點和上面的提到的使用DenseNet類似,主要為了提取更多有效的高頻信息。而最終相加的權重係數,可能是用來篩選高頻信息的權重比。不知道這幾個權重參數是否可學習。如果是,那網路學習的到的權重比很可能就高頻信息的佔有比。

圖12. PolyDenseNet

和Pixel Overflow團隊想法很類似,BMIPL UNIST團隊將現實圖片賽道的SR重建定位為denoising和deblurring 兩個階段。在denoising階段,其改進了去噪網路DnCNN[13],提出了DnResNet網路;deblurring 階段則是改進EDSR,使用pyramid pooling來提升重建質量。該團隊參加了bicubic、現實的Mild、difficult三個賽道比賽。在訓練Mild、Difficult階段,其使用了bicubic上的網路參數,進行微調。如圖13。最終其在bicubic獲得了第九名,在Mild和Difficult均獲得了第二名。

圖13.BMIPL UNIST團隊網路結構

來自哈工大的HIT-VPC團隊參加了所有賽道的比賽,與以上團隊的只用一種解決方案的不同,HIT-VPC團隊在bicubic賽道和現實圖像賽道分別使用了一種解決方案。在經典的bicubic賽道,提出了inverse multi level wavelet convolutional neural network(iMwCNN)。

iMwCNN是個具有多級小波包變換(WPT)的金字塔結構網路。 輸入LR圖像首先通過2倍bicubic放大,並將放大後的的DWT係數作為網路的輸入進行重建學習。為了獲得8倍放大,一共進行三次2倍bicubic放大。 在每個級別的網路之間,採用固定的逆小波變換將係數轉換回圖像空間。 再來了解下,在現實圖片的三個賽道上的演算法,super-resolution network for multiple degradations (SRMD)[14],這和DBPN一樣,已被CVPR2018接收。

SRMD主要是針對近幾年的超解析度方法都是使用bicubic下採樣模擬真實圖像的退化過程。但在現實生活中大部分圖片並不遵循該假設,使用bicubic訓練後的模型用於真實圖像重建的時候往往效果很差。當然這也是NTIRE2018設置了三個現實圖片重建賽道的出發點。現實圖片退化類型可能會有很多,同時除了模糊還伴著有雜訊,因此大大增加了重建難度。所以SRMD的出發點就是是否可以設計一個非盲的SR模型適用於多種退化情況。因此SRMD除了使用LR作為輸入外,使用了一個維度拉伸策略,將模糊核以及雜訊的形成的退化圖也作為網路的輸入進行訓練,如圖14。

這種合成多種退化的方式能夠讓其在處理真實圖像退化的場景時依然有很好的收益。SRMD在Mild、Difficult和Wild上分別獲得了第三、第九、第三的成績。值得一提的是這個成績是其使用盲SRMD得到的結果。而Difficult和Wild賽道上該團隊提交了令一份附加成績,這份成績不參與排名,效果少只是稍遜於第一名,是其使用精確的模糊核的結果。此外,SRMD只用了20層卷積,速度上秒殺絕大部分團隊。這裡充分證明了SRMD的效果。

圖14. iMwCNN和SRMD

當然NTIRE2018還有其他隊伍優秀的解決方案,由於精力和時間有限,這裡不在一一列舉,寫的也很糙(ps:經常熬夜到一兩點睡覺,然後一大早起床上班的感覺太難受了)。這篇主要介紹了NTIRE2018超解析度比賽的一些解決方案。CVPR2018也有一些不錯的超解析度文章可以參考,有時間的話會再寫點。

不過回到超解析度方向這個話題,以上一些經典的文章包括NTIRE2018的所有解決方案[16]除了SRGAN以及EnhanceNet,評價指標都是常用的PSNR以及SSIM,這兩個指標一定程度上並不能完全反映圖像的重建質量。而SRGAN和EnhanceNet的感知評價上還沒有一個很普遍統一的標準,但在今年的CVPR2018中一篇名為<<The Perception-Distortion Tradeoff>>[15]的文章詳細說明了感知評價和圖像失真程度之間的關係,文中也提出了評估圖像恢復的新方法。而這個評價標準正好被用於了ECCV2018 workshop PIRM2018的感知超解析度圖像重建挑戰賽中。目前這個比賽正在進行當中,有興趣的朋友可以參加下。附上網站地址pirm2018.org/PIRM-SR.ht

Github:github.com/roimehrez/PI

以上引用比賽文章都在如下鏈接中,就不一一列舉出來了:

openaccess.thecvf.com/C

其中總結性文章可以參考,鏈接中的<<NTIRE 2018 Challenge on Single Image Super-Resolution: Methods and Results>>這篇。最後如果哪裡有問題請幫忙指正,畢竟最重要的是互相學習。

Reference

1. Dong C, Chen C L,He K, et al. Image Super-Resolution Using Deep Convolutional Networks[J]. IEEETransactions on Pattern Analysis & Machine Intelligence, 2016,38(2):295-307.

2. Dong C, Chen C L,Tang X. Accelerating the Super-Resolution Convolutional Neural Network[J].2016:391-407.

3. Shi W, CaballeroJ, Huszar F, et al. Real-Time Single Image and Video Super-Resolution Using anEfficient Sub-Pixel Convolutional Neural Network[C]// IEEE Conference onComputer Vision and Pattern Recognition. IEEE Computer Society, 2016:1874-1883.

4. Kim J, Lee J K,Lee K M. Accurate Image Super-Resolution Using Very Deep ConvolutionalNetworks[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEEComputer Society, 2016:1646-1654.

5. Lim B, Son S, KimH, et al. Enhanced Deep Residual Networks for Single ImageSuper-Resolution[C]// Computer Vision and Pattern Recognition Workshops. IEEE,2017:1132-1140.

6. Ledig C, Theis L,Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using aGenerative Adversarial Network[J]. 2016:105-114.

7. Johnson J, AlahiA, Li F F. Perceptual Losses for Real-Time Style Transfer andSuper-Resolution[J]. 2016:694-711.

8. Sajjadi M S M,Sch?lkopf B, Hirsch M. EnhanceNet: Single Image Super-Resolution ThroughAutomated Texture Synthesis[J]. 2016.

9. E. Agustsson andR. Timofte. NTIRE 2017 challenge on single image super-resolution: Dataset andstudy. In The IEEE Conference on Computer Vision and Pattern Recogni[1]tion(CVPR) Workshops, July 2017. 1, 2

10. Haris M,Shakhnarovich G, Ukita N. Deep Back-Projection Networks ForSuper-Resolution[J]. 2018.

11. Tai Y, Yang J, LiuX, et al. MemNet: A Persistent Memory Network for Image Restoration[J].2017:4549-4557.

12. Lai W S, Huang JB, Ahuja N, et al. Deep Laplacian Pyramid Networks for Fast and AccurateSuper-Resolution[C]// IEEE Conference on Computer Vision and PatternRecognition. IEEE Computer Society, 2017:5835-5843.

13. Zhang K, Zuo W,Chen Y, et al. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN forImage Denoising.[J]. IEEE Transactions on Image Processing, 2017,26(7):3142-3155.

14. Zhang K, Zuo W,Zhang L. Learning a Single Convolutional Super-Resolution Network for MultipleDegradations[J]. 2017.

15. Blau Y, MichaeliT. The Perception-Distortion Tradeoff[J]. 2017.

16. NTIRE 2018Challenge on Single Image Super-Resolution: Methods and Results

掃描下方二維碼,即可關注CVer公眾號

weixin.qq.com/r/NioZAUb (二維碼自動識別)


推薦閱讀:

TAG:計算機視覺 | 深度學習DeepLearning | 超解析度 |