譯文 Learning a Single Convolutional Super-Resolution Network forMultiple Degradations
來自專欄 AI一曲5 人贊了文章
單個卷積網路處理多重退化模型的超解析度重建SRMD
, ,
School of Computer Science and Technology, Harbin Institute of Technology, Harbin, China
Dept. of Computing, The Hong Kong Polytechnic University, Hong Kong, China
DAMO Academy, Alibaba Group
cskaizhang@gmail.com, wmzuo@hit.edu.cn, cslzhang@comp.polyu.edu.hk
摘要
近年來,單幅圖像超解析度(SISR)中的深度卷積神經網路(CNN)取得了前所未有的成功。然而,現有的基於CNN的SISR方法主要假設低解析度(LR)圖像是從高解析度(HR)圖像bicubic降採樣得到的,因此當真正的退化不遵循該假設時,不可避免地會導致性能較差。此外,他們缺乏學習單一模型的可擴展性,無法處理多重退化。為了解決這些問題,我們提出了一個具有維度伸縮策略的通用框架,使得單個卷積超解析度網路能夠將SISR退化過程的兩個關鍵因素(即模糊內核和雜訊水平)作為輸入。因此,超分辨器可以處理多個甚至是空間變化的退化,這顯著提高了實用性。在合成的和真實的LR圖像的大量實驗結果表明,所提出的卷積超解析度網路不僅可以在多個退化模型上產生有利結果,而且在計算上是高效的,為實際的SISR應用提供了高效且可擴展的解決方案。
1 引言
單幅圖像超解析度(SISR)旨在通過恢復低解析度(LR)輸入得到高解析度(HR)圖像。 作為一個經典的問題,SISR在計算機視覺領域仍然是一個積極而富有挑戰性的研究課題,因為它的不健全性和高實用價值[2]。 在典型的SISR框架中,將LR圖像y建模為以下退化過程的輸出:
其中x?k表示模糊核k與潛在HR圖像x之間的卷積,箭頭s表示圖像以比例因子s下採樣,n通常是具有標準偏差(雜訊水平)σ的加性高斯白雜訊(AWGN)。
SISR方法可以大致分為三類,即基於插值的方法,基於模型的優化方法和區分性學習方法。基於插值的方法,如最近鄰,雙線性和雙三次插值法簡單高效,但性能非常有限。通過利用強大的圖像先驗(例如非局部自相似性[11,32],稀疏先驗[52]和降噪先驗[4,13,57]),基於模型的優化方法可以靈活地重建相對高質量HR圖像,但它們通常涉及耗時的優化過程。雖然卷積神經網路(CNN)降噪器與基於模型的優化的集成可以在一定程度上提高效率,但它仍然存在基於模型的優化方法的典型缺點,例如,它不是端到端的優化方法,最終的學習方式,並涉及手工設計的參數[57]。作為一種選擇,歧視性學習方法由於其有效性和效率方面的良好SISR性能而引起了相當大的關注。值得注意的是,近年來使用CNN進行SISR的戲劇性高漲。
在本文中,我們重點研究SISR的CNN方法,以便利用CNN的優點,例如並行計算的快速性,端到端訓練的高精度以及訓練和設計網路的巨大進步[16 ,18,21,28]。儘管幾種基於區別CNN的SISR模型報告了令人印象深刻的結果,但它們存在一個共同的缺點:它們的模型專用於單一簡化退化(例如雙三次退化),缺乏可擴展性以通過使用單個模型處理多種退化。由於SISR的實際退化要複雜得多[40,51],當假設的退化偏離真正的退化時,學習的CNN模型的性能可能會嚴重惡化,使得它們在實際情況下效率較低。有人指出,模糊核對SISR方法的成功起著至關重要的作用,模糊核的失配將大大惡化最終的SISR結果[12]。然而,在如何設計CNN來解決這個關鍵問題方面做了很少的工作。
鑒於上述事實,提出以下問題是很自然的,這些問題是我們論文的重點:(i)我們可以學習單一模型來有效處理多個甚至是空間變化的退化問題嗎? (ii)是否可以使用綜合數據來訓練具有較高實用性的模型?這項工作旨在首先嘗試回答這兩個問題。
為了回答第一個問題,我們在最大後驗(MAP)框架下重新審視和分析了一般的基於模型的SISR方法。然後我們認為可以通過將LR輸入,模糊核和雜訊水平作為CNN的輸入來解決這個問題,但是它們的維數不匹配使得設計單個卷積超分辨網路變得困難。鑒於此,我們引入了維度拉伸策略,其有助於網路處理關於模糊內核和雜訊的多個甚至空間變化的劣化。據我們所知,沒有試圖通過訓練單個CNN模型來考慮SISR的模糊核和雜訊。
對於第二個問題,我們將展示使用合成數據學習一個實用的超級解析器是可能的。為此,對具有不同模糊核和雜訊級組合的各種劣化進行採樣以覆蓋劣化空間。在實際情況下,即使退化更複雜(例如,雜訊不是AWGN),我們可以選擇最適合的退化模型而不是雙三次退化,以產生更好的結果。事實證明,通過選擇適當的退化模型,學習的SISR模型可以在真實的LR圖像上產生令人信服的令人信服的結果。應該指出,我們不使用專門的網路架構,而是使用[9,41]中的普通CNN。
本文的主要貢獻總結如下:
?我們為SISR提出了一個簡單而有效且可擴展的深度CNN框架。所提出的模型超越了廣泛使用的雙三次退化假設,適用於多個甚至是空間變化的退化,從而為實際應用開發實用的基於CNN的超解析器邁出實質性的一步。
?我們提出了一種新穎的維度拉伸策略來解決LR輸入圖像,模糊內核和雜訊水平之間的維度失配問題。雖然這個策略是針對SISR提出的,但它是一般的,可以擴展到其他任務,如去模糊。 ?我們表明,從合成訓練數據中學習的擬議卷積超解析度網路不僅可以在合成LR圖像上針對最先進的SISR方法產生有競爭力的結果,而且還會在真實LR圖像上產生視覺上可信的結果。2 相關工作
第一個使用CNN解決SISR的工作可以追溯到[8],其中提出了三層超解析度網路(SRCNN)。在擴展工作[9]中,作者研究了深度對超解析度的影響,並且憑經驗證明,深度模型訓練的困難阻礙了CNN超分辨器的性能改進。為了克服訓練難度,Kim等人[24]提出了一種具有殘差學習策略的非常深的超解析度(VDSR)方法。有趣的是,他們表明VDSR可以處理多種尺度的超解析度。 Zhang等人通過分析CNN和MAP推斷之間的關係, [56]指出,CNN主要模擬先驗信息,他們經驗證明,單一模型可以處理多尺度超解析度,圖像去塊和圖像去噪。在獲得良好性能的同時,上述方法以雙三次插值LR圖像為輸入,不僅計算成本高,而且阻礙了接收場的有效擴展。
為了提高效率,一些研究人員採取直接操縱LR輸入並在網路末端採用升級操作。 Shi等人[41]引入了一個有效的亞像素卷積層來將LR特徵圖提升為HR圖像。董等人。 [10]在網路末端採用了一個去卷積層來執行上採樣。 Lai等人[27]提出了一個拉普拉斯金字塔超解析度網路(LapSRN),它將LR圖像作為輸入,並逐漸以粗到細的方式用轉置卷積逐步預測子帶殘差。為了提高大比例因子的感知質量,Ledig等人[29]提出了一種基於生成對抗網路[16]的超解析度(SRGAN)方法。在SRGAN的生成器網路中,使用兩個亞像素卷積層來有效地將LR輸入放大4倍。
儘管已經針對SISR提出了各種技術,但是上述基於CNN的方法針對廣泛使用的設置的雙三次退化,而忽略了它們在實際情況下的有限適用性。一個有趣的基於CNN的方法可以超越雙三次退化,採用CNN降噪器通過基於模型的優化框架來解決SISR [4,34,57]。例如,[57]中提出的方法可以處理如[11]中廣泛使用的高斯退化。然而,手動選擇不同退化的超參數並不是一項簡單的任務[39]。因此,理想的是學習一個單一的SISR模型,該模型可以處理多重退化,具有很高的實用性。
本文試圖給出肯定的答案。由於空間有限,我們只能在這裡討論一些相關的作品。其他基於CNN的SISR方法可以在[6,22,23,30,37,42,44,45,46,53,58]中找到。
3.方法
3.1 退化模型
在解決SISR問題之前,重要的是要清楚地了解不局限於公式1的退化模型。 另一種實際的退化模型可以通過:
當公式中的箭頭是雙立方下採樣器,公式(2)對應於先去模糊後使用了雙三次退化的SISR問題。因此,它可以受益於現有的去模糊方法和基於雙三次退化的SISR方法。由於空間有限,我們只考慮公式1中假定的更廣泛的退化模型。 儘管如此,我們的方法是一般的,可以很容易地擴展到處理公式2。在下面,我們對模糊核k,雜訊n和下採樣器做一個簡短的討論。
模糊核 與圖像去模糊不同,SISR的模糊內核設置通常很簡單。最流行的選擇是用標準差或內核寬度參數化的各向同性高斯模糊核[11,51]。在[38]中,也使用各向異性高斯模糊核。在實踐中,可以進一步考慮用於去模糊任務的更複雜的模糊核模型,例如運動模糊[5]。經驗和理論分析表明,精確模糊核的影響遠大於複雜圖像先驗[12]。具體來說,當假定的內核比真實的內核更平滑時,恢復的圖像被過度平滑。大多數SISR方法確實喜歡這種情況。另一方面,當假定的內核比真實內核更銳利時,將出現高頻振鈴偽像。
雜訊 雖然解析度低,但LR圖像通常也有雜訊。直接超分辨雜訊輸入而不消除雜訊會放大不需要的雜訊,導致視覺上不愉快的結果。要解決這個問題,直接的方法是首先執行去噪,然後再提高解析度。然而,去噪預處理步驟傾向於丟失細節信息並且會惡化隨後的超解析度性能[43]。因此,共同執行降噪和超解析度將是非常理想的。
下採樣器 現有文獻考慮了兩種類型的下採樣器,包括直接下採樣器[11,17,36,51,55]和雙三次下採樣器[7,12,14,15,47,52]。在本文中,我們考慮雙三次下採樣器,因為當k是delta核並且雜訊水平為零時,公式1變成了廣泛使用的雙三次退化模型。應該指出,不同於在一般退化模型中變化的模糊核和雜訊,下採樣器被假定為固定的。
儘管模糊核和雜訊已被認為是SISR成功的關鍵因素,並且已經提出了幾種方法來考慮這兩個因素,但在單個CNN框架中幾乎沒有辦法同時考慮模糊核和雜訊。這是一個具有挑戰性的任務,因為關於模糊核和雜訊的退化空間相當大(參見圖1作為示例)。 Zhang等人完成了一項相關工作。 [57];儘管如此,它們的方法本質上是基於模型的優化方法,因此如前所述存在若干缺點。在另一項相關工作中,Riegler等人[38]將模糊核信息融合SISR模型。我們的方法在兩個主要方面與[38]不同。首先,我們的方法考慮了更一般的退化模型。其次,我們的方法利用更有效的方法來參數化退化模型。
3.2 來自MAP框架的觀點
雖然現有的基於CNN的SISR方法不一定是在傳統MAP框架下派生的,但它們具有相同的目標。我們重新審視和分析SISR的一般MAP框架,旨在找到MAP原則和CNN工作機制之間的內在聯繫。因此,可以獲得關於CNN架構設計的更多見解。由於SISR的病態性質,需要通過正規化來限制解決方案。在數學上,可以通過求解下面的MAP問題來估計LR圖像y的對應的HR圖像:
是數據保真項, 是正則化項(或先驗項), 是權重係數。簡單地說,公式(3)傳達了兩點:(i)估計的解決方案不僅應該符合退化過程,而且還具有期望的clean HR圖像的性質; (ii) 是LR圖像y,模糊核k,雜訊水平σ和折衷參數λ的函數。因此,(非盲)SISR的MAP解可以表示為
其中Θ表示MAP推斷的參數。
通過將CNN作為公式4的一種有區別的學習解決方案,我們可以有以下見解。
?由於數據保真度項對應於退化過程,因此精確建模退化對SISR的成功起著關鍵作用。然而,現有的基於CNN的雙三次退化SISR方法實際上旨在解決以下問題:
其實用性非常有限。
?要設計更實用的SISR模型,最好學習像公式4這樣的映射函數。涵蓋更廣泛的退化。應該強調的是,由於λ可以被吸收到σ中,公式4可以被重新表述為:
考慮到MAP框架(公式3)可以在同一圖像之前進行通用圖像超解析度處理,在統一的CNN框架中共同執行去噪和SISR是直觀的。此外,工作[56]表明MAP推斷的參數主要模擬先驗;因此,CNN有能力通過單一模式處理多種退化模型。
從MAP框架的角度,可以看到SISR的目標是學習映射函數 而不是 。然而,通過CNN直接建模 並不是一件容易的事情。原因在於三個輸入y,k和σ具有不同的維度。在下一小節中,我們將提出一個簡單的維度伸縮策略來解決這個問題。
3.3 維度拉伸
提出的維度拉伸策略在圖2中被示意性地示出。假設輸入包括大小為p×p的模糊核,雜訊水平σ和尺寸為W×H×C的LR圖像,其中C表示通道。模糊核首先被矢量化為一個大小為 的矢量,然後通過PCA(主成分分析)技術投影到t維線性空間。之後,由v表示的級聯低維向量和雜訊級被拉伸成尺寸為W × H ×(t + 1)的退化圖M,其中第i個圖的所有元素都是 。通過這樣做,退化圖隨後可以與LR圖像連接,使得CNN可以處理三個輸入。考慮到退化圖可能不均勻的事實,可以容易地利用這種簡單的策略來處理空間變化的退化。
3.4 提出的網路
圖3顯示了用SRMD表示的多解析度超解析度網路,如圖3所示。可以看出,SRMD的顯著特點是它將級聯的LR圖像和退化圖作為輸入。為了展示維度伸展策略的有效性,我們採用普通的CNN而沒有複雜的建築工程。通常,為了超分辨比例因子為s的LR圖像,SRMD首先將連接的LR圖像和尺寸為W×H×(C + t + 1)的退化圖作為輸入。然後,類似於[24],應用級聯的3×3卷積層來執行非線性映射。每一層由三種類型的操作組成,包括卷積(Conv),整流線性單元(ReLU)[26]和批量標準化(BN)[20]。具體而言,除了由單個「Conv」操作組成的最後的卷積層以外,每個卷積層都採用「Conv + BN + ReLU」。最後,子像素卷積層[41]之後是最後的卷積層,以將尺寸為 的多個HR子圖像轉換為尺寸為sW × sH × C的單個HR圖像。
對於所有比例因子2,3和4,卷積層的數量被設置為12,並且每層中的特徵圖的數量被設置為128.我們分別學習每個比例因子的模型。特別是,我們還通過去除第一卷積濾波器中雜訊水平圖的連接和新訓練數據的微調來了解無雜訊退化模型,即SRMDNF。
值得指出的是,由於以下原因,殘差學習和雙三次插值LR圖像都不用於網路設計。首先,通過適度的網路深度和先進的CNN訓練和設計,如ReLU [26],BN [20]和Adam [25],在沒有殘差學習策略的情況下很容易對網路進行訓練。其次,由於退化涉及雜訊,雙三次插值的LR圖像會加劇雜訊的複雜性,反過來會增加訓練的難度。
3.5 為什麼不學盲模型?
為了提高CNN對SISR的實用性,似乎最直接的方法是通過不同退化學習具有綜合訓練數據的盲模型。然而,這樣的盲目模型表現不如預期。首先,當模糊核模型很複雜時,例如運動模糊,性能嚴重惡化。這個現象可以用下面的例子來解釋。給定HR圖像,模糊核和相應的LR圖像,將HR圖像向左移動一個像素並將模糊內核向右移動一個像素將導致相同的LR圖像。因此,LR圖像可以對應於具有像素移位的不同HR圖像。這反過來會加劇像素平均問題[29],通常導致過度平滑的結果。其次,沒有特別設計的體系結構設計的盲模型泛化能力較差,在實際應用中表現較差。
相比之下,用於多重退化的非盲模型幾乎不受像素平均問題的影響,並且具有更好的泛化能力。首先,退化圖包含翹曲信息,因此可以使網路具有空間變換能力。為了清楚起見,可以將由模糊核和雜訊水平引起的退化圖作為空間變換器的輸出來處理,如[21]中所述。其次,通過將模型與退化圖一起錨定,非盲模型容易推廣到看不見的退化,並且能夠控制數據保真度術語和正則化術語之間的權衡。
4 實驗
4.1 合成訓練數據和網路訓練
根據公式1合成LR圖像之前,有必要定義模糊核和雜訊水平範圍,以及提供大規模clean HR圖像集。
對於模糊核,我們遵循具有固定核寬度的各向同性高斯核模型,這在SISR應用中已被證明實際可行。具體來說,內核寬度範圍設置為[0.2, 2],[0.2, 3]和[0.2, 4]分別對應比例因子2,3和4。我們用0.1的步幅對內核寬度進行採樣。內核大小固定為15×15。為了進一步擴展退化空間,我們還考慮了一個更一般的內核假設,即各向異性高斯,其特徵在於高斯概率密度函數N(0, Σ)具有零均值和變化的協方差矩陣Σ[38]。這樣的高斯核的空間由Σ的特徵向量的旋轉角和相應特徵值的縮放來確定。我們將旋轉角度範圍設置為[0, π]。對於特徵值的縮放,對於比例因子2,3和4,其分別設置為0.5到6,8和10。
雖然我們在整篇論文中採用雙三次下採樣器,但直接採用直接降採樣器訓練模型非常簡單。或者,我們還可以通過近似直接降採樣器來包括退化。具體來說,給定直接下採樣器 下的模糊核 ,通過用數據驅動方法解決以下問題我們可以在雙三次下採樣器 下找到相應的模糊核 :
在本文中,我們還包括比例因子為3的退化模型 。
一旦模糊內核被定義好或者被學習,我們就可以對大量的內核進行統一的抽樣並聚合它們來學習PCA投影矩陣。通過保留大約99.8%的能量,將核投影到維15的空間(即t = 15)。圖4顯示了比例因子3和一些PCA特徵向量的一些典型模糊核的可視化。
對於雜訊級別範圍,我們將其設置為[0, 75]。因為所提出的方法在YCbCr色彩空間中對RGB信道而不是Y信道進行操作,所以我們收集包括400個BSD [33]圖像,來自DIV2K數據集[1]的800個訓練圖像和WED數據集[31]的4744幅圖像的大規模彩色圖像用於訓練。
然後,給出一幅HR圖像,我們通過使用模糊核k對其進行模糊化來合成LR圖像,並且以比例因子s對其bicubic降採樣,隨後添加具有雜訊水平σ的AWGN。 LR patch大小設置為40×40,這意味著比例因子2,3和4的相應HR patch大小分別為80×80,120×120和160×160。
在訓練階段,每個epoch我們隨機選擇一個模糊核和一個雜訊水平合成一個LR圖像和裁剪N = 128×3000 LR / HR補丁對(以及退化圖)。我們使用Adam [25]優化了以下損失函數:
最小批量設置為128.當訓練錯誤停止下降時,學習速率從 開始並減小到 。當訓練誤差在五個連續epoch中保持不變時,我們將每個批量歸一化的參數合併到相鄰的卷積濾波器中。然後,使用 的小學習率再增加100個epoch來對模型進行微調。由於SRMDNF是通過微調SRMD獲得的,因此其學習速率固定為 並訓練200個epochs。
我們使用MatConvNet軟體包[48]和Nvidia Titan X Pascal GPU在Matlab(R2015b)環境中訓練模型。對單個SRMD模型的訓練可以在大約兩天內完成。源代碼可以在https://github.com/cszn/SRMD下載。
4.2 bicubic退化實驗
如上所述,我們的目標是學習單一網路來處理多重退化,而不是僅處理雙三次退化。然而,為了展示維度伸展策略的優點,所提出的方法還與專門為雙三次退化而設計的其他基於CNN的方法進行了比較。
表1顯示了最先進的基於CNN的SISR方法在四個廣泛使用的數據集上的PSNR和SSIM [50]結果。正如人們所看到的,SRMD在小尺度因子下達到與VDSR相當的結果,並且在大尺度因子下勝過VDSR。特別是,SRMDNF實現了最好的整體定量結果。使用ImageNet數據集[26]來訓練具有雙三次退化的特定模型,SRResNet在比例因子4上執行比SRMDNF略好。為了與其他方法(例如VDSR)進一步比較,我們還訓練了SRMDNF模型(用於比例因子3)在Y channel上操作291個訓練圖像。學習模型分別在Set5,Set14,BSD100和Urban100上分別達到33.97dB,29.96dB,28.95dB和27.42dB。因此,它仍然可以勝過其他競爭方式。可能的原因在於具有多個退化的SRMDNF在MAP框架中共享相同的先前,這促進了隱含的在先學習並因此有益於PSNR改進。這也可以解釋為什麼具有多種尺度的VDSR可以提高性能。
對於GPU運行時間,SRMD在比例因子2,3和4分別花費0.084,0.042和0.027秒來重建大小為1024x1024的HR圖像。作為比較,VDSR上所有比例因子的運行時間為0.174秒。圖5顯示了不同方法的視覺效果。可以看出,我們提出的方法與其他方法相比具有非常有競爭力的性能。
4.3 一般退化模型的實驗
在本小節中,我們評估了所提方法在一般退化方面的性能。退化設置在表2中給出。我們只考慮各向同性高斯模糊內核以便於比較。為了進一步顯示所提出的方法的可擴展性,還包括另一種廣泛使用的退化[11],其涉及寬度為1.6的7×7高斯內核和具有比例因子3的直接下採樣器。我們將所提出的方法與VDSR,兩種基於模型的方法(即,NCSR [11]和IRCNN [57])以及級聯去噪-SISR方法(即,DnCNN [56] + SRMDNF)進行比較。
表2給出了Set5中不同退化方法的定量結果,我們從中進行了如下觀察和分析。首先,當假定的雙三次退化偏離真實時,VDSR的性能嚴重惡化。其次,SRMD比NCSR和IRCNN產生更好的結果,並且勝過DnCNN + SRMDNF。特別是,SRMD在DnCNN + SRMDNF上的PSNR增益隨著核寬度的增加而增加,這驗證了聯合去噪和超解析度的優勢。第三,通過設置適當的模糊內核,所提出的方法在用直接下採樣器處理劣化方面提供了良好的性能。圖6給出了視覺比較。可以看出,NCSR和IRCNN產生比VDSR更令人愉快的視覺效果,因為它們假定的退化與真實退化相匹配。但是,它們無法像SRMD和SRMDNF那樣將邊緣恢復得更加銳利。
4.4 空間變異性退化的實驗
為了證明SRMD對於空間變異退化的有效性,我們合成了具有空間變化模糊核和雜訊水平的LR圖像。圖7顯示了提出的SRMD對空間變化退化的視覺結果。可以看出,所提出的SRMD對於恢復潛在的HR圖像是有效的。請注意,模糊核被假定為各向同性高斯。
4.5 實際圖像的實驗
除了上述關於從具有已知模糊核的HR圖像合成降採樣並且已知雜訊水平的AWGN破壞的LR圖像的實驗之外,我們還在真實LR圖像上進行實驗以證明所提出的SRMD的有效性。由於沒有地面真實HR圖像,我們只提供視覺比較。
如前所述,雖然我們也在訓練中使用各向異性高斯核,但在測試中對大多數真實LR圖像使用各向同性高斯是一般可行的。為了找到具有良好視覺質量的退化參數,我們使用網格搜索策略而不是採用任何模糊核或雜訊水平估計方法。具體來說,內核寬度從0.1到2.4均勻採樣,步幅為0.1,雜訊水平為0到75,步幅為5.
圖8和圖9分別說明了兩個真實LR圖像「Cat」和「Chip」上的SISR結果。 VDSR [24]是代表性的被用作比較的CNN方法之一。對於被壓縮偽影破壞的圖像「Cat」,Waifu2x [49]也用於比較。對於包含重複結構的圖像「Chip」,也包括一個基於自相似性的方法SelfEx [19]用於比較。
從視覺結果可以觀察到,與競爭方法相比,SRMD可以產生更多視覺上合理的HR圖像。具體而言,從圖8可以看出,VDSR的性能受到壓縮偽像的嚴重影響。雖然Waifu2x可以成功刪除壓縮失真,但無法恢復銳利的邊緣。相比之下,SRMD不僅可以去除不令人滿意的偽影,還可以產生尖銳的邊緣。從圖9中我們可以看出,VDSR和SelfEx都傾向於產生過平滑的結果,而SRMD可以通過更好的強度和清晰圖像的梯度統計恢復清晰的圖像[35]。
5 結論
在本文中,我們提出了一個有效的超解析度網路,通過單一模型處理多種退化的高可擴展性。與現有的基於CNN的SISR方法不同,所提出的超分辨器將LR圖像及其退化圖作為輸入。具體而言,通過簡化退化參數的維度拉伸(即,模糊內核和雜訊水平)來獲得退化圖。合成LR圖像的結果表明,所提出的超解析度不僅可以產生雙三次退化的最新技術結果,而且還可以有效地執行其他退化甚至空間變體退化。此外,實際LR圖像的結果表明,所提出的方法可以重建視覺上合理的HR圖像。總之,所提出的超分辨器為實際的基於CNN的SISR應用提供了可行的解決方案。
6 致謝
本文得到國家自然科學基金(批准號:61671182,61471146),香港研資局綜合研究基金(香港理工大學152240 / 15E)和香港理工大學 - 阿里巴巴合作研究項目「監控圖像和視頻質量提升」的支持, 。我們非常感謝NVIDIA公司為我們提供用於本研究的Titan Xp GPU的支持。
References
[1] E. Agustsson and R. Timofte. Ntire 2017 challenge on single image super-resolution: Dataset and study. In IEEE Conference on Computer Vision and Pattern Recognition Workshops, volume 3, pages 126–135, July 2017. 6[2] S. Baker and T. Kanade. Limits on super-resolution and how
to break them. IEEE Transactions on Pattern Analysis andMachine Intelligence, 24(9):1167–1183, 2002. 1[3] M. Bevilacqua, A. Roumy, C. Guillemot, and M.-L. A.Morel. Low-complexity single-image super-resolution basedon nonnegative neighbor embedding. In British Machine Vision Conference, 2012. 7[4] S. A. Bigdeli, M. Jin, P. Favaro, and M. Zwicker. Deep meanshift priors for image restoration. In Advances in Neural Information Processing Systems, 2017. 1, 2[5] G. Boracchi and A. Foi. Modeling the performance of imagerestoration from motion blur. IEEE Transactions on ImageProcessing, 21(8):3502–3517, Aug 2012. 3[6] Y. Chen, W. Yu, and T. Pock. On learning optimized reaction diffusion processes for effective image restoration. InIEEE Conference on Computer Vision and Pattern Recognition, pages 5261–5269, 2015. 2[7] Z. Cui, H. Chang, S. Shan, B. Zhong, and X. Chen. Deepnetwork cascade for image super-resolution. In EuropeanConference on Computer Vision, pages 49–64, 2014. 3[8] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deepconvolutional network for image super-resolution. In European Conference on Computer Vision, pages 184–199, 2014.2[9] C. Dong, C. C. Loy, K. He, and X. Tang. Imagesuper-resolution using deep convolutional networks. IEEETransactions on Pattern Analysis and Machine Intelligence,38(2):295–307, 2016. 2, 7[10] C. Dong, C. C. Loy, and X. Tang. Accelerating the superresolution convolutional neural network. In European Conference on Computer Vision, pages 391–407, 2016. 2[11] W. Dong, L. Zhang, G. Shi, and X. Li. Nonlocally centralized sparse representation for image restoration. IEEE Transactions on Image Processing, 22(4):1620–1630, 2013. 1, 2,3, 6, 7[12] N. Efrat, D. Glasner, A. Apartsin, B. Nadler, and A. Levin.Accurate blur models vs. image priors in single image superresolution. In IEEE International Conference on ComputerVision, pages 2832–2839, 2013. 1, 3[13] K. Egiazarian and V. Katkovnik. Single image superresolution via BM3D sparse coding. In European SignalProcessing Conference, pages 2849–2853, 2015. 1[14] W. Freeman and C. Liu. Markov random fields for superresolution and texture synthesis. Advances in Markov Random Fields for Vision and Image Processing, 1:155–165,2011. 3[15] D. Glasner, S. Bagon, and M. Irani. Super-resolution from asingle image. In IEEE International Conference on Computer Vision, pages 349–356, 2009. 3[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Advances in neural informationprocessing systems, pages 2672–2680, 2014. 1, 2[17] H. He and W.-C. Siu. Single image super-resolution usingGaussian process regression. In IEEE Conference on Computer Vision and Pattern Recognition, pages 449–456, 2011.3[18] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learningfor image recognition. In IEEE Conference on ComputerVision and Pattern Recognition, pages 770–778, 2016. 1[19] J.-B. Huang, A. Singh, and N. Ahuja. Single image superresolution from transformed self-exemplars. In IEEE Conference on Computer Vision and Pattern Recognition, pages5197–5206, 2015. 7, 8[20] S. Ioffe and C. Szegedy. Batch normalization: Acceleratingdeep network training by reducing internal covariate shift. InInternational Conference on Machine Learning, pages 448–456, 2015. 4, 5[21] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatialtransformer networks. In Advances in Neural InformationProcessing Systems, pages 2017–2025, 2015. 1, 5[22] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses forreal-time style transfer and super-resolution. In EuropeanConference on Computer Vision, pages 694–711, 2016. 2[23] J. Kim, J. Kwon Lee, and K. Mu Lee. Deeply-recursive convolutional network for image super-resolution. In IEEE Conference on Computer Vision and Pattern Recognition, pages1637–1645, 2016. 2[24] J. Kim, J. K. Lee, and K. M. Lee. Accurate image superresolution using very deep convolutional networks. In IEEEConference on Computer Vision and Pattern Recognition,pages 1646–1654, 2016. 2, 4, 7, 8[25] D. Kingma and J. Ba. Adam: A method for stochastic optimization. In International Conference for Learning Representations, 2015. 5, 6[26] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenetclassification with deep convolutional neural networks. InAdvances in Neural Information Processing Systems, pages1097–1105, 2012. 4, 5, 6[27] W.-S. Lai, J.-B. Huang, N. Ahuja, and M.-H. Yang. Deeplaplacian pyramid networks for fast and accurate superresolution. In IEEE Conference on Computer Vision andPattern Recognition, pages 624–632, July 2017. 2, 7[28] Y. LeCun, Y. Bengio, and G. Hinton. Deep learning. Nature,521(7553):436–444, 2015. 1[29] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, ′A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al.Photo-realistic single image super-resolution using a generative adversarial network. In IEEE Conference on Computer Vision and Pattern Recognition, pages 4681–4690, July2017. 2, 5, 7[30] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee. Enhanceddeep residual networks for single image super-resolution. InIEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 136–144, July 2017. 2[31] K. Ma, Z. Duanmu, Q. Wu, Z. Wang, H. Yong, H. Li, andL. Zhang. Waterloo exploration database: New challengesfor image quality assessment models. IEEE Transactions onImage Processing, 26(2):1004–1016, 2017. 6[32] J. Mairal, F. Bach, J. Ponce, G. Sapiro, and A. Zisserman.Non-local sparse models for image restoration. In IEEE Conference on Computer Vision and Pattern Recognition, pages2272–2279, 2009. 1推薦閱讀:
※Yann LeCun:學習世界模型,通向AI的下一步
※人類進化之人工智慧
※Shawn的讀書筆記(17)——《人類簡史》
※AI寒冬將至?「人工智慧衰退論」再起,卻遭LeCun怒斥
TAG:深度學習DeepLearning | 圖像處理 | 人工智慧 |