Learning Warped論文筆記

Learning Warped論文筆記

來自專欄人臉超解析度重建

Learning Warped Guidance for Blind Face 論文筆記

摘要

  1. 解決的核心問題定位在盲人臉恢復上。
  2. 為了更好的恢復人臉細節,將低清和高清圖片一起作為輸入送進所提出的GFRNet(guided face restoration network)中。
  3. 但低清和高清圖在姿態、光照和表情上都會不同,因此一般的CNN網路效果不好。
  4. 整個網路分為兩個子網:WarpNet和RecNet。WarpNet將guided image轉化成和低清一樣姿態和表情的圖(這裡未提及光照);RecNet把低清和轉換後的圖作為輸入來生成重建結果。
  5. 在訓練WarpNet時,採用landmark loss + total variation regularization。因為真實的flow field不可知。
  6. 此外,為了使模型適用於盲恢復,我們的GFRNet在合成數據上進行了訓練,具有模糊內核、雜訊水平、下採樣比例因子和JPEG品質因數的多種設置。

引言

  1. 人臉重建的必要性
  2. 現在有很多關於去噪、超分、去模糊的研究,但大部分都不是盲恢復的,這是不實用的。此外,大多數先前的作品純粹依賴於單一退化觀察產生恢復結果。 值得注意的是,降解過程通常是非常不適合的。 通過學習降級觀察的直接映射,恢復結果傾向於過度平滑並且不能忠實地保留精細和身份感知的面部細節。
  3. 在本文中,我們假定guided image與低清身份一致,正面且眼睛睜開。這樣的假設在現實中也是合理的,舉了兩個例子。
  4. 講解了圖一內容。(U-Net)
  5. 為了訓練GFRNet,我們採用重建學習來將恢復結果約束為接近目標圖像(即低清對應的真實高清圖),並進一步採用對抗性學習進行視覺上真實的恢復。
  6. 評價指標:PSNR、SSIM、視覺感知質量
  7. 文章的三點貢獻:

    1. WarpNet + RecNet ;
    2. landmark loss + total variation for training the WarpNet;
    3. 在合成和真實人臉圖片上都有不錯的結果。

相關工作

所提出的方法

3.1 Guided Face Restoration Network

  1. 圖像大小為256*256,假設guided image和目標圖像為同一人,且guided image高質量、正向、無遮擋、眼睛睜開。低清圖片與guided image大小一致。若不然,則把低清圖片處理到一致大小後再送進GFRNet。
  2. GFRNet整體網路說明

3.2 Degradation Model and Synthetic Training Data

  1. 以真實圖片I為基礎,合成低清圖片Id。
  2. 具體細節如下

3.3 Model Objective

Reconstruction loss

  1. 核心思想:恢復出的圖片和真實圖片的l2 loss + perceptual loss
  2. 具體如下:

實驗結果

數據集的構建方法

  1. 採用CASIA-WebFace和VggFace2來構建訓練集和測試集。WebFace包含10575個身份的人臉且每一個人大約有46張圖片,大小均為256*256.VggFace2包含9131個身份的人臉(8631用來做訓練,500用來測試)且每一個人平均有362張圖片(不同大小的)。這些圖片可以說比較全面的覆蓋了各種姿態、年齡、光照強度和表情。
  2. 對於每一個人來說,最多會選擇5張高質量圖片,在這其中會選出一張正面睜開眼睛的圖片作為guided image,其他的會被作為目標圖片來生成低清圖片。通過這種方式,我們構建了包含20273對目標圖像和guided image的訓練集(從VggFace2的訓練集中得來)。
  3. 我們的測試集包含兩個子集:

    1. 1005對來自VggFace2的的測試集;
    2. 1455對來自WebFace。

已經在訓練集中出現過的人不會在測試集中出現。

4. 此外低質量的圖片也不會出現在訓練集和測試集中,包括以下情況:

1. 低解析度圖像;

2. 有很大遮擋的圖像;

3. 卡通形象;

4. 明顯修飾過的圖像。

5. VGGFace2中每個圖像的面部區域被裁剪,並根據MTCNN [57]檢測到的邊界框調整為256×256。 所有訓練和測試圖像都不對齊以保持其原始姿勢和表達。 採用TCDCN [17]來檢測目標圖像和guided image的面部標誌,僅用於訓練。

訓練細節和參數設置

  1. 模型使用Adam演算法來訓練,具體參數見文章。在每一個學習率上,模型會被訓練直至reconstruction loss不會再下降。然後一個更小的學習率會被採用來精調模型。各個tradeoff參數見文章。
  2. 我們首先會預訓練WarpNet,5個epochs(最小化flow loss),然後再通過最小化整體loss來以端到端的形式訓練整個網路。
  3. batch size為1且訓練在100個epoch後停止。在訓練過程中也採用了一些數據增廣方式如翻轉。

結果分析

  1. 在合成數據上的測試不再贅述;在真實數據做測試時,真實數據是從VGGFace2中選的,且解析度低於60*60。
  2. 對結構進行了變體拆分,以控制變數的形式說明了每一部分的重要性。

有空可以總結下文章所作的對比實驗

推薦閱讀:

幺學聲課堂筆記vcd??6
美食課堂筆記實錄:原來喝茶還有這麼多門道!別怪我沒告訴你哦!
《2016年十干字碰字強化班課堂筆記》
【摩登舞】華爾茲課堂筆記(3):反身

TAG:課堂筆記 | 科技 | 做筆記 |