CVPR 2018 論文解讀集錦（持續更新）

05-02

之前我們整理過視覺頂級會議CVPR2017的論文解讀文章和ICCV 2017 論文解讀集錦，CVPR 2018還有3個月就開始了，目前已經公布了所有收錄論文名單，為了能夠讓大家更深刻了解CVPR的論文，我們進行了一些CVPR 2018論文解讀的整理，後續還會持續更新。

1、CVPR2018|DiracNets：無需跳層連接，訓練更深神經網路，結構參數化與Dirac參數化的ResNet

論文講述了虛擬化技術犧牲硬體開銷和性能，換來軟體功能的靈活性；深度模型也類似，如果把網路結構參數化，得到的模型更靈活易控，但是計算效率並不高。

2、CVPR 2018 | 殘差密集網路：利用所有分層特徵的圖像超解析度網路

美國東北大學最近在圖像超分辨領域提出了一種殘差密集網路，來從原圖生成高解析度圖像。該網路結合殘差網路與密集連接網路的特性充分利用原始 LR 圖像的所有分層特徵，因而能重構出高質量的圖像。

3、CVPR2018|DA-GAN技術：計算機幫你創造奇妙「新物種」

微軟亞研院被CVPR2018接收的論文提出的DA-GAN技術，能夠通過文字描述生成新形象，形成了全新的藝術創造模式。

4、CVPR 2018 論文概述：有損壓縮視頻的多幀質量增強方法

CVPR 2018論文《Multi Frame

Quality Enhancement for Compressed Video》提出針對有損壓縮視頻的多幀質量增強方法，顯著提升了視頻質量增強的性能。

5、CVPR 2018 | 使用CNN生成圖像先驗，實現更廣泛場景的盲圖像去模糊

現有的最優方法在文本、人臉以及低光照圖像上的盲圖像去模糊效果並不佳，主要受限於圖像先驗的手工設計屬性。本文研究者將圖像先驗表示為二值分類器，訓練 CNN 來分類模糊和清晰圖像。實驗表明，該圖像先驗比目前最先進的人工設計先驗更具區分性，可實現更廣泛場景的盲圖像去模糊。

6、CVPR2018：基於時空模型無監督遷移學習的行人重識別

本文為你解讀CVPR2018 TFusion，解決的目標是跨數據集的Person Rei，屬於無監督學習，方法是多模態數據融合 + 遷移學習。實驗效果上，超越了所有無監督Person reid方法，逼近有監督方法，在部分數據集上甚至超越有監督方法。

7、獨立循環神經網路（IndRNN）：打造更長更深的RNN

電子科技大學和澳大利亞伍倫貢大學的研究者合作發表論文，介紹了他們創造的獨立循環神經網路（IndRNN），這種新型RNN能有效解決網路收斂時的梯度爆炸和消失問題，並能夠處理更長的序列。

8、CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet：可端到端學習視頻的運動表徵

來自騰訊 AI Lab、MIT、清華、斯坦福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網路：TVNet

9、CVPR 2018 | Spotlight論文：變分U-Net，可按條件獨立變換目標的外觀和形狀

來自德國海德堡大學的研究者提出了條件 U-Net，將變分自編碼器輸出的外觀條件化。實驗證明，這個模型能夠完成條件圖像生成和轉換。在多個數據集上進行的定性和定量實驗表明，該方法比目前最先進的方法都有所提升。

以下論文解讀來源於paperweekly

10、Unsupervised Person Image Synthesis in Arbitrary Poses

CVPR 2018 Spotlight 論文，ReID + GAN 換 pose。本文用了較多的篇幅講 loss function，pose 的提取用的是 OpenPose 這個庫。其 loss 分為三部分： Image Adversarial Loss、 Pose Loss、Identity Loss。

論文鏈接

https://www.paperweekly.site/papers/1864

11、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018 RE-ID Spotlight 一篇，這篇文章主要 contribution 有以下兩點：

提出了一個新的更大的數據集，更為細緻：考慮到了視角，光照等更為細緻的因素，具體參數可以直接看文章；多個數據集間的差異，即 domain-gap，通過 GAN 來生成和模仿。

論文鏈接

https://www.paperweekly.site/papers/1557

代碼鏈接

https://github.com/JoinWei-PKU/PTGAN

數據集鏈接

http://www.pkuvmc.com/publications/msmt17.html

12、Disentangled Person Image Generation

在 NIPS 2017 上，該團隊已經為我們貢獻了 Pose Guided Person Image Generation 這篇非常棒的文章，在 CVPR 2018 中，他們推出的更新的這篇文章不僅僅解決了換 pose 問題，還實現了」隨心所欲「的換裝換 pose，入選今年的 Spotlight。

論文鏈接

https://www.paperweekly.site/papers/1865

13、Practical Block-wise Neural Network Architecture Generation

CVPR 2018 Oral 一篇，本文主要提出了通過封裝模塊（block-wise）的方法，運用增強學習設計生成網路架構的方法。

論文鏈接

https://www.paperweekly.site/papers/1866

14、Deep Layer Aggregation

CVPR 2018 Oral，topic：網路設計模塊化。如名所示，提出了 aggregation 的具體思路，並在層融合上提出了具體方式。

論文鏈接

https://www.paperweekly.site/papers/1867

15、Learning Face Age Progression: A Pyramid Architecture of GANs

CVPR 2018 Oral，文中提出了特徵提取器用於提出特定特徵，原因是作者認為相同年齡段的不同人臉有著相同的的紋理等特定信息，而這個提取器就是提取出這些特徵。此外，該分類器是經過 age 分類任務預訓練好了的。

論文鏈接

https://www.paperweekly.site/papers/1868

16、Convolutional Neural Networks with Alternately Updated Clique

北大團隊提出的新的 block 設計，achieves the performance of the state of the art with less parameters.。由於 block 內任意兩層互連，故實現了 top-bottom refinement，也就實現了 attention 機制。文中還提到了部分 technique。

論文鏈接

https://www.paperweekly.site/papers/1713

代碼鏈接

https://github.com/iboing/CliqueNet

17、Unsupervised Discovery of Object Landmarks as Structural Representations

CVPR 2018 Oral，今年 CVPR Landmark 和 Attention 這兩個詞出現的頻率很高。現在看到的是第二版，對該文進行了更深入的研究後完成。

論文鏈接

https://www.paperweekly.site/papers/1869

18、An Analysis of Scale Invariance in Object Detection - SNIP

CVPR 2018 Oral，文章主要解決網路處理不同 scale 圖片的網路策略。

論文鏈接

https://www.paperweekly.site/papers/1870

19、Wasserstein Introspective Neural Networks

文章主要做的事情就是提出了基於 Wasserstein 的 INN，該組已經在 ICCV，NIPS 等多次提出並改進該模型，該模型主要做的就是將 GAN 中的 G 和 D 結合起來。

論文鏈接

https://www.paperweekly.site/papers/1871

代碼鏈接

https://github.com/kjunelee/WINN

20、Im2Flow: Motion Hallucination from Static Images for Action Recognition

CVPR 2018 Oral,用 u-net 訓練一個模型：輸入是一個靜態的幀，輸出的預測的五幀光流信息，模型在 YouTube 數據集上訓練。

論文鏈接

https://www.paperweekly.site/papers/1872

21、What have we learned from deep representations for action recognition?

CVPR 2018 Zisserman 的新論文，這篇文章就是 two-stream 模型中間層的可視化方法，換句話說，就是探尋 two-stream 模型學到了怎樣的時空信息。

論文鏈接

https://www.paperweekly.site/papers/1873

22、Squeeze-and-Excitation Networks

考慮通道加權，用全局池化後訓練的全連層作為權重，相當於在 channels 上加了一個 attention 機制，給不同的 channel 不同的權重。

論文鏈接

https://www.paperweekly.site/papers/1725

代碼鏈接

https://github.com/hujie-frank/SENet

23、Actor and Action Video Segmentation from a Sentence

CVPR 2018 Oral，本文定義了一個新的任務：給出一個句子，根據該句子分割視頻中的 actor 及其 action。

論文鏈接

https://www.paperweekly.site/papers/1875

24、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Oral，主題是 attention+VQA，本文的主要思路是用 faster-rcnn 提取出 proposal，然後用其做 image captioning 或者 VQA，該方法取得了 2017 VQA Challenge 的第一名。

論文鏈接

https://www.paperweekly.site/papers/754

代碼鏈接

https://github.com/peteanderson80/bottom-up-attention

25、Embodied Question Answering

這篇文章主要定義了一個新的 task 並給出了一個數據集。將一個 agent 隨機丟進一個房間，向他提出一個問題，這個 agent 需要自己導航並回答問題。

論文鏈接

https://www.paperweekly.site/papers/1268

26、Taskonomy: Disentangling Task Transfer Learning

本文定義了一個新的任務，針對在視覺內的遷移學習，並提出了一個蠻大的資料庫，定義的任務是這樣的：vision task 類目很多，只針對某個問題來解決的話，會需要很大的標註的數據集，但我們不難想到的是，一個視覺任務的解決應該能夠一定程度的解決另一個視覺任務，畢竟一個成熟模型的構建意味著對該 image 的一定的理解，而這部分的理解的一部分或許對另一個 task 有助益，例，物體 relation 的理解對深度信息的學習毫無疑問是有著助益的。

論文鏈接

https://www.paperweekly.site/papers/1876

代碼鏈接

https://github.com/StanfordVL/taskonomy

27、Detail-Preserving Pooling in Deep Networks

CVPR 2018 Oral，顧名思義，提出了保留 detail 的池化方法。 max/avg pooling 一個只選取最大而忽略與周圍像素的關聯性，一個重視關聯性卻又直接抹平，並且在實際梯度計算中也有一些 drawback，所以該文提出了這個新方法，一句話概括，就是在池化過程中學了一個動態的 weight。

論文鏈接

https://www.paperweekly.site/papers/1877

代碼鏈接

https://github.com/visinf/dpp

28、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

CVPR 2018 Oral，本文解決了 GAN 生成高解析度突破的問題，解析度達到了 2048*1024，方法精細，值得深入來看。

論文鏈接

https://www.paperweekly.site/papers/1278

代碼鏈接

https://github.com/NVIDIA/pix2pixHD

29、Feature Space Transfer for Data Augmentation

CVPR 2018 ORAL，用GAN生成新數據。

論文鏈接

https://www.paperweekly.site/papers/1878

30、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

這裡的 domain 是指針對數據集中的 attribute，根據 attribute 來劃分的，比如相對於發色而言，金髮是一個 domain，黑髮是一個 domain ，作者在本文提出了一個可以解決 multiple domain translation 的 translator。

論文鏈接

https://www.paperweekly.site/papers/1227

代碼鏈接

https://github.com/yunjey/StarGAN

31、Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 Oral，Zero-Shot Learning 就是尋求將學習到的特徵映射到另一個空間中，從而 map 到 seen 及 unseen 的屬性或者 label 上。這篇文章的主要亮點在於學習了已定義label的同時，學習了latent attribute（隱含屬性）。

論文鏈接

https://www.paperweekly.site/papers/1879

32、Relation Networks for Object Detection

CVPR 2018 Oral，本文設計了一個考慮 relation 的 module，來增強 object detection 的性能。

論文鏈接

https://www.paperweekly.site/papers/1880

33、Semi-parametric Image Synthesis

CVPR 2018 Oral，來自 CUHK，這裡設計的模型以 semantic layout 輸入，輸出真實的相片般的圖片。

論文鏈接

https://www.paperweekly.site/papers/1881

34、Synthesizing Images of Humans in Unseen Poses

CVPR 2018 Oral，Pose 合成。

論文鏈接

https://www.paperweekly.site/papers/1882

打個廣告，走過路過可以錯過~

點擊加入極市Email List ，獲取極市最新項目需求，以及前沿視覺資訊等。