現場報道 | CVPR 2017多個獎項公布：蘋果公司獲最佳論文

02-11

2017 年 7 月 21 日-26 日，CVPR 2017 在夏威夷火奴魯魯 Hawaii Convention Center 開幕。在昨日的文章中，我們盤點了國內的 CVPR 2017 兩點文章。今日的主會上，CVPR 2017 多個獎項公布：包括兩篇最佳論文、兩篇最佳榮譽論文、一篇最佳學生論文，以及兩個 PAMI 青年研究員獎。

機器之心的分析師來到了 CVPR 2017 大會現場，為大家報道有關大會的精彩內容。在今日的主會上，主辦方對 CVPR 2017 的論文接收情況進行了介紹，同時也頒布了多個獎項。

據現場介紹，今年的 CVPR 共收到有效提交論文 2680 篇，其中 2620 篇論文經過完整評議，最終總計 783 篇被正式錄取（佔總提交數的 29%）。被接收的論文中，71 篇將進行長口頭演講，144 篇進行短亮點演講。

相比入 CVPR 2016，從接收論文量到參會人數，CVPR 2017 都有極大地增長。

各屆 CVPR 論文量

往屆 CVPR 參會人數

CVPR 2017 主會上公布的這屆大會的各個獎項如下：

CVPR 2017 最佳論文獎

Densely Connected Convolutional Networks by Gao Huang, Zhuang Liu, Laurens van der Maaten, & Kilian Q. Weinberger (Presented Sun July 23 in Oral 2-1A)

Learning from Simulated and Unsupervised Images through Adversarial Training by Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, & Russell Webb (Presented Sun July 23 in Oral 2-1A)

CVPR 2017 最佳榮譽論文獎

Annotating Object Instances with a Polygon-RNN by Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, & Sanja Fidler (Presented Mon July 24 in Oral 3-1B)

YOLO9000: Better, Faster, Stronger by Joseph Redmon & Ali Farhadi (Presented Tues July 25 in Oral 4-2A)

CVPR 2017 最佳學生論文獎

Computational Imaging on the Electric Grid by Mark Sheinin, Yoav Y. Schechner, & Kiriakos N. Kutulakos (Presented Sun July 23 in Oral 2-1B)

CVPR 2017 Longuet-Higgins 獎

Object Retrieval with Large Vocabularies and Fast Spatial Matching by James Philbin, Ondrej Chum, Michael Isard, Josef Sivic & Andrew Zisserman

CVPR 2017 PAMI 青年研究員獎

Ross Girshick & Julien Mairal

值得一提的是，在宣布 CVPR 2017 PAMI 青年研究員獎由 Ross Girshick & Julien Mairal 獲得時，現場響起了熱烈的掌聲。機器之心在第一天午休時，就對兩位青年研究員獲獎的看法對 CVPR 參會學者進行了了解。在 10 位受訪學者中，其中 7 位表示過去了解過他們的工作，其中 4 位對他們的獲獎給予了高度的肯定和認可。「Ross is one of the million!」——其中一位來自歐洲的受訪學者表示自己非常欣賞 Ross 的工作，認為他獲獎是眾望所歸。

Ross Girshick & Julien Mairal

以下是機器之心對兩篇最佳論文、一篇最佳學生論文進行的摘要介紹。

兩篇最佳論文

康奈爾與清華大學：Densely Connected Convolutional Networkshttps://arxiv.org/abs/1608.06993

https://github.com/liuzhuang13/DenseNet

摘要：最近的研究工作表明，如果卷積神經網路在接近輸入層和輸出層的層級中包含較短的連接，那麼 CNN 就能在訓練上顯著地變得更深、更精確和擁有更高的效率。在本論文中，我們接受了這一觀察結果，並提出了密集卷積網路（Dense Convolutional Network /DenseNet），這種卷積神經網路以前饋的方式將每一層與其他層相連接起來。由於傳統卷積神經網路 L 層間只有 L 個連接，每一個連接即為當前層和下一層之間的連接，但是 L 層我們這種密集連接型卷積網路有 L(L+1)/2 個直接連接。對於每一層來說，前面所有層神經網路的特徵圖譜（feature-maps）可以作為該層的輸入，而該層自身的特徵圖譜可以作為之後所有的層的級的輸入。DenseNet 有幾個強勁的優點：該卷積網路減緩和梯度消失問題、強化了特徵傳播、支持特徵重用（feature reuse）、並大大降低了參數數量。我們在四個極具競爭力的目標識別基準任務（CIFAR-10、CIFAR-100、SVHN 和 ImageNet）上評估了我們所提出的架構。DenseNet 在大多數任務中都在最佳性能的基礎上有顯著的提升，並且還只需要更少的內存和計算力。

圖 1：A 5 層密集塊（dense block），其中增長率（growth rate）k=4。每一層將前面所有特徵圖譜（feature-maps）作為輸入。

圖 2：帶有三個密集塊（dense block）的深度 DenseNet。兩個相鄰塊之間的層級為轉換層（transition layers），它通過卷積和池化改變特徵圖大小。

表1：對於ImageNet任務的DenseNet架構。前三個網路的增長率（growth rate）k=32，而對於DenseNet-161，k=48。

圖 3. 在 ImageNet 分類數據集中 DenseNet 和 ResNet Top-1（單模型和）的誤差率對比，左圖是和已學習的參數的關係，右圖是和浮點運算次數的關係。

圖 4. 左圖：DenseNet 變化中的參數效率對比。中間： DenseNet-BC（預激活）和 ResNets 的參數效率對比。DenseNet-BC 需要 1/3 的參數來完成類似精度。右圖：1001-層的預激活 ResNet 的訓練和測試曲線，超過 10M 參數，而且一個 100 層的 DenseNet 只有 0.8M 參數。蘋果公司：Learning from Simulated and Unsupervised Images through Adversarial Training

從 CoreML 到自動駕駛汽車，蘋果的新技術探索在形成產品之前通常都會處於接近保密的狀態，直到去年 12 月底，他們才以公司的名義發表了第一篇機器學習領域裡的學術論文，介紹了自己在改善合成圖像質量方面的研究。最近，這家以封閉而聞名的科技巨頭突然宣布將以在線期刊的形式定期發表自己在機器學習方面的研究，該期刊介紹的第一篇論文獲得了此屆 CVPR 的最佳論文獎。論文地址：https://arxiv.org/abs/1612.07828

隨著圖像技術的最新進步，在合成圖像上對模型進行訓練也變得更加易於處理，一定程度上避免了對昂貴標註的需求。然而，由於合成圖像分布和真實圖像分布之間存在差距，從合成圖像中進行學習往往可能不會達到所期望的性能表現。為了減小這一差距，我們提出了模擬+非監督學習方法（Simulated+Unsupervised learning，S+U），任務就是通過使用非標註的真實數據來學習一個模型，從而增強模擬器輸出的真實性，同時保留模擬器中的標註信息。我們開發出了一種 S+U 學習方法，使用類似於生成對抗網路的對抗型網路，用合成圖像作為輸入（而不是隨機向量）。我們對標準 GAN 演算法進行了幾處關鍵性的修改，從而來保存標註，避免失真以及使訓練穩定化：（i）一個「自正則化」項，（ii）一個局部對抗損失（local adversarial loss），以及（iii）使用改善圖像的歷史信息來對鑒別器進行更新。我們通過定性說明和用戶研究，展示出了此結構能夠生成高真實度的圖像。我們通過訓練視線估計（gaze estimation）和手勢估計（hand pose estimation）的模型對生成圖像進行了定量評估。我們在使用合成圖像方面展現出了顯著的提升效果，並且在沒有任何已標註的真實數據的情況下，在 MPIIGaze dataset 數據集上實現了一流的結果。

圖 1. 該任務是藉助非標註的真實數據學習一個模型，從而提高來自模擬器的合成圖像的真實度，同時保留其註解信息。

圖 2. 我們的改善器神經網，R，最大限度地減少了局部對抗性損失函數與一個「自正則化」項（『self-regularization』 term）的結合。對抗性損失函數「愚弄」鑒別器網路，D，後者負責區分一張圖片的真假。自正則化項最小化了合成與改善圖像之間的差別。改善器網路和鑒別器網路交替更新。

圖 3. 局部對抗性損失函數的圖式。鑒別器網路輸出了一個 w × h 概率圖。對抗性損失函數是局部圖像快之間的交叉熵損失之和。

圖4. 使用改善圖像歷史信息。

圖 5.UnityEyes 視線評估數據集在 SimGAN 上的輸出結果樣例。（左）來自 MPIIGaze 的真實圖像。我們的改善器網路在訓練過程中未使用來自 MPIIGaze 數據集的任何標註信息。（右）改善器網路在 UnityEye 上的改善圖像結果。從定性結果上看，改善後的合成圖像的皮膚紋理和虹膜與真實圖像的相似度高於其與合成圖像的相似度。

圖6. 彩色圖像中特徵空間的自正則化

圖7. 基於外觀的視線估計在MPIIGaze真實眼睛圖像數據集上的定量評估結果。上圖顯示了在不同數量的訓練樣本中，誤差度函數與真實的眼睛視線方向對比後的增長曲線。

圖 8. 關於 NYU 手勢的樣本改善測試圖像。（左）真實圖像，（右）合成圖像和精練器網路（refiner network）生成的相應的改善輸出圖像。真實圖像中的噪點主要來源是精練器網路學習的非光滑的深度邊界。

一篇最佳學生論文

以色列理工與多倫多大學：Computational Imaging on the Electric Grid

論文地址：http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf摘要：交流電（AC）照明帶了夜晚的節奏。通過觀察這些節奏，我們發現了新的場景信息，包括場景中的燈泡類型、城市電網的電壓、光傳輸矩陣（light transport matrix）。這些信息提供了反射與半反射的分層、夜間高動態範圍圖像，以及獲取圖像過程中未觀察到的燈泡所在的場景。後者受益於我們收集和提供的多來源燈泡反應函數（bulb response functions）數據集。為了完成實驗目標，我們開發了種新型的編碼曝光高動態範圍（codedexposure high-dynamic-range）圖像技術，該技術專門設計在電網交流照明上。

圖 8：我們的 ACam 系統，它通過基於 DMD 的可編程 mask[26] 結合了 Arduino 和變壓器。

機器之心報道