CV 屆的金雞百花獎: CVPR 2018 創意 TOP10

CV 屆的金雞百花獎: CVPR 2018 創意 TOP10

來自專欄 AI研習社社區88 人贊了文章

本文為雷鋒字幕組編譯的技術博客,原標題 The 10 coolest papers from CVPR 2018 ,作者為 George Seif 。

翻譯 | 程煒 廖穎 校對 | 林驍 整理 | MY

2018 計算機視覺與模式識別會議 (CVPR) 上周在美國鹽湖城舉行,它是世界計算機視覺領域的頂級會議。今年,CVPR 收到了主要會議論文投稿 3300 份,接受了其中的 979 份。超過 6500 人出席了會議!6500 人齊聚一堂:

2018年度CVPR宏偉的會議廳

每年,CVPR 都會帶來傑出的人以及他們偉大的研究,我們總能看到並學習到新的東西。當然,總有些論文發表新的突破性成果並帶來新的知識。這些論文經常為計算機視覺的許多子領域帶來最新技術。

最近,很樂於看到的具有創造性的論文,伴隨著深度學習在計算機視覺領域的突飛猛進,我們仍在探索所有的可能性。許多論文將提出全新的深度網路在視覺上的應用。它們可能不是最根本的、具有突破性的工作,但它們很有趣。它們提供了創造性和啟發性的視野,經常從新的角度引發新的想法。總而言之,它們很酷!

在這裡,我將向你們展示我認為是CVPR 2018中最酷的10篇論文。我們將看到最近才可能使用深度網路的新應用。另外,其他論文提供了一個如何使用它們的新方法。你可以沿著這個方向找到一些新的想法。無需多言,讓我們來看看吧!

利用綜合數據訓練深度網路:通過域隨機化來彌補現實差距

論文地址:arxiv.org/abs/1804.0651

這篇論文來自英偉達 ( NVIDIA )。它在使用合成數據來訓練卷積神經網路 (CNNs) 上獲得長足進步。它為 Unreal Engine 創建了一個插件,用於生成合成的訓練數據。真正的關鍵是它們將訓練數據的變數隨機化,包括:

  • 對象的數量和類型
  • 干擾項的數量、類型、顏色和尺度
  • 感興趣物體的紋理和背景照片
  • 虛擬攝影機相對於場景的位置
  • 攝像機相對於場景的角度
  • 點光源的數量和位置

他們展示了一些大有前途的結果,證明了用合成數據進行預訓練的有效性。這個結果是以前沒有達到。如果你缺少一些重要資源,它可能會對如何生成和使用合成數據有所幫助。

該論文中出現的圖片

WISPE:數碼相機弱監督照片增強器

論文地址:vision.ee.ethz.ch/~ihna

真是機智啊!他們訓練生成對抗網路 (GAN) 來自動美化照片。最酷的部分是它是弱監督的,你不需要輸入-輸出圖像對!你訓練的網路需要的是一組「好看」的圖像(對於輸出的標註圖像)和一組你想要增強的「難看」的圖像(對於輸入圖像)。然後,對 GAN 進行訓練以產生輸入圖像的美化後的版本,通常極大地增強圖像的顏色和對比度。

它是快速並且容易使用的,因為你不需要精確的圖像對,最後你會得到一個「通用」的圖像增強器。我也喜歡這種弱監督的方法。無監督的學習似乎相當遙遠。但是對於計算機視覺中的許多子領域來說,弱監督似乎是一個有前途、有利可圖的方向。

該論文中出現的圖片

Polygon-RNN++ 分割數據集的高效交互標註

論文地址:arxiv.org/abs/1803.0969

深度網路工作得如此好的一個主要原因是有大量和完全注釋的數據集可供使用。然而,對於許多計算機視覺任務來說,這樣的數據既耗時又昂貴。特別是分割數據需要圖像中的每個像素的類標記。正如你所想像的…對於大數據集來說,這個過程可能永遠持續下去!

Polygon-RNN++ 允許用戶在圖片中每個目標周圍設置粗略的多邊形,然後神經網路會自動生成分割標記。這篇論文很好地論述了這種方法,這種方法也可以在分割任務中創建快速、簡單的標記。

該論文中出現的圖片

在時尚大片中創造膠囊衣櫃

論文地址:arxiv.org/abs/1712.0266

我今天應該穿什麼呢? 如果每天早上都有人或東西來回答這個問題而不需要你去想,那該有多好啊。如果想擁有這樣的東西,來認識一下膠囊衣櫃 (Capsule Wardrobes) 吧。

這篇論文作者設計了一個模型,給定一個待選服裝和飾品的清單,膠囊用最少的物品組成物品集,而這個集合可以提供最多的混搭配備。模型使用目標函數進行基本的訓練,而目標函數的設計是用來獲取視覺兼容性、多功能性和用戶特定喜好的關鍵因素。使用膠囊衣櫃,可以輕鬆地從你的衣櫥里找到符合你品位的最佳搭配。

該論文中出現的圖片

Super SloMo:視頻插值中多幅中間幀的高質量估計

論文地址:arxiv.org/abs/1712.0008

你有想過用超級慢動作拍攝一些超級酷的東西嗎? 不妨看看英偉達(Nvdia)的 Super SloMo 吧!他們的卷積神經網路估計出視頻中間幀,並且能夠將標準的 30fps 的視頻轉換為看上去驚人的 240fps 下的慢動作!模型估計幀間光流,使用該模型還可以不影響畫質地插入視頻幀,從而慢鏡頭看上去也是清晰的。

一顆子彈穿過雞蛋,super SloMo!

誰在控制狗? 根據視覺數據對狗的行為建模

論文地址:arxiv.org/abs/1803.1082

這可能是有史以來最酷的研究論文名字!它的思路是嘗試並建模狗的所行所想。作者在狗的四肢安裝了大量的感測器來收集它的運動數據,也在其頭部安裝照相機來獲取狗看世界的第一視角。使用了一組卷積神經網路特徵提取器來提取從視頻幀中得到的圖像中的特徵,然後這些特徵就和感測器數據一起傳到一組長短期記憶網路,來學習和預測狗的行為。這是一個很新穎且具有創造力的應用。這個任務獨特的框架和實現,都讓這篇文章值得一讀!希望這篇文章可以給未來的研究激發創造力,不管是對我們採集數據的方式還是深度學習技術的應用。

該論文中出現的圖片

學習分割一切

論文地址:arxiv.org/abs/1711.1037

最近幾年,何凱明團隊(早先在微軟亞洲研究院,現在在 Facebook 人工智慧研究實驗室)進行了大量的計算機視覺研究。他們文章的厲害之處就在於將創新性與簡潔性有效結合。 ResNets 和 Mask R-CNN 都不是最瘋狂、最複雜的研究思路。它們都非常簡單、易於實現,在實踐中也非常有效。這一篇也是一樣。

學習分割一切是 Mask R-CNN 的擴展,使得神經網路在訓練過程中不看見類也能進行分割! 這對快速、低成本獲取數據集標記十分有效。它可以獲得不可見目標類強大的基準庫分割,這對在野外部署分割神經網路是十分重要的,因為在那樣的環境中,存在著大量的不可見目標類。整體看來,這是我們朝著如何思考最大限度利用深度神經網路模型正確方向走了一步。

該論文中出現的圖片

在筆記本上親臨球賽

論文地址:arxiv.org/abs/1806.0089

在世界盃進行之際,這篇論文的發布可以獲得最佳時機獎了!這真的是 CVPR 計算機視覺里比較酷的應用之一。簡單地說,給定一個足球比賽視頻能夠輸出比賽的三維動態重建,從而訓練模型。這就意味著你可以使用增強現實技術在任何地方觀看這場比賽!

模型比較機智的地方在於不同類型信息的結合使用。使用視頻比賽數據訓練網路,根據這些數據可以非常輕易地提取三維網格。測試時,運動員的邊界框、姿態和軌跡(在多幀之間)被提取來對其進行分割。 這些三維分割可以簡單地投影到任意空間(這樣你就可以任意製作虛擬球場)實現增強現實的足球比賽觀看!在我看來,使用合成數據來訓練時很聰明的做法,同樣也是很有趣的應用!

該論文中出現的圖片

LayoutNet:從單幅彩色圖像實現房間布局的三維建模

論文地址:arxiv.org/abs/1803.0899

我們中大多數有都有過這樣的想法:給某個東西拍張照片,然後在數字三維對其進行重建 。這篇論文就是一個計算機視覺的應用,也正好是來實現這個想法的,尤其是對房間的三維重建。他們將全景圖像作為輸入來獲得房間的整個視野,輸出就是一個非常精確的三維重建的房間布局!這個模型有足夠的能力來生成不同形狀的房間,房間中可以包含許多不同的家居擺設。這個應用非常有趣,不用看大量計算機視覺研究員的工作,可以很好地閱讀。

該論文中出現的圖片

學習轉換架構實現可擴展圖像識別

論文地址:arxiv.org/abs/1707.0701

最後但也重要的就是關於深度學習的未來的思考:神經架構搜索 (NAS)。 NAS 背後的基本思想是取代手動設計網路架構,我們可以採用另外的神經網路來 「搜索」最好的模型結構。這個搜索基於回報函數,是很聰明的。回報函數對那些在驗證數據集上表現良好的模型進行獎勵。作者在文中展示了一個比手動設計更加精確的架構。這在未來是有很大發展空間的,尤其是特定應用的設計。因為我們只需要將全部精力放在設計好手動設計 NAS 演算法,而不是為我們特定的應用設計特定的網路。一個良好設計大的 NAS 演算法是足夠靈活的,可以為任意特定任務找到好的網路。

該論文中出現的圖片

總結

感謝你的閱讀!真心希望你學到新穎有用的知識,有朝一日可能將其中一些用到你自己的工作當中。如果你喜歡我們的內容,請給我們點贊吧,讓更多的人看到這個海報,和我們一起加入學習之旅吧!

原文鏈接:

towardsdatascience.com/

號外號外~

一個專註於

AI技術發展和AI工程師成長的求知求職社區

誕生啦!

歡迎大家訪問以下鏈接或者掃碼體驗

https://club.leiphone.com/page/home?

club.leiphone.com

club.leiphone.com/page/ (二維碼自動識別)

推薦閱讀:

語義分割 | 發展綜述
學習深度學習的四個步驟
機器學習演算法模型五要素
Valse2018參會小結——生成對抗網路系列1

TAG:機器學習 | 深度學習DeepLearning | 計算機視覺 |