[計算機視覺論文速遞] 2018-05-16

05-24

來自專欄計算機視覺論文速遞

導言

這篇文章有4篇論文速遞信息，涉及單目圖像深度估計、6-DoF跟蹤、圖像合成和動作捕捉等方向（含1篇CVPR 2018論文和1篇ICRA 2018論文）。

CVer

編輯: Amusi

校稿: Amusi

題外話（重磅福利）

關注CVer的童鞋應該都知道，CVer平台的特點是論文速遞，旨在整理與計算機視覺/深度學習/機器學習方向相關的最新論文。近期有童鞋反映，看了論文，腦中存在點印象，需要去CVer公眾號上再翻閱再查找，有時候還會找不到。包括Amusi自己在內，也經常遇到這類問題（自己整理，自己都會忘記出處）。

為了解決這個問題，Amusi想到了實(zhuang)用(bi) 神器GitHub，所以Amusi將日常整理的論文都會同步發布到 daily-paper-computer-vision上。名字有點露骨，還請見諒。喜歡的童鞋，歡迎star、fork和pull。直接點擊下述鏈接即可訪問daily-paper-computer-vision。

amusi/daily-paper-computer-vision?

github.com

Depth Estimation

2018 arXiv

《Dual CNN Models for Unsupervised Monocular Depth Estimation》

Abstract：立體視覺中的深度估計問題已經取得了很多進展。雖然通過利用監督深度學習的深度估計來觀察到非常令人滿意的表現。這種方法需要大量的標定好的真實數據（ground truth）以及深度圖，這些圖準備非常費時費力，並且很多時候在實際情況下不可用。因此，無監督深度估計是利用雙目立體圖像擺脫深度圖ground truth的最新方法。在無監督深度計算中，通過基於極線幾何約束（epipolar geometry constraints）以圖像重構損失對CNN進行訓練來生成視差圖像。需要解決使用CNN的有效方法以及調查該問題的更好的損失（loss）。在本文中，提出了一種基於雙重（dual）CNN的模型，用於無監督深度估計，每個視圖具有6個損失（DNM6）和單個CNN，以生成相應的視差圖。所提出的雙CNN模型也通過利用交叉差異擴大了12個損失（DNM12）。所提出的DNM6和DNM12模型在KITTI駕駛和Cityscapes城市資料庫上進行了試驗，並與最近最先進的無監督深度估計結果進行了比較。

arXiv：https://arxiv.org/abs/1804.06324

github：

https://github.com/ishmav16/Dual-CNN-Models-for-Unsupervised-Monocular-Depth-Estimation/tree/master/DNM6

註：無監督學習，厲害了！

6-DoF Tracking

2018 arXiv

《Egocentric 6-DoF Tracking of Small Handheld Objects》

Abstract：虛擬和增強現實技術在過去幾年中有了顯著性增長。這種系統的關鍵部分是能夠在3D空間中跟蹤頭戴式顯示器和控制器的姿態。我們從自我中心相機（egocentric camera perspectives）的角度解決了手持式控制器高效的6-DoF跟蹤問題。我們收集了HMD控制器數據集，該數據集由超過540,000個立體圖像對組成，標記有手持控制器的完整6-DoF姿態我們提出的SSD-AF-Stereo3D模型在3D關鍵點預測中實現33.5毫米的平均平均誤差，並與控制器上的IMU感測器結合使用，以實現6-DoF跟蹤。我們還介紹了基於模型的完整6-DoF跟蹤方法的結果。我們的所有型號都受到實時移動CPU inference的嚴格限制。

arXiv：https://arxiv.org/abs/1804.05870

Image Synthesis

《Geometry-aware Deep Network for Single-Image Novel View Synthesis》

CVPR 2018

Abstract：本文從單個圖像解決了新穎視圖合成的問題。特別是，我們針對的是具有豐富幾何結構的真實場景，這是一個具有挑戰性的任務，因為這些場景的外觀變化很大，並且缺乏簡單的3D模型來表示它們。現代的，基於學習的方法主要集中於外觀來合成新穎的視圖，因此傾向於產生與底層場景結構不一致的預測。相反，在本文中，我們建議利用場景的三維幾何來合成一種新穎的視圖。具體而言，我們通過固定數量的平面逼近真實世界的場景，並學習預測一組單應性（homographies）及其相應的區域蒙版/掩膜（masks），以將輸入圖像轉換為新穎視圖。為此，我們開發了一個新的區域感知型幾何變換網路（region-aware geometric transform network），在一個通用框架中執行這些多任務。我們在戶外KITTI和室內ScanNet數據集上的結果證明了我們網路在生成場景幾何的高質量合成視圖方面的有效性，從而超越了最先進的方法。

arXiv：https://arxiv.org/abs/1804.06008

Motion Capture

ICRA 2018

《Human Motion Capture Using a Drone》

Abstract：目前的動作捕捉（MoCap）系統通常需要標記和多個校準攝像頭，這些攝像頭只能在受限環境中使用。在這項工作中，我們介紹了一款基於無人機的3D人體模型系統。該系統只需要具有自主飛行無人機和板載RGB相機，並可用於各種室內和室外環境。重建演算法被開發用於從無人機記錄的視頻恢復全身運動。我們認為，除了跟蹤移動主體的能力之外，飛行無人機還提供快速變化的視點，這對於運動重建是有益的。我們使用我們新的DroCap數據集評估擬議系統的準確性，並使用消費無人機在野外證明其適用。

arXiv：https://arxiv.org/abs/1804.06112

github：https://github.com/daniilidis-group/drocap

註：腦洞好大的研究，很cool

推薦文章

[1] GitHub：目標檢測最全論文集錦

[2] 重磅 | 吳恩達的機器學習書籍又雙叒更新啦！

[3] 重磅：TensorFlow實現YOLOv3（內含福利）

[4] [計算機視覺論文速遞] 2018-05-10

-------我是可愛的分割線-------

若喜歡Amusi推送的文章，請掃描下方二維碼關注CVer公眾號！

http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)

-------我還是可愛的分割線-------

喜歡CVer的文章，記得點贊哦！

amusi/daily-paper-computer-vision?

TAG:機器學習 | 計算機視覺 | 深度學習DeepLearning |