CVPR 2016 有什麼值得關注的亮點?


最後更新

歡迎移步我的知乎專欄:知乎專欄,在專欄里對今年會議中目標檢測的工作進行了更詳細的總結和論述。

更新2

CNN遍地開花,傳統方法很冷清

CNN RNN結合的文章越來多,但如何聯合訓練仍然有待進一步解決

有人在致力於挖新坑,老坑越來越難填

Face2face很酷炫

創業公司很多,到處是華人身影

拉斯維加斯很適合出來玩

伙食太差,吃不飽

在CVPR會場更新

ResNet獲得了best paper.

這個題目被邀請真是受寵若驚。我關注的方向是2D圖像檢測和識別,其實這個方向更新比較快,很多文章在早就在Arxiv上掛出來了。說亮點的話還是等開完會吧。

說幾個感覺比較好的工作(排名不分前後),隨時更新。。。

1. Deep Residual Learning for Image Recognition

這是kaiming組那篇影響力很大的文章,不用說了

2. You Only Look Once: Unified, Real-Time Object Detection

YOLO用純CNN來做檢測,可以達到實時的效果,雖然今年SSD的效果做的好很多,但YOLO確實起到了先驅的作用。另,一作貌似是一個傳奇人物。

3. Training Region-Based Object Detectors With Online Hard Example Mining

這個工作比較新,他提供了在F-RCNN的框架下,在訓練過程中如何對樣本進行選擇的一種解決方案。而且確實work。

4. Accurate Image Super-Resolution Using Very Deep Convolutional Networks

這是做超解析度重建的一篇文章,主要的創新點在於在網路的最後用原圖來輔助重建,有點殘差網的意思,當然效果也很好。

5. Inside-Outside Net: Detecting Objects in Context With Skip Pooling and Recurrent Neural Networks

在F-RCNN的框架下如何對特徵進行增強,文章主要考慮了multi-layer fusion和context信息。

6. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

通過對CNN的多層特徵進行融合提高定位準確性,利用類似於Faster-RCNN的方式進行目標檢測

7. Exploit All the Layers: Fast and Accurate CNN Object Detector With Scale Dependent Pooling and Cascaded Rejection Classifiers.

通過在CNN的多層建立級聯分類器來抑制負樣本(在目標檢測中對負樣本進行合理抑制起到了關鍵作用)


花了幾天時間,看了絕大部分的oral論文和部分的spotlight論文。總結如下。個人是CG方面出身,CV有做過,但是還在深度學習。有不對的地方,請諸位大神斧正。

cvpr 16在研究方法上,仍然是以深度學習為主比如cnn
nnlstm,幾乎所有的論文都有用到,同時也和其他傳統的人工智慧方法或計算機視覺方法相結合,比如svm,決策樹,基於貝葉斯的推論,或者人工選擇的特徵點或者光流法。比如論文《Learning to Assign Orientations to Feature Points》用cnn來輔助sift特徵點中的orientation的判斷,從而在視角變化大的情況下,仍然可以得到較多的匹配點;論文《The Global Patch Collider》是用決策樹的方法來做dense下的patch匹配;論文《Joint
Probabilistic Matching Using m-Best Solutions》引入了傳統計算機視覺方法中聯合概率分布匹配的方法取得全局下的整體的最優匹配,而不是各個特徵點或patch的匹配;論文《Layered Scene Decomposition via the Occlusion-CRF》使用了condition
random field的方法處理遮擋問題或者預測被遮擋處的圖像;論文《Three-Dimensional Object Detection and Layout Prediction Using
Clouds of Oriented Gradients》結合了傳統的svm的方法;論文《Contour detection in unstructured 3D point clouds》結合了傳統的MRF方法;論文《Learning
to Select Pre-trained Deep Representations with Bayesian Evidence Framework》使用Bayesian的方法。

還有一些論文是採用了和CG技術結合的方法。比如,論文《Learning Dense Correspondence via 3D-guided Cycle Consistency》使用CAD模型和dense方法來做feature點的匹配,在模型存在較大的光線和視角變化時,仍然得到較好的匹配,同樣,論文《Face Alignment Across Large Poses: A 3D Solution》也構建了臉部模型,從而在人頭部側過去,只有半邊面的時候,仍然可以進行匹配跟蹤。《Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences
for Action Recognition》則利用了mocap庫中的骨骼的三維位置信息。《End-to-End Learning of Deformable Mixture of Parts and Deep
Convolutional Neural Networks for Human Pose Estimation》考慮到了身體各個部分之間的限制。論文《Pairwise Decomposition of Image Sequences for Active Multi-View
Recognition》使用了三維模型的多角度的渲染圖像。

從研究方向來看,包括image的cnn或深度學習方法、圖像的segmentation、識別或標記、三維重建、邊緣檢測、語義分析、優質訓練集生成、視頻中動作的語義分析和預測、attribute(屬性)或zero-shot(根據之前訓練過的屬性標記通過語言描述來識別新的物體)問題、圖像去噪或去模糊、圖像或深度信息的新的獲取方法,以及一些新的研究或應用方向。下面逐個概括介紹。

針對深度學習方面本身,最重要的論文恐怕非《Deep Residual Learning for Image Recognition》莫屬,它使用真實數據和擬合數據之間的差異,而非直接擬合,從而解決了cnn方法中隨著層數增加到一定程度後,再增加層數,反而誤差增大的問題,從而收斂速度更快、精度更高。另一篇重要論文是《Deeply-Recursive Convolutional Network for Image Super-Resolution》,它使用recursive-supervision和skip-connection來避免DRCN中會出現的梯度消失或爆炸問題。《Learning to Select Pre-trained Deep Representations with Bayesian
Evidence Framework》使用Bayesian和least squares SVM的方法來從預先訓練的cnn模型中挑選適合的模型,或者混合使用多個cnn模型。論文《Neural module networks》,用一個語義解析器(natural language parser)來動態的決定和組合CNN網路。論文《Stacked
Attention Networks for Image Question Answering》是逐層推進,一步一步剔除不相關區域,最終獲得全局的最優解

圖像segmentation方面,也有新的進展。論文《Hierarchically Gated Deep Networks for Semantic Segmentation》在上一層的節點上,設置memory
state,來記住周邊的背景信息,在從下層到上層的信息傳導中僅讓具有相似背景的信息通過,從而獲得更加精細的segmentation。論文《Instance-Aware Semantic Segmentation》精確到像素或patch級別的類別劃分,可以對存在多個同類物體的圖像進行處理。對於數據集的cluster方面,《Closed-Form Training of Mahalanobis Distance for Supervised
Clustering》通過訓練的方式獲得predict函數,然後利用k-means的方法來處理cluster問題。

在物體識別方面,論文《You Only Look Once: Unified, Real-Time Object Detection》取得的效率同樣令人驚嘆,改進了faster r-cnn方法,它的增強版本使用GPU跑到45fps,簡化版也可以達到155fps的識別速度。論文《LocNet: Improving Localization Accuracy for Object Detection》則提高了識別的位置的精確度,通過在bounding box內部對patch或者superpixel計算類別標籤的概率。論文《Sketch Me That Shoe》以人的手繪結構圖作為輸入,從中提取信息,來匹配或查詢真實照片中的物體,不再是識別中常用的物體名或屬性名。論文《Three-Dimensional Object Detection and Layout Prediction Using
Clouds of Oriented Gradients》使用cloud of oriented gradient (COG) 特徵來描述三維物體,不同於HOG特徵,它是viewport
invariant(視角不變)的,最後用svm來獲得物體的bbox,方向,大小等信息,可以得到物體在照片中的三維位置信息。

三維重建方面,《SVBRDF-Invariant Shape and Reflectance Estimation from Light-Field
Cameras》使用光場相機,利用diffuse加一個lobe的space variant BRDF的模型,建立normal和深度之間的關係,從一張含有高光反射物體的照片中獲得物體的深度信息和BRDF模型。《Structured Prediction of Unobserved Voxels From a Single Depth Image》認為物體是有簡單的幾何形狀組合而成的,以此來進行訓練,可以根據單張深度圖片來推測不可見部分。《Efficient 3D Room Shape Recovery From a Single Panorama》則將圖像中的線或superpixels作為頂點,他們之間的幾何關聯作為邊,然後利用constraint graph的方法來進行三維重建。《High-quality Depth from Uncalibrated Small Motion Clip》主要是解決了之前微小攝像機姿態變化下深度估計誤差大的問題,使用harris corner作為feature點,使用KLT方法在連續幀之間進行跟蹤,然後倒數方式表示深度信息,利用bundle adjustment方法估計相機的內部參數,最後利用plane sweeping的方法來估計深度信息,並做了去噪優化,最後從一個短的變化較小的視頻中得到較為精確的場景的三維深度信息,缺陷是沒有考慮遮擋問題,這個方法也可以用來對圖片重新聚焦。

邊緣檢測領域。論文《Contour detection in unstructured 3D point clouds》利用相鄰區域的特徵來預測邊緣的概率,然後利用二元分類器在MRF基礎上選擇最優的連續的邊緣,從而能夠從從unstructed的點雲中發現邊緣。論文《Unsupervised Learning of Edges》用光流法得到motion edges,使用非監督方法和semi-dense匹配來訓練edge探測器,再將探測結果反饋回光流法,以此循環得到較好的邊緣。

在對圖像的語義分析方面,論文《Deep Structured Scene Parsing by learningning with Image Descriptions》使用cnn分析圖像的特徵以便分類,然後用rnn分析各類物體之間語義關係,最終得到對圖像的語義描述,例如一個男孩坐在椅子上,拿著一本書。論文《DenseCap: Fully Convolutional Localization Networks for Dense
Captioning》更進一步,利用cnn來識別,然後利用類似faster r-cnn的方法對圖像中的物體進行分類,最後利用rnn訓練的語言模型進行描述,在單張圖片中得到多個物體之間關係的詳盡描述。論文《CNN-RNN: A Unified Framework for Multi-label Image Classification》也同樣採用了cnn結合rnn的網路結構,用來處理對圖像的多個標記問題。論文《Natural Language Object Retrieval》以人類語言作為輸入,通過cnn和rnn在圖像中查詢要找的物體。

關於訓練集方面,論文《Training Region-Based Object Detectors With Online Hard Example
Mining》發明了一種選擇器,來挑選faster r-cnn方法中的那些比較難識別的對象,以此來獲得比如mini-batch或SGD更好的訓練結果和收斂速度。

通過視頻對人類動作進行捕捉或分析是一個大方向。論文《Personalizing Human Video Pose Estimation》假設在視頻中的人不會變換穿著,使用圖像特徵匹配對間隔多幀的圖像進行匹配跟蹤,使用光流法來對連續幀進行跟蹤,並對圖像中的遮擋問題進行了處理,從而對一段視頻中的單個人的骨骼骨骼進行穩定的捕捉,跟蹤的結果相當不錯。《End-to-End Learning of Deformable Mixture of Parts and Deep
Convolutional Neural Networks for Human Pose Estimation》考慮到了身體各個部分之間的限制,訓練中在各個節點之間傳送信息,從而得到更準確的節點(各個關節)的位置,結果也相當不錯。《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your
Data Is Continuous and Weakly Labelled》所獲得手部動作也非常棒。《Temporally
Coherent 4D Reconstruction of Complex Dynamic Scenes》使用多個普通攝像機(5個左右)錄製的視頻,分析sparse特徵點,在不同視角之間進行wide-baseline的匹配,以及時間相關性的匹配,最後利用一種新的融合方法,以特徵點為中心獲得準確的dense模型,並在隨後的時間裡不斷對dense模型進行精細化或者添加之前被遮擋的部分,效果可以非常不錯的跟蹤,而且允許人物有穿戴帽子裙子,且不需要事先對環境進行掃描。《Face2Face: Real-Time Face Capture and Reenactment of RGB Videos》是另外一篇明星論文,可以做到實時的人物面部捕捉,和對視頻中目標人物的動畫替換。論文《3D Action Recognition from Novel Viewpoints》利用k-means方法從mocap庫得到的339個姿態,然後將多個深度攝像頭的圖像用cnn處理後結合Fourier Temporal Pyramid方法來解析動作,與mocap庫得到姿態庫進行對比,獲得view-invariant的姿態識別。論文《Dense
Human Body Correspondences Using Convolutional Networks》使用cnn網路得到learned
discriptor(訓練特徵,非人工選擇的特徵),為了解決空間上靠近的特徵點在特徵空間中距離較遠的問題,使用了multi-segmentation,鄰近區域交叉聯合訓練的方法,能夠允許人物戴帽子或者穿裙子。《Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences
for Action Recognition》利用mocap中的骨骼運動數據解決視頻錄像分析時存在的攝像機移動、無時間信息或沒有label和訓練集少等問題,通過分別對視頻和骨骼做lstm分析,然後兩個互相對照來給運動加標記。

另一類視頻中的動作分析,是對動作進行語義分析或者預測。《Unsupervised Learning from Narrated Instruction Videos》利用給文字和視頻圖像聚類的方法,通過訓練,可以自動在教學視頻中,找到關鍵步驟並匹配文字。《Anticipating Visual Representations with Unlabeled Video》使用非標記的視頻來預測人類動作的目的或含義以及下一時刻的動作,但仍然有很長的路要走。《Video Paragraph Captioning Using Hierarchical Recurrent Neural
Networks》利用rnn從單幀畫面生成句子,然後利用另一個rnn網路從連續幀中生成描述性的段落。《Jointly Modeling Embedding and Translation to Bridge Video and
Language》利用cnn進行圖像分析,然後加入相關性和一致性分析,從視頻中獲得正確的句子,可以取得30-40%的成功率,比如一開始是一個女的在騎馬,後來畫面中出現了一個男的,然後男的又從畫面中消失,可以得出是女士在騎馬,而不是男人在騎馬。《Structural-RNN: Deep Learning on Spatio-Temporal Graphs》則是結合Spatio-Temporal
Graphs方法和rnn的方法來預測人體的運動等時序事件。

研究attribute的論文有《One-Shot Learning of Scene Locations via Feature Trajectory Transfer》,將屬性進行了分類,是否是短暫或臨時的等,比如陰天環境下的帽子,陰天就是一個暫時性的屬性。論文《Learning Attributes Equals Multi-Source Domain Generalization》則認為存在一些屬性在多個標籤類之間是共通的,比如毛茸茸,對於鳥和貓都是,所以他們採用了Multi-Source Domain Generalization方法來學習這種類別之間共通的屬性。

關於從模糊圖片得到更清晰更大圖片,論文《Accurate Image Super-Resolution Using Very Deep Convolutional
Networks》嘗試了深度學習。

還有一些論文是關於新的探測方法或者處理方法,與硬體結合緊密。例如,論文《HyperDepth: Learning Depth from Structured Light Without Matching》可以用在對realsense或者Kinect的深度信息進行處理,並行化高效去除alias或噪點;論文《Simultaneous Optical Flow and Intensity Estimation from an Event
Camera》使用了event camera得到的亮度信息變化作為視頻採集信息,進行光流法或者而不是傳統的逐幀的RGB圖像,一方面降低了碼率,另一方面可以得到不錯的光流結果,尤其在快速運動存在運動模糊的情況下。論文《Macroscopic Interferometry: Rethinking Depth Estimation With
Frequency-Domain Time-Of-Flight》的方法更神奇,通過分析光的頻率變化來獲得場景中的深度信息。論文《ASP Vision: Optically Computing the First Layer of Convolutional
Neural Networks Using Angle Sensitive Pixels》使用仿生學的方法,用Angle
Sensitive Pixels (ASPs)作為cnn中的輸入,減少了圖像採集的能耗,降低了圖像感測器到cpu的帶寬需求。再比如論文《Dynamic Image Networks for Action Recognition》對視頻中的RGB圖像進行rank
pooling處理,以此作為cnn的輸入。另外,《SVBRDF-Invariant Shape and Reflectance Estimation from Light-Field
Cameras》也嘗試了光場相機進行深度信息的捕捉。

除了以上各個類別外,也出現了一些新的研究方向或應用,比如論文《Walk and Learn: Facial Attribute Representation Learning From
Egocentric Video and Contextual Data》用cnn來分析行人的自拍視頻,預測天氣或者穿戴等特徵;《Self-Adaptive Matrix Completion for Heart Rate Estimation From Face
Videos Under Realistic Conditions》通過面部錄像分析心跳速率;論文《Recurrent Face Aging》可以預測一個人在不同年齡時的相貌。《Pairwise Decomposition of Image Sequences for Active Multi-View
Recognition》使用三維模型的不同視角下渲染的圖片,將相近的視角的渲染圖片作為一組,進行cnn訓練,再將多組訓練的結果與虛擬攝像機的旋轉角度結合做cnn訓練,不僅能識別不同視角下的物體,而且可以得到優化的攝像機軌跡。《Egocentric Future Localization》利用立體圖像,感知周圍的環境,通過深度學習的方法對行進中第一視角拍攝的視頻進行分析,學習避開障礙物和其他物體,比如旁邊走動的人,規劃未來的行走路線。《Learning Online Smooth Predictors for Realtime Camera Planning》可以預測攝像機的運動軌跡,從而使焦點角色始終在畫框中央,可以用在實時的賽事轉播中。

總而言之,論文數量眾多,但是接近實際應用的,穩定準確的方法並不多,不過部分論文的效果非常震撼,比如對人動作的捕捉,深度信息的捕獲,以及穩定的人手的姿態,和實時的臉部置換。


寫了個爬蟲,爬了所有論文,並且按照網站下面的分了類別……

cvpr2016_已分類.zip_免費高速下載

-----------------我是分割線

有人要了爬取的代碼一併給了....

GitHub - zhengxiawu/scrap-cvpr2016


我來賣一下自己的文章,CVPR 2016的Oral,不過跟其它文章比起來很非主流。

arxiv.org/abs/1605.03621

簡單來說是用光學來做CNN的第一層.


大家好,來安利下我的paper:

Fast Zero-Shot Image Tagging

這篇paper提出了zero-shot tagging,也就是如何向query image標註訓練集裡面沒有出現過的image tag的問題。和之前的zero-shot classification不一樣的是,我們的方法可以向一張圖片標註多個unseen的標籤。

比如這張圖片,

我們的模型對其的tag prediction是

注意這五個詞是我們的模型從四千個沒有在訓練集裡面出現的詞裡面選出來的哦!而且模型不僅在zero-shot tagging上表現很好,在傳統tagging問題上也表現非常好。模型也可以推廣到任何的ranking problem上面:)code會在今年9月之前release(想要提前使用code的可以來信哦)。


想一次下載所有paper的話,一條命令就夠了

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.cv-foundation.org/openaccess/CVPR2016.py


CVPR悲劇了...sad...關注了一下同方向的論文,說幾篇比較感興趣的。

Sparseness Meets Deepness: 3D Human Pose
Estimation from Monocular Video

對於二維關節點未知的情況,輸入圖像序列,基於CNN的heat map檢測出二維關節點的位置範圍,結合三維姿態字典,通過EM algorithm恢復出三維姿態序列。

A Dual-Source Approach for 3D Pose
Estimation from a Single Image

一個dual-stream的三維姿態估計方法,訓練數據分別是帶標記點的二維圖像和三維動作捕捉數據。

Direct Prediction of 3D Body Poses from
Motion Compensated Sequences

3D pose recovery通常會先逐幀計算出可能的pose,然後在後續過程中消除歧義。這篇論文中的工作則是直接從spatio-temporal volume中得到三維姿態。

Personalizing Human Video Pose Estimation

亮點在於Personalization,其實就是提出了一個遮擋感知自評價模型。在已有的一般方法得到的姿態估計結果基礎上,初始化annotation,再做空間匹配,時間傳播,然後進行自我評估,剔除誤差大的結果,迭代得到annotations,拿去訓練personalized pose estimator。

求個簽,坐等ECCV結果announce。。。


所有論文集合:CVPR 2016 Open Access Repository


說句題外話。

最近幾天在幫導師整理CVPR 2016、2015兩年的文章,發現視覺領域真的被華人給玩壞了~

這兩年CVPR的文章里有一半左右第一作者是華人(根據姓名判斷)。15年第一作者單位是陸港澳台科研機構的文章有121篇,16年有124篇,果真是人多力量大 啊^_^

如果有視覺領域的資深人士梳理一下為啥在華人這個領域進步這麼大,相信對其他領域的追趕會有很好的借鑒意義。


Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled


這個問題關注了那麼久都沒有新的回答,連我這個伸手黨+拖延症懶癌都看不下去了。組會deadline在即,來分享一下我這個學渣的筆記,如有錯誤,歡迎指正。

先上官方分類的地址:Cvpr2016

看ls諸位關注的多是檢測、特徵,以及一些奇奇怪怪的深度學習演算法,還有一些在炫自己文章的(並且驚現本科同學,好吧,你們都是大神)。

而我是專註於做一些「沒有用」的東西,所以下面的文章大多數都是與照片風格化之類藝術方向相關的。

  • Image Style Transfer Using Convolutional Neural Networks

這一篇,不用我介紹了,從去年夏天開始就火的一塌糊塗,今年移植到移動端,更是紅遍大街小巷,這個世界一半的人在玩小精靈,另一半在玩prisma。主要思路就是基於CNN搞了個深度神經網路。至於結果嘛,自己下個prisma去體驗吧。目前prisma上面還沒有自己上傳引導圖的功能。這個網站上有。不過略貴。

  • Combining Markov Random Fields and Convolutional Neural Networks for

    Image Synthesis

這篇文章是一篇SPOTLIGHT,介於oral和poster之間的水準,做的東西跟prisma有點像。就是合成兩張圖。

比如,你可以知道,把兩隻狗雜交大概得到什麼

當然,結果不盡完美。這是論文里失敗的例子。再比如,之前微博上大熱的cindy和天天的孩子長啥樣。不用再手繪啦,輸入程序就能搞定。

  • Face2Face: Real-Time Face Capture and Reenactment of RGB Videos

樓上有人提到了呢,從人臉到人臉,可以實時。7月出去玩的時候,看到過類似的東西,但不是斯坦福做的,這個idea不算新,但能做到實時確實很厲害。記得很久之前,在萬能的從網看到過類似的demo視頻,那個視頻是把人臉放到狗臉上。

網址在這裡:Face2Face: Real-time Face Capture and Reenactment of RGB Videos

  • Convolutional Sketch Inversion

這篇文章講的是,輸入一張骨架圖片,通過神經網路,輸出一張photorealistic 圖片。

如果是骨架是直接從groundtruth里提取的,那麼效果幾乎就是完美

然而,實際刑偵中,肯定是輸入手繪啦。效果嘛,如圖所示:

比較好玩的應用:梵高到底長啥樣,是不是一隻耳?!(好像誤入了奇怪的東東)

  • Composition-preserving Deep Photo Aesthetics Assessment

基於CNN的圖片質量評價,這是一篇poster,來自於業界大佬Adobe。這個質量主要指的是攝影「質量」那個「質量」。看結果你就懂啦:

  • Context

    Encoders: Feature Learning by Inpainting

這是一篇做圖像修復的文章,來源於加州伯克利,同樣是基於CNN,裡面有語義分析的部分。除了修復,文章提出了一個主要的思路是,基於上下文的編碼。當然啦,這個上下文編碼主要的應用就是修復啦。功能類似於photoshop里的上下文填充。喏,這裡有跟adobe的對比。

大部分結果還是OK的。

這篇文章的好處是,有github代碼。

所有的資料都在這裡啦:https://people.eecs.berkeley.edu/~pathak/context_encoder/


Face2Face: Real-time Face Capture and Reenactment of RGB Videos


乾貨答案留給學霸們來答,學渣說個不那麼有用的點: 女性在CV界的春天到了!

––––––––––––

具體情況是今天參加歡迎儀式,第一個講話的來自UCB的老奶奶上來就說以前女性怎麼被歧視,很少有傑出的女性計算機科學家,然後看了眼今年chair的列表,發現general chair 3個人都是女性,program chair 4個人還全是女性,整個http://cvpr2016.thecvf.com/organizers這一頁的各種chair就沒幾個男的,然後早上還有個workshop的題目與視覺基本沒太大關係叫做Women in Computer Vision!

嗯,所以我的結論也不是什麼男女不平等神馬的,而是。。。。。。美女們趕緊來做CV吧哈哈哈!!!


在此推薦一篇CVPR2016中的關於計算機視覺的論文代碼合集,歡迎查看。

乾貨福利:CVPR2016代碼合集


這個微博在導讀cvpr16深度學習方面的論文 http://weibo.com/u/1113268781


所有的論文都在這裡:CVPR 2016 Open Access Repository

大致略看了下題目,learning和3D相關的佔了大多,learning的最多,還有一些少數的segmentation,pose estimation,calibration等


This is a good question. Actually, a guy named Samarth Brahmbhatt, Computer Vision PhD student, has fully answered this question. Now I repost here.

====================================

Good question! I"ll try to answer by clubbing the papers in themes. The papers will probably be biased towards areas that I"m interested in (recognition, matching, use of synthetic data, robotics). I did not attend the conference, so I will most certainly have missed out some interesting papers whose title/abstract I did not find 『catchy』 enough. I』ve noticed that many of these are different from the ones Zeeshan Zia has mentioned, so hopefully that gives you a more extensive sampling of the proceedings. Here goes:

  • Smart ways of supervising the learning algorithm: This covers use of synthetic data and novel ways of finding weak supervision from abundantly available data that is annotated in some other (usually much simpler) space than the output of the algorithm.
    1. Learning Dense Correspondence via 3D-guided Cycle Consistency [1]: they learn to correspond points on an object rendered from two different viewpoints. Since direct annotated training data for this task is very expensive, they first find a 3D model corresponding to the two images, and render it at the two viewpoints. The supervision for fine tuning the flow prediction network comes from the fact that the flow(rendering 1 -&> image 1) + flow (image 1 -&> image 2) + flow(image 2 -&> rendering 2) must equal flow(rendering 1 -&> rendering 2), which is known with high accuracy from the rendering engine. The network is initialized B making it mimic the output of SiftFlow between pairs of images of the same object at different viewpoints.
    2. Learning with side information through modality hallucination [2]: this is a REALLY COOL paper, and I think the idea is very creative. It is about improving RGB object detection by using a combination of normal RGB and hallucinated features. The hallucinated features are constrained to be like the features a net would have come up with, if it"s input were a different modality,e.g. depth. The hallucinated features for the depth modality are trained using a small dataset which has both RGB and depth (NYUv2). The combination of features is shown to outperform just RGB features on not just the NYUv2 dataset, but also a dataset for which depth information is not available, Pascal VOC 2007. In addition, the paper is also very well written and provides a good template for writing a vision paper.
    3. We don"t need no bounding-boxes: Training object class detectors using only human verification [3]: This paper shows how iterating between re-training the detector, re-localizing objects in the training images, and human verification can lead to comparable object detectors and localizers, with significantly less annotation effort.
    4. Newtonian Scene Understanding: Unfolding the Dynamics of Objects in Static Images [4]: They deal with the problem of predicting the motion and force of a specified object in a single RGB image. It is quite intelligent how they are able to leverage training data in the form of videos of objects moving in a physics-based rendering engine (which they call Newtonian scenario). Their network is able to associate a given RGB image with the correct time-step in one of the 12 Newtonian scenarios. Given this association, they grab the physics from the Newtonian scenario and predict the motion and forces in the RGB image. Very cool!
    5. [8]: See section on 『Cool new problems』 for a description of how they get lots of high-quality labelled eye-tracking data from just a cellphone app.
  • Object detection: The ever-green vision problem that needs no introduction.
    1. Training region based object detectors with online hard example mining [5]: This is a simple yet powerful extension of the Fast R-CNN object detector, which solves the problem of composing the minibatch of ROIs for SGD update. Essentially, they forward-pass all ROIs (which is not as bad as it sounds, because a lot of the computation is shared in the form of the conv feature map computation), and then choose the top-k ROIs according to loss. This is nice, because if an image has a super-easy object instance, the network can be updated using just hard negatives in that iteration.
    2. Deep residual learning for object recognition [6]: I don"t think I need to describe this paper!
  • Cool new problems: Deep networks, large datasets and clever ways of using synthetic data that is fully labelled by construction, and of course creativity - all these have enabled researchers to tackle some new exciting problems!
    1. Learning Action Maps of Large Environments via First Person Vision [7]: They use activity demonstrations from ego-centric video to make 『Action Maps』 of indoor spaces - maps that tell us where certain activities are likely to be performed.
    2. Eye Tracking for Everyone [8]: This paper has gotten some publicity recently - they tackle the familiar problem of eye tracking, but using just a cellphone. Their method of collecting data is quite novel - they display a dot randomly on the screen, which after a while turns into either an R or an L - indicating that the user needs to tap either the left or the right half of the screen. This acts as a verification step that the user』s eye is focused on the dot. Meanwhile, the front facing camera is taking pictures of the user』s face - generating lots of high-quality labelled training data!
    3. [4]: See section on 『Smart ways of supervising the learning algorithm』 for a description of the paper on predicting motion of and force acting on an object in a single RGB image.
  • Datasets
    1. 3D Semantic Parsing of Large-Scale Indoor Spaces [9]: They release a dataset consisting of photo-realistic 3D reconstruction of 6 large indoor spaces. Labels include segmentation into rooms, and 3D bounding boxes for 12 different object categories.
    2. The Cityscapes Dataset for Semantic Urban Scene Understanding [10]: This is a large outdoor dataset for semantic scene understanding. Labels include pixel-level instance labels for objects and pixels-level labels for 『stuff』 - sky, road, building, etc.
    3. [8]: They make their eye-tracking data publicly available at Eye Tracking for Everyone (see section 『Cool new problems)
    4. [4]: See section on 『Smart ways of supervising the learning algorithm』 - they make their dataset of Newtonian scenarios and associated RGB image publicly available at Unfolding the Dynamics of Objects in Static Images.

References and links:

  1. [1604.05383] Learning Dense Correspondence via 3D-guided Cycle Consistency
  2. Learning With Side Information Through Modality Hallucination
  3. Training object class detectors using only human verification
  4. Newtonian Image Understanding: Unfolding the Dynamics of Objects in Static Images
  5. [1604.03540] Training Region-based Object Detectors with Online Hard Example Mining
  6. [1512.03385] Deep Residual Learning for Image Recognition
  7. [1605.01679] Learning Action Maps of Large Environments via First-Person Vision
  8. [1606.05814] Eye Tracking for Everyone
  9. 3D Semantic Parsing of Large-Scale Indoor Spaces
  10. The Cityscapes Dataset for Semantic Urban Scene Understanding


推薦閱讀:

有真正做Deep Learning的人出來說說Alpha Go的意義嗎?
2016世界機器人大會上有什麼亮點?
隨著人工智慧的進步,財務工作者會大批失業么?該如何應對?
飛機為什麼不能一鍵啟動?
怎麼理解決策樹、xgboost能處理缺失值?而有的模型(svm)對缺失值比較敏感呢?

TAG:人工智慧 | 計算機視覺 | 深度學習DeepLearning | 國際學術會議 |