ICCV2017有什麼令人關注的文章?

2017年的iccv審稿結果公布了,有什麼令人關注的地方和工作呢?


大家快來圍觀Kaiming, Ross的新作品

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

解釋一下為什麼:

目標的檢測和定位中一個很困難的問題是如何從數以萬計的候選窗口中挑選中包含目標物的物體,只有候選窗口足夠多,才能保證模型的Recall。目前的目標檢測框架主要有兩種,一種是one-stage的,例如YOLO、SSD等,這一類方法速度很快,但識別精度沒有two-stage的高,其中一個很重要的原因是利用一個classifier很難一方面把負樣本抑制掉,另一方面把目標分類好。另外一種是two-stage的,以Faster RCNN為代表,這一類方法識別準確度和定位精度很高,但存在著計算效率低,資源佔用大的問題。

如何能在保證識別效率的前提下提高識別的準確度和定位性能成為一個重要的研究方向,我們在CVPR2017有一個工作(RON: Reverse Connection with Objectness Prior Networks for Object Detection)試圖將兩種方法結合來達到這個目的,但仍然存在著訓練不夠好的問題。

而Focal Loss從優化函數的角度上來解決這個問題,而且實驗結果非常solid,很贊的工作。


[1707.06168] Channel Pruning for Accelerating Very Deep Neural Networks

By Yihui He, Xiangyu Zhang, Jian Sun

覺得CNN運行太慢?

我們通過對CNN每個卷積層channels削減,簡潔有效地化簡和加速網路。

效果可以達到:

  • VGG-16, 4倍加速, Top-5 accuracy 下降 0.0
  • Xception-50, 2倍加速, Top-5 accuracy 下降 1.0
  • Faster RCNN, 2倍加速, mmAP 下降 0.0

在GitHub上公布了Code : yihui-he/channel-pruning


安利一下我們的關於人臉識別的ICCV2017論文:

Attribute-Enhanced Face Recognition with Neural Tensor Fusion Networks

分數:

strong accept/weak accept/weak accept; Spotlight

人臉識別研究大背景:

人臉識別是深度學習落地應用的最重要場景之一. 在研究領域,尤其是頂會(CVPR/ECCV/ICCV),

純人臉識別的論文越來越少, 很多傳統做人臉識別的大組轉去研究一些比較新的方向.主要原因是 (1)人臉識別在benchmark資料庫上性能已經很高, 想取得state-of-the-art性能變得比較困難 (2) 在這個領域做出理論創新較難. 由於這些原因, 最近頂會上很多人臉的論文不是純人臉識別的, 例如表情識別, 特徵點識別, (使用GAN或3D)人臉正面化, face parsing/edition等等. 最近在頂會上的人臉識別論文很多是做deep learning框架下的度量學習(centerloss/l-softmax/sphereFace). 度量學習對提高人臉識別率還是比較有效的.

論文簡介

Motivation:

在很多困難場景下, 如大姿態, 基於深度學習的人臉識別性能會下降很多. 但我們觀察到,在這些困難場景下, 如大姿態, 人臉的屬性信息(facial attribute)如性別, 人種, 發色, 眉毛形狀等是保持不變的. 很自然地, 深度人臉識別的特徵(FRF)和屬性識別的特徵(FAF)具備互補性. 融合這兩種特徵可以提高人臉識別率. 我們嘗試了現有的融合策略, 表現令人難以滿意. 我們提出一種基於張量(tensor)的特徵融合方式來融合FRF和FAF.

Method:

兩個特徵用tensor連接可以用於特徵融合. 融合的效果取決於tensor參數優化的效果. 但tensor的維度很高, 難以優化, 我們使用TUCKER張量分解的方式降低待優化的tensor的維度,即使這樣優化仍然面臨著求導及正則化設計的困難. 我們發現這個tensor優化問題可以與一個gated的人工神經網路進行等價. 發現這個等價後, 我們可以1) 使用現有深度學習的優化工具進行優化, 如tensorflow, 而不需要手動設計複雜的tensor的優化. 由於在tensorflow優化時可以用mini-batch, 這樣我們的優化天然就是scalable的 2) 融合部分可以與特徵學習的神經網路進行端到端的學習. 這篇論文提供的一個insight是,將tensor和深度學習進行等價. 這樣tensor領域的知識可以用來理解神經網路, 反之亦然.

Experiment:

(1) 在MPIE庫上, 我們測試了一下屬性特徵在大姿態,表情和光照情框下對識別率的提高,其中對大姿態的提高最顯著.

(2) 在近紅外-可見光庫(CASIA NIR-VIS 2.0)上取得了目前最高的99.94%的識別率.NIR(近紅外圖片)和VIS(可見光圖片)來自不同的domain,通常大家認為應該使用domain adaptatino技術來NIR-VIS識別. 但我們的訓練集全部來自VIS, 這說明只要訓練集足夠大(我們用了7M可見光圖片),domain shift可以自然被解決, 因為大的VIS訓練集能抓住足夠多的細節, 這些細節NIR和VIS是共享的.

(3) 在LFW上我們取得了99.65%的識別率, 超過了google的facenet (99.63%)

廣告:

我與Neil Robertson (Queen"s University of Belfast), Josef Kittler (University of Surrey, 我的博士導師), Stan Z Li (李子青, 中科院自動化所), Zhen Lei (雷震, 中科院自動化所) 一起組織了FG2018 的一個special session (Is Deep Learning Always the Best Solution for Face Recognition?), 歡迎大家投稿.

注意special session的稿件跟FG 2018主會稿件地位完全相同, 同樣被檢索,同樣格式, 就像期刊的主刊和special issue關係一樣. (http://www.fg2018.org/)

聯繫方式:

關於人臉識別以及論文相關的討論可以聯繫我: huguosheng100@gmail.com,微信:289885133


個人比較關注6D Object Pose Estimation這一方向(簡單來說,就是已知一幅圖像,如何得到物體的6D姿態)。之前關注的幾個大牛在這次ICCV上都有相關工作發表,我這裡就隨便提兩個吧。

SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again

是Wadim Kehl今年的新作品,去年的ECCV他才剛提出令人眼前一亮的Local Patch方法。。。

論文:[1607.06038] Deep Learning of Local RGB-D Patches for 3D Object Detection and 6D Pose Estimation

視頻:https://www.youtube.com/watch?v=4kYoUyDaO8E

今年他這篇論文的具體內容現在還看不到,但從題目就可以看出 Kehl 做的是一個End-to-End 的物體 6D 姿態估計,而且是只基於RGB的。之前SSD在2D Object Detection中「大殺四方」的時候,我就在想End-to-End的6D Object Pose Estimation到底能不能實現比一般方法還要高的精度,雖然以前也有人用CNN直接回歸6D Pose但普遍精度不高且對於部分遮擋環境魯棒性也較低。下面是這篇文章的摘要,大家可以來感受一下:

We present a novel method for detecting 3D model instances and estimating their 6D poses from RGB data in a single shot. To this end, we extend the popular SSD paradigm to cover the full 6D pose space and train on synthetic model data only. Our approach competes or surpasses current state-of-the-art methods that leverage RGB-D data on multiple challenging datasets. Furthermore, our method produces these results at around 10Hz, which is many times faster than the related methods. For reproducibility, we will publish our trained networks together with detection code.

粗體是重點!首先是只用RGB不需要深度,其次訓練只需要通過3D模型渲染的數據進行訓練,其三在多個數據集中測試結果要優於其他state-of-the-art的RGB-D方法。。。 嗯,所以還是非常值得關注的。

另外就是Henning Tjaden今年的新工作,是和6D Object Tracking有關的,之前我對這一方面關注並不多,前段時間無意中看到他的一個Youtube視頻著實被震撼到了,然後瀏覽了他的主頁,結果被徹底震驚了。。這是他的主頁:Portfolio von Henning Tjaden ,從計算機視覺、混合現實到計算機圖形學、以及網頁開發都是他的研究方向,這也就算了,後面居然還有設計與動畫。(好像有點跑題了)

言歸正傳,今年Tjaden的工作在之前做的6D Object Tracking (ECCV 2016)基礎上增加了Detection的部分,使得整個框架更完整了,以及有論文和視頻了,演示效果也是非常震撼。

Real-Time Monocular Pose Estimation of 3D Objects using Temporally Consistent Local Color Histograms

論文:http://www.mi.hs-rm.de/~schwan/resources/Paper/TCLCH_ICCV2017.pdf

視頻:https://www.youtube.com/watch?v=gVX_gLIjQpI

圖片是Youtube的視頻截圖,還是直接看視頻吧。

論文我大概也看過一遍了,震撼點在於它主要採用的都是傳統方法,包括顏色直方圖的前景概率模型基於貝葉斯的概率預測器,以及在李代數上的位姿迭代優化等等,演算法只在CPU上跑就可以實現到25ms左右,關鍵魯棒性真的是太好了。。詳細的實現過程,大家感興趣的話可以直接看論文。


NIPS還沒出,ICCV基本是GAN主場作戰了,印象最深的是cycle consistency + GAN的孿生三兄弟

  1. DualGAN from University of Newfoundland Simon Fraser University
  2. CycleGAN from University of California Berkely
  3. DiscoGAN from SKT-brain.

都利用到了兩個domain之間的cycle consistency,一個最早在 [1611.00179] Dual Learning for Machine Translation 提出概念,即從X轉換到Y,從Y再轉換到Z,要求X和Z儘可能相似。運用到GAN里,就是 ||G_1(G_2(x)) - x||||G_2(G_1(x)) - x|| 儘可能小。

一個在NLP里率先提出來的概念,不到三個月就被快速運用到CV里,然後在一個conference上同台出場,真是被大家的勤奮給嚇到了。


關注目標跟蹤方向。

已知的:

  • Yibing Song, Chao Ma, Lijun Gong, Jiawei Zhang, Rynson Lau and Ming-Hsuan Yang, CREST: Convolutional Residual Learning for Visual Tracking, IEEE International Conference on Computer Vision (ICCV) 2017.

Project Page:ICCV 2017

  • Hamed Kiani, Ashton Fagg, and Simon Lucey, Learning Background-Aware Correlation Filters for Visual Tracking, ICCV 2017.

  • Hamed Kiani, Ashton Fagg, Chen Huang, Deva Ramanan, and Simon Lucey, Need for Speed: A Benchmark for Higher Frame Rate Object Tracking, ICCV 2017.

Hamed Kiani homepage: Publications

  • Heng Fan, Haibin Ling, Parallel Tracking and Verifying: A Framework for Real-Time and High Accuracy Visual Tracking, IEEE International Conference on Computer Vision (ICCV), 2017.

http://hengfan.byethost7.com/pub.html

  • J. Supancic, D. Ramanan. Tracking as Online Decision-Making: Learning a Policy from Streaming Videos with Reinforcement Learning, ICCV 2017.

Learning a Policy from Streaming Videos with Reinforcement Learning

  • C. Huang, S. Lucey, D. Ramanan. Learning Policies for Adaptive Tracking with Deep Feature Cascades, ICCV 2017.
  • Zhu Teng, Junliang Xing, Qiang Wang, Congyan Lang, Songhe Feng and Yi Jin. Robust Object Tracking based on Temporal and Spatial Deep Networks, ICCV2017.

可能的:

  • Johnander J, Danelljan M, Khan F S, et al, DCCO: Towards Deformable Continuous Convolution Operators, arXiv preprint arXiv:1706.02888, 2017.

Towards Deformable Continuous Convolution Operators

  • Gordon D, Farhadi A, Fox D, Re3: Real-Time Recurrent Regression Networks for Object Tracking, arXiv preprint arXiv:1705.06368, 2017.

Real-Time Recurrent Regression Networks for Object Tracking

歡迎補充 。


MSRA Visual Computing Group:

  • Deformable Convolutional Networks
    • 可形變卷積kernal,自帶attention效果
  • Flow-Guided Feature Aggregation for Video Object Detection
    • Video中detection結合flowNet,大大提高了性能,看了yichen wei的talk,很solid的工作

FAIR:

  • Mask R-CNN
    • 前段時間大火的工作,ICCV 2017 oral

CUHK:

  • Learning Feature Pyramids for Human Pose Estimation
    • 在卷積網路中學習特徵金字塔, 並修正了現有的網路參數初始化方法, 在人體姿態估計中state of the art
    • 話說現在各種網路都是Pyramid arch,都快被玩壞了


ICCV17 Oral論文現場討論(含Poster)總結 (持續更新中)

Marr Prize Paper list:

Best Paper: Mask RCNN

Best Student Paper: Focol Loss

Marr獎提名的3篇論文(更新中):

First Person Activity Forecasting with Online Inverse Reinforcement Learing (Nicholas Rhinehart, Kris M. Kitani )

Open Set Domain Adaptation (Pau Panareda Busto, Juergen Gall)

Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence (Dylan Campbell, Lars Petersson, Laurent Kneip, Hongdong Li )

小白來持續更新每天看到的個人覺得「Simple Work」的工作(重點是各種oral/spotlight論文VGG,ETH, Google/MS/FAIR等一些核心實驗室的工作),做一些簡單的總結,供沒來現場的小夥伴參考~另外我會在爭取各位相關工作作者同意的情況下給大家分享粘貼相關工作的Poster海報,方便大家快速了解前沿的實驗室的工作。希望能夠幫助到大家對現在研究趨勢的了解與認識。

10/24

今天的大會正式開幕,開場我們就跳過了,下面直接列出一下今天會oral/spotlight/poster的工作中我重點關注的list:

Rethinking Reprojection: Closing the Loop for Pose-Aware Shape Reconstruction From a Single Image (spotlight)

End-To-End Learning of Geometry and Context for Deep Stereo Regression (spotlight)

High-Resolution Shape Completion Using Deep Neural Networks for Global Structure and Local Geometry Inference (spotlight)

No Fuss Distance Metric Learning Using Proxies (BN的作者參與的一篇深度度量學習, 這篇Google的工作跟我的研究直接相關)

Fine-Grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach (李飛飛實驗室的一篇精細分類工作)

Predicting Deeper Into the Future of Semantic Segmentation (預測視頻裡面下一幀的分割結果, 貌似是Lecun掛名今年唯一的一篇ICCV工作)

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era (之前很火的一篇論文,谷歌用了內部的包含3億張圖片的JFT-300M訓練的模型刷新了各種結果!)

Channel Pruning for Accelerating Very Deep Neural Networks (孫劍參與的一篇加速網路的工作)

Genetic CNN(Alan實驗室的一篇工作,名字很有趣,遺傳CNN? 用來自動學習出新的網路結構)

10/26[最火爆的一天]

(oral presentation)

Learning Cooperative Visual Dialog Agents With Deep Reinforcement Learning

強烈推薦非常有趣的一篇論文(就是之前被炒作說facebook創造了新的語言相關的論文),不同於VQA是獨立的學習基於圖片的獨立的& 序列,這篇論文的方法是由2個bot: Q-Bot + A-Bot一起組成的, 然後可以以一種對話的方式,採用增強學習的方式來學習模型。這種做法可以看成是VQA的一種高級版本,VQA是獨立的& 序列,而這篇工作是可以有上下文context信息學習進取的& 序列。

Mask R-CNN

早上在酒店吃早餐還偶遇了kaiming,然後上午仔細聽了一下kaiming的介紹,Mask RCNN = Faster RCNN + FCN on Rois,類似於FCN現在是Object segmentation的基礎,Mask RCNN是Instance Segmentation的基礎。具體細節參考論文,反正kaiming講完之後沒有人提問問題。。。霸氣側漏!

Towards Diverse and Natural Image Descriptions via a Conditional GAN

這篇工作也是很make sense的,我覺得很推薦值得一讀的!是為了解決N-gram度量的問題還有human sentence/ machine sentence之間的gap的問題。作者設計採用CGAN同時處理caption跟evaluation。

Focal Loss for Dense Object Detection

這篇論文就不多介紹了,核心的focal loss非常簡單有效。

Inferring and Executing Programs for Visual Reasoning

這篇工作我個人非常喜歡,而且也是作者 Justin Johnson今年2篇工作中他最喜歡也是會繼續做下去的工作,這篇工作的思路也很清晰,事先定義好不同的module, 然後VQA的時候對Answer生成一個program,然後把對應的module映射到program中用來訓練!感覺做法很美!poster期間跑去找Johnson聊了下他未來的科研方向,覺得這哥們思路很清楚,說話也是直切要點,真是心生佩服。

上面幾篇都是Oral論文,另外我統計了一下今天最熱門的站台的論文列表如下,我覺得這些熱門的論文一定程度上也反應了大家最關心的問題,具體如下,

Learning Visual N-Grams From Web Data 也是做loss function的一篇文章,我最喜歡看做loss function的文章了,一作是本科學校的大神師兄李昂,剛入職Google DeepMind, 大寫的「服」。

Interpretable Explanations of Black Boxes by Meaningful Perturbation 提出了一種解釋CNN的方法。

DeepRoadMapper: Extracting Road Topology From Aerial Images

Large-Scale Image Retrieval With Attentive Deep Local Features

Curriculum Dropout

Semantically Informed Multiview Surface Refinement

Low Compute and Fully Parallel Computer Vision With HashMatch

From Point Clouds to Mesh Using Regression (poster前面人真多!)

Space-Time Localization and Mapping

Fast Multi-Image Matching via Density-Based Clustering

BlitzNet: A Real-Time Deep Network for Scene Understanding

Learning the Latent "Look": Unsupervised Discovery of a Style-Coherent Embedding From Fashion Images (作者是一個很甜的台灣小姐姐,所以圍觀的人也不少。。。)

10/27[大會最後一天]

最後一天的poster,其實有部分小夥伴這一天已經撤了,下面依然是會場poster階段相對關注的人比較多的一些工作的列表。

Learning Spread-Out Local Feature Descriptors (simple work paper, 也是在loss function上做的改動)

Learning to Push the Limits of Efficient FFT-Based Image Deconvolution

Monocular Dense 3D Reconstruction of a Complex Dynamic Scene From Two Perspective Frames

Online Multi-Object Tracking Using CNN-Based Single Object Tracker With Spatial-Temporal Attention Mechanism

RoomNet: End-To-End Room Layout Estimation (magic leap team做的一篇相對比較工程的論文)

Generalized Orderless Pooling Performs Implicit Salient Matching

Segmentation-Aware Convolutional Networks Using Local Attention Masks

Dense and Low-Rank Gaussian CRFs Using Deep Embeddings

BIER - Boosting Independent Embeddings Robustly (做deep metric learning的一篇oral paper, 是一個奧地利大學的博士,做的挺不錯的一個工作。)

Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition (同事的一篇細粒度工作,是oral,jianlong一直很穩!)

DeepSetNet: Predicting Sets With Deep Neural Networks

Active Decision Boundary Annotation With Deep Generative Models

Deep Functional Maps: Structured Prediction for Dense Shape Correspondence

Training Deep Networks to Be Spatially Sensitive

Learning Bag-Of-Features Pooling for Deep Convolutional Neural Networks

GPLAC: Generalizing Vision-Based Robotic Skills Using Weakly Labeled Images

總而言之,大會上有很多工作值得關注,具體細節大家可以具體參考論文鏈接。

快CVPR截稿了,大家都加油了!


軟妹紙來答一個,第一次做research,第一次發paper,是ICCV 2017 Poster,特別激動,安利一下我們的文章:

From RGB to Spectrum for Natural Scenes via Manifold-based Mapping

CVF link: ICCV 2017 Open Access Repository

ICCV 2017 Program Schedule 已經出來啦~ Poster的時間是 Friday Oct 27th 10:30am-12:30pm, Session 20 (Title: Computational Photography), 歡迎各路大神前來討論^^

簡介:

簡單的來說,

Training黑線:

(1)通過Dimensionality Reduction (這裡用的是Isomap) 降低hyperspectral reflectances的維度,從n維探索到實際內在結構的3維。

(2)通過已知的camera response function將hyperspectral reflectances轉化到RGB 3維 embedding。

(3)用簡單的neural network將以上兩個3維embedding鏈接起來。

Testing紅線:

(1)簡單輸入一個RGB的3維值,通過之前learning的network將其轉換到第一步探索出的hyperspectral reflectances的實際內在三維embedding。

(2)通過manifold-based mapping將此三維數據reconstruct到原本的n維,完成數據的重構。

Abstract:

Spectral analysis of natural scenes can provide much more detailed information about the scene than an ordinary RGB camera. The richer information provided by hyperspectral images has been beneficial to numerous applications, such as understanding natural environmental changes and classifying plants and soils in agriculture based on their spectral properties. In this paper, we present an efficient manifold learning based method for accurately reconstructing a hyperspectral image from a single RGB image captured by a commercial camera with known spectral response. By applying a nonlinear dimensionality reduction technique to a large set of natural spectra, we show that the spectra of natural scenes lie on an intrinsically low dimensional manifold. This allows us to map an RGB vector to its corresponding hyperspectral vector accurately via

our proposed novel manifold-based reconstruction pipeline. Experiments using both synthesized RGB images using hyperspectral datasets and real world data demonstrate our method outperforms the state-of-the-art.

這是我去年在日本國立情報學研究所 (National Institute of Informatics, Japan) 做實習的課題,大神們看看就好,妹紙是夾縫裡生存的小強,靠著運氣做出了一點點小小的成果而已。如果有疑問,意見或是建議,關於future work等等,可以聯繫yan.jia1@rwth-aachen.de 歡迎大家隨手增加引用量!

我本人沒有讀博或者繼續做research的打算啦,只想著趕緊畢業找工作然後安安心心結婚生子,所以啦,這估計是我人生中有且僅有一次的科研經歷,有且僅有一篇的paper。能夠有幸被ICCV2017收錄,能夠有幸去威尼斯見到許多大牛,實在感到被眷顧,感謝上帝!


推薦一篇我們今年ICCV上基於DenseNet的general object detection的工作。這是目前已知的第一篇在完全脫離ImageNet pre-train模型的情況下使用deep model在有限的訓練數據前提下能做到state-of-the-art performance的工作,同時模型參數相比其他方法也要小很多,我們最小的一個模型參數只有5.9M,在VOC 2007 test set上可以達到73.6mAP,代碼和模型都已經開源,歡迎大家關注和意見。

DSOD: Learning Deeply Supervised Object Detectors from Scratch

arXiv: https://arxiv.org/abs/1708.01241

Github: https://github.com/szq0214/DSOD

下面是一些檢測結果:


ICCV 2017正在上海火熱進行中,今天和大家分享來自微軟亞洲研究院多媒體搜索與挖掘組在會議上最新發布的研究成果「Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks」。它專註於如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網路,提出一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網路的設計思路,並實現了迄今為止最深的199層三維卷積神經網路。通過該網路學習到的視頻表達,在多個不同的視頻理解任務上取得了穩定的性能提升。

————這裡是正式回答的分割線————

1993年9月,一款名為NCSA Mosaic的瀏覽器正式支持在網頁內嵌入圖片,這標誌著互聯網從純文本時代邁入了「無圖無真相」的多媒體時代。如今,隨著互聯網帶寬的提升和高速移動設備的普及,信息的獲取途徑和傳播途徑也在與日增加,視頻逐漸成為互聯網多媒體消費的重要組成部分。

從傳統的視頻分享網站到電視電影節目的網路化,再到現在新興的視頻直播網站和小視頻分享網站,互聯網視頻已經進入了爆炸式發展的新階段。據統計,僅僅以視頻分享網站YouTube為例,平均每分鐘就有約300小時的視頻上傳到YouTube上,每天的視頻觀看次數更是高達50億次。數量如此巨大的視頻內容與觀看次數對視頻處理、分類、推薦等常見視頻相關技術提出了更高的要求,也提供了更廣闊的應用場景。

在視頻處理相關技術中,視頻特徵描述學習(Representation Learning)是一個最基本的問題。學習視頻的特徵表達是幾乎所有視頻處理和分析的基礎,其中包括視頻標註、動作識別、視頻監控、視頻檢索、視頻場景識別、視頻分割、視頻自然語言描述和基於視頻的人機交互等等。

然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網路(如微軟研究院在2015提出的殘差神經網路ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的CNN特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網路還很缺乏。

在正在舉行的International Conference on Computer Vision (ICCV)2017會議上,微軟亞洲研究院發布了多媒體搜索與挖掘組最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。這項工作主要集中在如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網路,它提出了一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網路的設計思路,並實現了迄今為止最深的199層三維卷積神經網路。通過該網路學習到的視頻表達,在多個不同的視頻理解任務上取得了穩定的性能提升。

基於三維卷積神經網路的視頻特徵提取

為了使用深度神經網路來提取視頻中時間和空間維度上的信息,一種直接的思路就是將用於圖像特徵學習的二維卷積拓展為三維卷積(3D Convolution),同時在時間和空間維度上進行卷積操作。如此一來,由三維卷積操作構成的三維卷積神經網路可以在獲取每一幀視覺特徵的同時,也能表達相鄰幀隨時間推移的關聯與變化,如下圖所示。

然而這樣的設計在實踐中卻存在一定的困難。首先,時間維度的引入使得整個神經網路的參數數量、運行時間和訓練所需的GPU內存都將大幅增長;其次,隨機初始化的三維卷積核需要大量精細標註的視頻數據來進行訓練。受困於以上兩點,近些年關於三維卷積神經網路的發展十分緩慢,其中最著名的C3D[2] 網路只有11層,模型大小卻達到321MB,甚至大於152層ResNet[3] 的235MB模型。

深度偽三維卷積神經網路設計

為了解決以上的局限性,我們提出了一系列基於偽三維卷積和殘差學習(Residual Learning)的神經網路模塊,用以同時在時間和空間上進行卷積操作。其中,偽三維卷積是這個網路結構的核心操作,基本思想是利用一個1*3*3的二維空間卷積和3*1*1的一維時域卷積來模擬常用的3*3*3三維卷積。通過簡化,偽三維卷積神經網路相比於同樣深度的二維卷積神經網路僅僅增添了一定數量的一維卷積,在參數數量、運行速度等方面並不會產生過度的增長。與此同時,由於其中的二維卷積核可以使用圖像數據進行預訓練,對於已標註視頻數據的需求也會大大減少。結合殘差學習的思想,該論文提出三種不同的偽三維卷積殘差單元(P3D-A,P3D-B,P3D-C)分別使用串列、並行和帶捷徑(shortcut)的串列三種方式來確定空間卷積和時域卷積之間的關係。

通過使用以上三種偽三維殘差單元替代152層ResNet中的二維殘差單元,該工作得到了目前最深的199層三維卷積網路結構。最終經過ImageNet數據集中的圖片數據和Sports-1M(包含了487個類別的百萬級視頻片段)[4] 視頻數據的訓練,該網路在視頻動作識別(Action Recognition)、視頻相似度分析(Video Similarity)和視頻場景識別(Scene Recognition)三個不同的視頻理解任務上均獲得了穩定的性能提升,並且在CVPR 2017的Activity Net Challenge的Dense-Captioning任務中獲得第一名。

除了利用偽三維卷積網路提取特徵外,該網路還可以作為其它方法的基本網路結構,從而提升其它基於神經網路方法的視頻識別性能。以雙流(Two-stream)方法為例,在UCF101的視頻動作識別任務上,如果使用偽三維卷積網路作為基本網路結構,實現的Two-stream框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合併的結果,都超過了其它網路結構。

以上的實驗結果驗證了偽三維卷積殘差網路可以有效學習來自大量圖像和視頻訓練數據中的類別信息。在與二維卷積殘差網路和傳統三維卷積網路的對比中,該結構成功地提升了在不同視頻識別任務上的性能。關於偽三維殘差網路相關的代碼和模型詳見https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。

神經專用神經網路的發展方向

該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網路的可能性,然而本文中提到的神經網路目前主要針對視頻分類問題。面對紛繁複雜的視頻內容與視頻應用需求,單一的神經網路很難滿足。針對不同的應用,視頻專用神經網路有以下三個具有潛力的發展方向:

第一,視頻檢索(Video Search)專用神經網路。視頻檢索、視頻推薦是大型視頻分享網站所要面對的首要問題,給予用戶良好的檢索體驗,並適當地推薦用戶需要的視頻內容,幫助用戶快速地找到自己感興趣的視頻。

第二,視頻分割(Semantic Video Segmentation)專用神經網路。視頻分割的目標在於像素級別地分割出視頻中的人、車等常見物體。而隨著AR/VR技術的發展,像素級別的目標識別可以輔助許多不同的AR/VR相關應用,這也促進了視頻分割的發展。

第三,視頻生成(Video Generation)專用神經網路。隨著用戶越來越容易地在不同設備上進行視頻拍攝,非專業用戶對視頻的自動/半自動編輯、美化也逐漸有了更多的需求。因此,視頻生成神經網路便可以幫助用戶編輯創作自己的視頻作品。

隨著卷積神經網路的發展,人工智慧在很多圖像相關任務上的性能都產生了飛躍,也有大量相關技術從學術圈慢慢地走進了我們的生活。但是由於視頻包含信息太過複雜,大數據的獲取、存儲、處理均存在一定困難,導致視頻相關技術在很多方面仍然進步緩慢,相信隨著視頻專用卷積神經網路的發展,這部分的不足也會逐漸被彌補。

無論是文本、圖像還是視頻,人工智慧的發展在滿足互聯網用戶需求的同時也始終推動著用戶習慣的變遷。有了合理的演算法對視頻進行分析、推薦,可以幫助互聯網用戶獲得更好的瀏覽體驗;有了用戶更好的反饋及更大的點擊量,可以讓視頻產業規模進一步擴大;更大規模的視頻數據會進一步對視頻相關演算法提出更高的要求。在這樣的循環之下,視頻產業本身必將伴隨著視頻相關演算法快速地發展,迎接更美好的未來。

————這裡是回答結束的分割線————

以上回答摘選自微軟研究院AI頭條,ICCV | 深度三維殘差神經網路:視頻理解新突破。

感謝大家的閱讀。

本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。


推薦一下大四實習時做的一個GAN用於照片級的特定身份正面人臉合成的工作,圖片效果看起來還可以,也可用於識別,歡迎關注和意見~

ICCV17已接收,近期會公布代碼,敬請期待~

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

arXiv: https://arxiv.org/abs/1704.04086

覺得效果還好可以左下角點個贊。。 :D

PS:感謝某人多次舉報此回答。。


推薦一下我今年在ICCV被接收的用low rank模型做「真實+彩色」圖像去噪(real color image denoising)的工作,審稿得分是1 strong accept, 2 weak accept, 3 borderline。給3的人不懂圖像修復里常用的Maximum A Posterior法則,所以給的幾個問題有失水準,推薦poster。給1的人推薦oral,給2的人推薦oral/poster。Meta review給的一個poster,一個oral。最終AC/PC給的是poster(好吧……)。

1. 論文題目:

Multi-channel Weighted Nuclear Norm Minimization for Real Color Image Denoising

Jun Xu, Lei Zhang, David Zhang, Xiangchu Feng

Accepted to International Conference on Computer Vision (ICCV), Venice, Italy, 2017.

2. 一句話簡介:

我們給出了low rank模型在彩色圖像處理問題里的一個創新,考慮彩色圖像去噪問題里彩色圖的R,G,B三個通道雜訊水平不一樣的情況(as far as we know, 首次提出並建模,提供給大家新的玩法),並用在了真實圖像去噪上,效果非常好:)

3. paper and code:

目前論文,補充材料,和代碼都已經公布:

論文:http://www4.comp.polyu.edu.hk/~csjunxu/paper/MCWNNM.pdf

補充材料: http://www4.comp.polyu.edu.hk/~csjunxu/paper/MCWNNM_supp.pdf

代碼: csjunxu/MCWNNM_ICCV2017

4. Future work for you!

強烈建議有興趣的人閱讀代碼里的「PossibleExtension.txt」文件,我在裡面提供了5個不同的拓展這個工作的方向。


不邀自來~

社長邀請了 @沈志強 來研習社的學術青年分享會對他們團隊ICCV 2017的文章做了詳解~雖然志強同學在樓上對他們的工作做了簡要介紹,不過社長還是過來強答一波詳細的hhhhh

以下是當日分享的總結,戳鏈接查看更多往期回顧:

目標檢測作為一個基礎的計算機視覺任務,在自動駕駛、視頻監控等領域擁有非常廣泛的應用前景。目前主流的目標檢測方法都嚴重依賴於在大規模數據集(如ImageNet)上預訓練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中,作者通過分析深度檢測模型從頭訓練存在的問題,提出了四個原則,他們根據這些原則構建了DSOD模型,該模型在三個標準數據集(PASCAL VOC 07, 12和COCO)上都達到了頂尖的性能。這篇論文已被ICCV2017收錄。

眾所周知,計算機視覺有幾個比較重要的分類,包括目標分類、定位、目標檢測、實例分割,前兩個分類是針對單個目標,後兩個分類是針對多個目標,DSOD主要是針對目標檢測。

說到目標檢測,大家可能會想到如下幾個比較有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下圖是關於他們的一些介紹。

ImageNet預訓練模型的限制:一是模型結構是固定的,你不可能改變它的結構,二是會有learning bias,三是會出現domain不匹配的情況。我們的思路是從頭訓練檢測器,但是我們用R-CNN和Faster-RCNN都沒能得到較好的表現。

簡單回顧下Rol pooling,如下圖所示:

它其實就是一個max pooling:

可以在下圖中看到forward和backward情況,把Rol pooling去掉這個框架就類似於YOLO和SSD。

幾個原則:一是Proposal-free。去掉Rol pooling,雖然對模型的表現影響不大,但這一點非常重要。

二是Deep Supervision。採用Dense Block,能避免梯度消失的情況。

三是Dense Prediction Structure。大大減少了模型的參數量,特徵包含更多信息。

四是Stem Block。採用stem結構,好處是能減少輸入圖片信息的丟失。

下面是DSOD整體結構:

這是我們做的一些對比實驗,可以看到增加這些結構之後性能提升的百分點:

下面是在PASCAL VOC2007上的實驗結果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我們沒有用預訓練模型做的一些對比實驗,可以看到Faster-RCNN和R-CNN均以失敗告終,最後的一行的實驗加入COCO後mAP值提升,說明DSOD模型本身的泛化能力非常強。

下面是在PASCAL VOC2012上的實驗結果,可以看到DSOD有不錯的mAP值。

接下來是在COCO上面的一些結果,對比起來DSOD的也有很好的性能。

最後是一些實際的檢測結果,可以看到bounding box對目標的檢測非常貼合。

論文地址: https://arxiv.org/abs/1708.01241

代碼:https://github.com/szq0214/DSOD

模型可視化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

最後簡單介紹下我們在CVPR 2017的相關工作Dense Video captioning,主要是做視頻描述。在視頻當中包含很多內容,而這些內容並不一致,因此視頻描述相對來說會比較困難。下圖是一些示例。

網路結構如下圖所示。具體細節大家可以參見我們的論文Weakly Supervised Dense Video Captioning,論文地址:https://arxiv.org/abs/1704.01502

接下來是我們在ICCV 2017上的工作,主要是做網路壓縮。我們用了一個衡量channel是否重要的值來訓練模型,然後剔除掉不太重要的特徵層。論文代碼我們也放在github上了。具體細節大家可以參見論文Learning Efficient Convolutional Networks through Network Slimming,論文地址:https://arxiv.org/abs/1708.06519

最後,歡迎戳鏈接查看本次分享完整視頻~


人類與機器的最大區別是:人類可以通過聯想獲得新知識,而機器不能。比如,當人類知道白色的椅子和紅色的桌子長什麼樣,就能聯想出白色的桌子的樣貌。

創造=把多模態的知識屬性打亂,並重新整理

Semantic Image Synthesis via Adversarial Learning 一文就是想實現"組合性創造",創造出訓練集中不存在的數據。

結果圖:

全卷積網路,防止損失原圖的空間信息:

對抗損失函數:

這部分有點繞,包括匹配的句子,不匹配的句子,以及語言相關的句子。

更多 Zero-shot 結果圖:

大家注意,創造出的數據很多是數據集中不存在的,更多內容可以看原文說明和附錄。

插值變換圖:

第三方實現:woozzu/dong_iccv_2017

我的實現等我有空整理好了,再放出來~

希望對你有用~


[1707.09405] Photographic Image Synthesis with Cascaded Refinement Networks

用semantic layout生成真實圖像,看起來效果比pix2pix好,號稱沒有用到gan。細節等看完paper補充

---------------------------------------------分割線---------------------------------------------------

好了,回來瞎掰幾句。這篇paper的貢獻應該是在於提出了生成真實圖像的另一個可能的方向吧(GAN太不穩定,autoregressive方法太慢,vae生成質量好像不太行),而這個方法巧妙地設計了一個diversity loss直接當成pixel-level regression model來train。網路結構的設計上比較模塊化,理論上可以不斷加module增加解析度。


Update:

最近正好邀請了一位嘉賓 @鄭哲東 分享了關於行人重識別方面的綜述。

他的paper中了ICCV2017 spotlight,論文題目為:Unlabeled Samples Generatedby GAN Improve the Person Re-identification Baseline in vitro.

論文主要集中討論了 如何利用GAN生成的圖像(unsupervised learning) 輔助原有的圖像分類/檢索問題(supervised learning),希望能提供一個新的view來看待/利用生成數據。代碼已經公布在Github上。(layumi/Person-reID_GAN)

另外,論文中還提出一個新的行人重識別數據集 DukeMTMC-reID,也歡迎大家關注。

Dataset 下載地址: layumi/DukeMTMC-reID_evaluation

最後謝謝大家關注~

也可以看看鄭博士分享的綜述視頻:【極市】鄭哲東Deep-ReID行人重識別的深度學習方法_騰訊視頻

【極市】鄭哲東Deep-ReID行人重識別的深度學習方法_騰訊視頻


我大四投的一篇也中了,關於person reid的,先佔個地,等過幾天丟arxiv上在來寫


沉迷dnf 忘了這事了,論文地址https://arxiv.org/pdf/1709.08325.pdf

和最近很多Reid的論文一樣,也是用人體各個部位的信息去輔助Reid的性能,我們的方法提取了6個部位,頭,四肢,還有歐派。

由於cnn對旋轉不魯棒,我們分別對幾個部位之前加了STN,對部位進行仿射變換,讓得到的人體部點陣圖像更加魯棒

最後將原圖的特徵和人體部位的特徵加權融合,得到最後的特徵


我校某老師跨領域獨自奮鬥了兩年做了一篇oral。

C.-T. Huang, "Robust Pseudo Random Fields for Light-Field Stereo Matching," in IEEE International Conference on Computer Vision (ICCV), 2017. (oral presentation)

Empirical Bayesian Light-Field Stereo Matching by Robust Pseudo Random Field Modeling

做的是用統計方法估計對於每一個光場的最佳Markov Random Field參數。


關注顯著性和分割:盧湖川老師研究組,顯著性有兩篇論文入選分別是


大神們 你們那裡有ICCV2017的paper list嗎


Makeup-Go: Blind Reversion of Portrait Edit

以後化妝要把痘印蓋仔細了,有點痕迹就會被makeup go


當地時間10月22日,計算機視覺國際頂級會議International Conference on Computer Vision(ICCV 2017)在義大利威尼斯開幕。

據了解,國際計算機視覺大會(ICCV)全稱是IEEE International Conference on Computer Vision,由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。但不同於CVPR與 ECCV,ICCV在世界範圍內每兩年召開一次,重要性可見一斑。

此次獲獎論文,Facebook人工智慧實驗室何愷明等人獲得最佳論文和最佳學生論文獎;DeepMind CEO 哈薩比斯導師Tomaso Poggio獲得終身成就獎;賈揚清率Caffe團隊獲「無私貢獻獎」。

此外,今年ICCV 2017華人表現突出,清華大學投稿數量在所有機構中位居第一,共收到2143篇論文投稿,其中621篇被接收。

附:何愷明最佳論文鏈接:https://arxiv.org/abs/1703.06870

關注網易智能公眾號(smartman163),獲取人工智慧行業最新報告。


推薦閱讀:

機器如何去理解一個「概念」?
學習機器學習演算法一定要做到會手寫編程實現嗎?還是只要拿到數據後知道使用哪個演算法調用numpy的包就行?
如何理解機器學習中雜訊影響模型複雜度問題?
研究生畢業做機器學習數據挖掘程序員發展前景如何?在這方面跟博士競爭差距會有多大?
知乎上有哪些關於大數據、推薦系統、機器學習之類的專欄?

TAG:圖像處理 | 機器學習 | 模式識別 | 計算機視覺 | 深度學習DeepLearning |