CVPR 2017 有什麼值得關注的亮點?


謝鴨哥 @grapeot 邀,知乎小透明首答還是有點壓力,斗膽來介紹一下我們今年的oral工作:

哥大這邊最近兩年做視頻分析,主要是做Temporal Video Localization:給一個很長的視頻,其中可能發生了一些我們感興趣的action,event,或者activity,剩下的部分則是background,如何能夠讓機器自動找到我們感興趣的部分,在視頻中的開始時間和結束時間呢?

先把乾貨給了吧:

  • Paper: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos
  • Project website: http://www.ee.columbia.edu/ln/dvmm/researchProjects/cdc/
  • 另外最近我們整理了一個demo video,其中展示了一些visualization examples: YouTube: https://www.youtube.com/watch?v=vH_ZjwwX9as 或者 優酷: CVPRamp;#x27;17 oral. CDC: Conv-De-Conv Networks(下面是demo video的一些thumbnails)

CDC的技術細節在上面這些鏈接里都可以了解到,另外前面答案里 @林天威 已經大概概況了一下最近一年這個方向的幾項工作,後面的話我主要想安利一下Temporal Localization這個課題,同時介紹一下這兩年的發展:

  • Temporal Localization到底是在解決什麼問題?

這個問題比較像temporal版本的object detection(給一張圖片,recognize the object class and locate the bounding box of the object);temporal localization的話則是,檢測action class,同時找到每個action instance的start time和end time。問題challenging或者unique的地方是,視頻裡面需要考慮model temporal information比如motion,另一方面,處理視頻對計算資源的要求相對較高(現在基本上是做untrimmed video),通常不像image裡面把一張raw image直接輸入網路中,技術上會有一些frame sub-sampling或者sliding window的操作,等等。

  • Temporal Localization現在state-of-the-art做到了什麼樣的水平?

前些年video裡面大家主要還是做video classification或者很短的trimmed video裡面的localization;隨著一個叫THUMOS"14的dataset出現,16年大家逐漸開始做untrimmed video裡面detection的問題,也就是temporal localization。最近也出現了ActivityNet,Charades等等新的各具特色的datasets,為這個課題提供了更多新的探索方向,比如做ActivityNet需要解決how to detect very long instances的問題,Charades裡面multi-modal的annotation,hierarchical/multi-label的categories如何利用起來。這些問題在image裡面已經有被探討過,但在video裡面如何做,還是non-trivial的。目前這些benchmarks,state-of-the-art的mAP也只做到了百分之二三十,相對於object detection裡面的結果,感覺還是有很大的空間,和不少細緻的工作可以做和需要做的。

  • 去年這個方向的工作有什麼局限?

我們組去年CVPR"16的工作 (Segment-CNN:[1601.02129] Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs),就是對這個問題的,用end-to-end deep learning方法的初步嘗試,也是今年大家工作的baseline之一,本質上可以看成是video版本的faster-rcnn:先用multi-scale sliding window生成proposal segment;然後用proposal network判斷是background還是可能含有action;如果可能含有action,再判斷具體的action類別。這個方法的局限是,proposal的temporal boundaries可能不準,只做classification的話,還是保留了不準的邊界。

  • 我們組今年CVPR"17的工作(Conv-De-Conv Networks)是如何解決上面的局限的?

對於這個局限,一種方法是做regression(類似於object detection裡面調整bounding box的center和height/width);另一種方法,也就是我們CVPR"17的工作,則是嘗試detect at the finer temporal granularity (e.g. frame-level),得到per-frame score sequence,然後用這個來調整proposal segment從而找到更準確的邊界(如下圖左)。

對網路模型本身而言,我們希望基於C3D(SoA的video classifier)來做,但是如何能得到per-frame score呢?很多semantic segmentation近來的工作都是基於de-convolution來做up-sampling的,可以參考;但這裡我們的問題不太一樣,從pool5到最後prediction,時間上我們要做up-sampling,但是空間上我們得做down-sampling,來得到每一幀的類別預測;所以,我們構建了一個CDC layer(上圖右c),可以同時地,在時間維度上up-sample但是空間維度上down-sample。總體來說想法比較straightforward,能夠得到更準確的邊界,同時也比較efficient,在一張TITAN X卡上CDC網路本身的速度可以達到500FPS,具體細節大家感興趣的話可以參考開頭的鏈接。

最後,過幾天夏威夷見啦,希望能向各位老師同學交流學習:)


在2D目標識別、檢測、分割這個領域,個人感覺以下幾篇文章是值得關注的:

1. Lin, Tsung-Yi, et al. "Feature Pyramid Networks for Object Detection." arXiv preprint arXiv:1612.03144 (2016).

[1612.03144] Feature Pyramid Networks for Object Detection

利用簡單設計的多層網路融合策略有效解決多尺度目標定位困難的問題。


2. A-Fast-RCNN: Hard positive generation via adversary for object detection http://abhinavsh.info/papers/pdfs/adversarial_object_detection.pdf

將對抗學習和Fast R-CNN結合,來增加遮擋和姿態變化的物體的數量。


3. Li, Yi, et al. "Fully Convolutional Instance-aware Semantic Segmentation." arXiv preprint arXiv:1611.07709 (2016).

[1611.07709] Fully Convolutional Instance-aware Semantic Segmentation

COCO2016分割冠軍,在全卷積的框架下,利用 fg/bg score maps 對ROI區域內進行像素級分割。


4. Jeon, Yunho, and Junmo Kim. "Active Convolution: Learning the Shape of Convolution for Image Classification." arXiv preprint arXiv:1703.09076 (2017).

Learning the Shape of Convolution for Image Classification

可形變的卷基層,針對圖像中物體的形變問題。與jifeng組的文章[1703.06211] Deformable Convolutional Networks idea類似

5. Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. arXiv preprint arXiv:1612.08242, 2016.

YOLO9000: Better, Faster, Stronger

YOLO加強版


另外,我們也有一個2D目標檢測的工作「 RON: Reverse Connection with Objectness Prior Networks for Object Detection 」會儘快把文章和相應的代碼放出來。


在3D方面,今年出現了很多非常有意思的工作,以下列出的都是oral,自己本身之前不專門做這個方向,不做評價。

Fan, Haoqiang, Hao Su, and Leonidas Guibas. "A Point Set Generation Network for 3D Object Reconstruction from a Single Image." arXiv preprint arXiv:1612.00603 (2016).

Qi, Charles R., et al. "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation." arXiv preprint arXiv:1612.00593 (2016).

Hold-Geoffroy, Yannick, et al. "Deep Outdoor Illumination Estimation." arXiv preprint arXiv:1611.06403 (2016).

Song, Shuran, et al. "Semantic Scene Completion from a Single Depth Image." arXiv preprint arXiv:1611.08974 (2016).

Zeng, Andy, et al. "3DMatch: Learning the matching of local 3D geometry in range scans." arXiv preprint arXiv:1603.08182 (2016).

等paperlist放出來之後再更。


推薦下我們的一篇CVPR"17 Oral論文Network Dissection: Quantifying Interpretability of Deep Visual Representations(論文:https://arxiv.org/pdf/1704.05796.pdf, 主頁:http://netdissect.csail.mit.edu/)

神經網路的可解釋性一直是我比較關注的問題。從ICLR"15那篇Object Detectors emerge from Deep Scene CNNs (現在的深度學習的模型越來越大,有個結論是說,大腦的激活是非常稀疏的,對模型參數有什麼好的辦法壓縮嗎? - 知乎), 到CVPR"16的CNN Discriminative Localization and Saliency,再到最新的這篇Network Dissection,算是我PhD階段較完整地探索了這個問題。我自己是非常喜歡這篇network dissection:)。

了解我研究工作的朋友都知道,我很少提fancy的模型和跟蹤潮流topic,我更感興趣的是分析問題和現象本身,能用越普適的方法越好。這篇CVPR"17工作是想更好量化分析不同卷積神經網路內部神經元的語義特徵 (Network Interpretability and Network Explainability)。嘗試回答一些有意思的問題:神經網路是不是只是個black box?神經網路內部到底學習了些什麼東西?為什麼需要這麼深度的網路?等等。之前我ICLR"15論文是用人力來標定了AlexNet的每層網路內神經元的語義性,這篇論文我們提出了一個叫Network Dissection的方法,可以自動化地標定任意給定的網路內部的帶有語義的神經元。

Network Dissection大致做法如下圖所示,我們準備了一個帶有不同語義概念的圖片資料庫,裡面每張圖都有pixel-wise的標定(顏色,紋理,場景,物體部分,物體等),然後我們把每個神經元在圖像上的激活響應當做對這些概念進行語義分割(Semantic segmentation),然後看每個神經元對哪個語義概念分割得最好,那麼這個神經元就是在檢測這個語義概念。

我們首先把這個方法用到在ImageNet和Places上訓練的多種網路AlexNet, VGG, GoogLeNet, ResNet等典型的CNN模型(為什麼現在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上調整的? - 知乎),可視化和標定各個網路的神經元。我們發現每種網路內部都有這樣的可解釋性的語義神經元出現,下圖是Resnet, GoogLenet, VGG里出現的檢測五種概念House, Dog, Train, Plant, Airplane的神經元。這應該是目前第一次這麼系統地可視化和比較ResNet, VGG等網路內部表徵。

然後我們利用Network Dissection比較了不同神經網路之間可解釋性的概念分布的差異。如下圖所示,ResNet-Places365網路具有最多的有語義性的神經元。

同時,我們固定網路結構(AlexNet),分析不同supervision對網路內部表徵的影響。這裡我們比較了前段時間比較火的各種self-supervised CNN的表徵跟supervised CNN的內部表徵。如下圖所示,self-supervised CNN的語義性還是要比supervised CNN的差一大截,其deep feature在分類問題上的performance也是要差不少。

這個Network dissection方法還可以用來分析訓練過程中網路的變化和各種regularization,如batchnorm, dropout,對內部表徵的影響。如下圖,我們對不同訓練階段的網路進行了語義分析,隨著訓練時間增加,網路內部表徵越來越有語義性。Network dissection給出了除了盯著training loss, 對網路訓練進行診斷和分析的另外一個途徑。

Network Dissection項目網頁上(http://netdissect.csail.mit.edu),有對不同網路的詳細可視化(參見Network Dissection Results),感興趣的同學可以看看。資料庫和代碼已經release(CSAILVision/NetDissect)。到時候在CVPR"17的Tutorial上 (Deep Learning for Objects and Scenes),我也會把Network Interpretability作為一個專題來報告, stay tuned:)

總結來說,Network Interpretability Explainability將是AI里非常重要的研究問題。去年美國政府的軍費研究機構DARPA就有個重要的立項Explainable Artificial Intelligence。隨著AI模型在生活中的廣泛應用,性能提升的同時,人們也更關注AI模型自身的安全性和可解釋性。如果連我們自己都無法理解AI模型是如何運作以及內部到底學習到了什麼,還會放心AI模型在醫療,國防等一些性命攸關的方嚮應用么。最近MIT Tech Review上最近有篇文章,也分析了這個問題:The Dark Secret at the heart of AI( There』s a big problem with AI: even its creators can』t explain how it works)。


最後,向今年夏天來夏威夷參加CVPR的朋友推薦我組織的一個CVPR"17 workshop:Scene Understanding Workshop (SUNw)。這個Workshop到今年是第五屆了,宗旨是在給場景理解相關領域的研究者提供一個交流學習的平台。歡迎同學們踴躍投稿。其實投稿就是個一兩頁的Extended Abstract, 可以是已經發表(CVPR"17發表的工作正好)或者正在進行的工作,在workshop上有oral和poster的機會以及更好宣傳自己的研究工作的機會,何樂不為呢:)夏威夷見!


強答一波,推薦一下我們被CVPR 2017錄用的一個工作。我們的工作的核心是提升深度神經網路的可解釋性。可解釋性是指機器學習模型在做出預測的同時,也能夠提供給用戶產生這樣決策的原因,從而使得用戶更好地參與到模型的訓練中,實現human-in-the-loop learning,幫助改進模型並修復錯誤。

之前很多的工作已經在可解釋性和可視化上做了一些嘗試,我們工作的一個主要的motivation是由於之前提出的方法是對訓練好的模型進行解釋和可視化,這樣就會有很多局限,當模型的performance不好的時候,學習的特徵很有可能也是沒有意義的,同時這些方法對於複雜網路(CNN+RNN)很難做出解釋,這就啟發我們在訓練的過程中引導神經元向可解釋的方向學習。

我們選擇video captioning這個task,首先是因為解決這個task的網路結構本身十分複雜,對其做解釋十分困難。第二點是video caption數據集中包含自然語言的描述,其中擁有豐富的語義信息,我們可以通過利用這些語義信息來指導神經元進行學習。在模型上,我們加入了interpretive loss,用於引導神經元檢測video中的語義,從而自動學習出在語義空間上有意義的特徵。具體的細節可以參考我們的paper([1703.04096] Improving Interpretability of Deep Neural Networks with Semantic Information)。

也希望有興趣的同學可以和我們多多討論。


補充樓上object tracking相關:

1.Robust Visual Tracking Using Oblique Random Forests

https://sites.google.com/site/zhangleuestc/incremental-oblique-random-forest

2. End-to-end representation learning for the Correlation Filter

End-to-end representation learning for Correlation Filter based tracking

很早就放文章了 Learning feed-forward one-shot learners ,Staple作者
Luca Bertinetto - Personal page的工作,KCF大神 Jo?o F. Henriques 是二作了,牛大視覺組你懂的。

3. Context-Aware Correlation Filter Tracking

https://ivul.kaust.edu.sa/Pages/pub-ca-cf-tracking.aspx

這個組國內Tianzhu Zhang 老師做過訪問學者,之前小哥 Home - Adel Bibi工作也很多。題外篇 King Abdullah University 沙特搞石油的很有錢。

另外最近也有一篇背景建模KCF 改進工作,[1703.04590] Learning Background-Aware Correlation Filters for Visual Tracking

4. Attentional Correlation Filter Network for Adaptive Visual Tracking

https://sites.google.com/site/jwchoivision/home/acfn-1

也是他們之前工作SCT: Visual Tracking Using Attention-Modulated Disintegration and Integration (2016CVPR)再改進版本,無外乎加DL。(https://sites.google.com/site/jwchoivision/home/sct)

5. Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

這個隨著DRL火起來後,在目標跟蹤也要刷一輪文章。Perception and Intelligence Lab

有興趣的可以看看相關工作:[1702.06291] Visual Tracking by Reinforced Decision Making

[1701.08936] Deep Reinforcement Learning for Visual Object Tracking in Videos

另外http://berkeley.edu 都說「 driving for the future 」http://bdd.berkeley.edu/project/deep-reinforcement-learning

ps:三年研究生磨一劍,畢業在即從此和object tracking說再見。從讀Naiyan Wang - Home的基於深度學習的tracker(DLT)接觸tracking,到轉做基於KCF改進工作。

有幸與上交的ChaoMa:https://sites.google.com/site/chaoma99/ ,

浙大的YangLi:https://scholar.google.com/citations?user=N1ZDSHYAAAAJ ,

自動化所Guibo Zhu - Semantic Scholar等優秀的學長做過一些探討,感謝他們給過地幫助。簡單地對tracking工作做個總結:

一、研究tracking的一些學者

Ming-Hsuan Yang:Ming-Hsuan Yangamp;amp;amp;amp;amp;amp;#x27;s Home Page

Fatih Porikli:http://www.porikli.com/

Bohyung Han:Bohyung Hanamp;amp;amp;amp;amp;amp;#x27;s homepage

Huchuan Lu:Publications

Haibin Ling : Homepage for Haibin Ling

Tianzhu Zhang :Tianzhu Zhang

Jo?o F. Henriques :Jo?o F. Henriques

Martin Danelljan:Martin Danelljan

二、讀paper的地方

1.計算機視覺領域內三大頂會ICCV、CVPR、ECCV、http://www.cv-foundation.org/openaccess/menu.py

2. WACV、 BMVC、 ICIP等會議每年也有很多關於tracking的文章。

3. Computer Vision and Pattern Recognition 、IEEE Xplore Digital Library , 文章關於object detection,classification、DL等都可以選擇讀,不限於目標跟蹤。

三、數據集和評價指標

現在用的比較多的YiWu老師等人的Visual Tracker Benchmark,以及每年VOT比賽數據集VOT Challenge | Challenges。

四、關於研究tracking的一點建議

1. 入門篇:Understanding and Diagnosing Visual Tracking Systems, 文章讀懂+code,也就搞清楚discriminative類型tracker的一般框架。

2. 需要的基礎:圖像處理(重點是各種feature)+機器學習/模式識別(常見分類器原理),當然這兩部分可以現在end-to-end的深度學習解決。統計學、矩陣論、凸優化這些數學基礎多多益善,屬於內功了。編程語言科研還是用MATLAB多一些,c++/python也要懂。

3. 交流的平台:Kaihua Zhang老師建的QQ群261539583、127916362,valse:VALSE - 視覺與學習青年學者研討會 , 北郵陳光老師微博愛可可-愛生活Sina Visitor System 等。


在這裡強推一波我們CVPR 2017的利用深度學習進行單幅圖像去雨的論文:Removing rain from single images via a deep detail network.

圖像去雨與圖像去噪、去模糊、超分辨重建等都屬於low level的圖像處理問題。簡單來說,圖像去雨的目的是將有雨圖像中雨線(雨點)去除,同時保留圖像原有的結構特徵。我們的核心工作並不是去設計複雜的網路結構來解決問題,而是利用圖像處理的一些domain knowledge讓問題本身變得簡單。下面是我們的模型的結構:

首先,我們利用了在圖像處理領域內的先驗知識,將圖像分解為低頻部分和高頻部分,然後將圖像的高頻部分(detail layer)作為神經網路的輸入,在網路輸出的最後我們再加入了一個原始圖像的shortcut,最後得到我們想要的無雨圖片。

假定X為我們的輸入圖像,Y為輸出圖像,由於最後加上了原始圖像的shortcut,我們網路的輸出實際上是擬合Y-X,由於Y-X大部分值為負數,所以我們稱之為負殘差映射(negative residual
mapping),此時我們的目標函數寫成以下函數:

h是我們想要得到的映射函數。我們將X分解為detail layer和base layer,

文中我們用到的方法是通過低通濾波提取圖像的base layer,之後原圖再減去base layer得到我們的detail layer並輸入給神經網路。因此我們式子可以改寫為:

f是指神經網路的映射函數,w和b是神經網路網路參數。我們用的神經網路結構如下圖所示:

沒錯,就是最簡單版本的ResNet,我們去掉了downsample的步驟,使得輸出feature map的尺寸不會隨著層數增加而減少。在ResNet發表之前,更深的神經網路訓練起來較為困難,因此有一個觀點是認為low level層面的圖像處理任務使用淺層的網路結構即可,因此我們之前的一個工作只用了3層的神經網路來解決去雨問題http://ieeexplore.ieee.org/abstract/document/7893758/。然而,我們實驗結果證實了,如果解決了梯度彌散問題,更深的網路同樣能解決low level圖像處理任務。論文中我們最深用到了50層網路,去雨效果仍然不錯。

我們對比了無雨圖,有雨圖,殘差圖,以及detail layer的顏色直方圖統計:

直觀上講,如果讓網路從有雨圖直接映射到無雨圖(直方圖f映射到直方圖e),會比從detail layer映射到殘差圖(直方圖h映射到直方圖g)更容易嗎?實驗結果證明,答案是否定的。直方圖h類似於一種拉普拉斯分布,大部分的值為0,圖像看起來也比較稀疏,殘差圖同樣看起來比較稀疏,h到g的映射比f到e的映射顯然要容易得多,訓練過程中loss值也更低,而且能更快收斂。Detail layer降低了定義域範圍,殘差圖降低了值域的範圍,將問題本身簡化,使得網路能夠更好地學習到它們之間的映射關係。這一點與最初的ResNet通過簡單地改變層與層之間的映射形式使得網路更容易學習的想法不謀而合,但是我們的使用的是圖像處理領域知識來實現這一點。

最後貼上我們的一些結果圖:

具體地請見論文

http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Removing_Rain_From_CVPR_2017_paper.pdf


我主要關注temporal action localization ( 或者叫temporal action detection)方向。

這個方向主要是要在較長的視頻中定位動作發生的時間(開始及結束時間)以及動作類別。常用的資料庫包括ActivityNet 和 THUMOS。


先介紹一下2016年底之前的baseline,Shou Z在CVPR2016上的工作:

Shou Z, Wang D, Chang S F. Temporal action localization in untrimmed videos via multi-stage cnns[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1049-1058.

該方法利用C3D Network設計了一個多階段的網路用於動作定位,我之前寫過一篇筆記SCNN-用於時序動作定位的多階段3D卷積網路 - Will Lin的博客 。該方法在THUMOS2014資料庫上的mAP@0.5 為19.0%,是今年各個工作的baseline分數

今年這個方向的論文很多,各個資料庫上的baseline也提高了一大截。大神們真是讓人感覺壓力大啊.....下面簡要介紹一下這個領域我看到的幾篇CVPR2017文章(可能有遺漏,畢竟list還沒有出來),之後會再寫文章對這幾篇文章進行詳細的討論。


[1] Shou Z, Chan J, Zareian A, et al. CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos[J]. arXiv preprint arXiv:1703.01515, 2017.

鏈接:Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

Shou Z.新的工作。基於C3D(3D CNN網路)設計了一個卷積逆卷積網路,輸入一小段視頻,輸出frame-level的動作類別概率。該網路主要是用來對temporal action detection中的動作邊界進行微調,使得動作邊界更加準確,從而提高mAP。該方法在THUMOS2014資料庫上的mAP@0.5 為23.3%。在THUMOS2014資料庫上。該方法的速度非常快,可以達到500FPS。


[2] Xiong Y, Zhao Y, Wang L, et al. A Pursuit of Temporal Accuracy in General Activity Detection[J]. arXiv preprint arXiv:1703.02716, 2017.

鏈接:[1703.02716] A Pursuit of Temporal Accuracy in General Activity Detection

港中文湯曉鷗大神實驗室的工作。這個方法的pipeline很複雜,大致上是用TSN(Temporal Segment Network, 用於Action Recognition的state-of-the-art方法,也是他們組的工作)在視頻序列上每隔幾幀判斷該時刻屬於動作的概率(是動作/不是動作),基於這個概率的曲線提出了一種叫Temporal Actionness Grouping(TAG)的proposal方法。之後再進行類別的判斷。該方法在THUMOS2014資料庫上的mAP@0.5 為28.2%。

這篇文章對temporal action detection這個問題進行了非常細緻的討論,非常值得一讀。這個方法的主要缺陷我認為是速度,主要由於使用的TSN網路速度本身比較慢(而且其中使用的光流還需要預先提取一遍)。像他們做的AcitivityNet這個資料庫視頻時長有700小時,如果沒有足夠的GPU我感覺根本無法完成實驗...


[3] Gao J, Yang Z, Sun C, et al. TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals[J]. arXiv preprint arXiv:1703.06189, 2017.

鏈接:Temporal Unit Regression Network for Temporal Action Proposals

這篇文章採用了類似Faster-RCNN的思路,主要是作為proposal的方法。pipeline比較簡單。

該方法在THUMOS2014資料庫上的mAP@0.5 為25.6%。


[4] Wang L, Xiong Y, Lin D, et al. UntrimmedNets for Weakly Supervised Action Recognition and Detection[J]. arXiv preprint arXiv:1703.03329, 2017.

鏈接:[1703.03329] UntrimmedNets for Weakly Supervised Action Recognition and Detection

還是港中文CV實驗室的工作。這篇文章主要提出了一種可以用於 Action Recognition和Action Detection的弱監督方法。


從CVPR2016到CVPR2017, 在THUMOS14資料庫上的效果就提高了10%。速度真是快啊。。希望等完整的list放出來後可以看到更多的工作。


最後推薦一下我的論文筆記專欄CV論文筆記及其它 - 知乎專欄。之後應該會專門對temporal action detection這個方向進行介紹和討論。


似乎還沒有人提這篇,Deep Watershed Transform for Instance Segmentation ([1611.08303] Deep Watershed Transform for Instance Segmentation),semantic segmentation 到 instance segmentation,結合了CNN和傳統方法的思想,幾個實驗都很有意思。


不邀自來~

研習社邀請了劉凱博士為大家解讀了「Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally」(用於生物醫學圖像分析的精細調節卷積神經網路:主動的,增量的)這篇論文,它主要解決了一個深度學習中的重要問題:如何使用儘可能少的標註數據來訓練一個效果有潛力的分類器。
以下為當天分享的內容總結,更多精彩論文詳解歡迎點擊往期回顧:

今天我給大家介紹一下 CVPR 2017 關於醫學圖像處理的一篇比較有意思的文章,用的是 active learning 和 incremental learning 的方法。

今天分享的主要內容是,首先介紹一下這篇文章的 motivation,就是他為什麼要做這個工作;然後介紹一下他是怎麼去做的,以及在兩種數據集上的應用;最後做一下簡單的總結,說一下它的特點以及還有哪些需要改進的地方。

其實在機器學習,特別是深度學習方面,有一個很重要的前提是需要有足夠量的標註數據。但是這種標註數據一般是需要人工去標註,有時候標註的成本還是挺高的,特別是在醫學圖像處理上面。因為醫學圖像處理需要一些 domain knowledge,就是說醫生對這些病比較熟悉他才能標,我們一般人是很難標的。不像在自然圖像上面,比如ImageNet上面的圖片,就是一些人臉、場景還有實物,我們每個人都可以去標,這種成本低一點。醫學圖像的成本就會比較高,比如我右邊舉的例子,醫學圖像常見的兩種方式就是X光和CT。X光其實一個人一般拍出來一張,標註成本大概在20到30塊錢人民幣一張;CT是橫斷面,拍完一個人大概有幾百張圖片,標註完的成本就會高一點,標註的時間也會比較長。

舉個例子,比如標1000張,這個數據對 deep learning 來說數據量不算太大,X光需要2到3萬人民幣、3到4天才能標完;CT成本就會更長,而且時間成本也是一個很重要的問題。那要怎麼解決深度學習在醫學方面、特別是醫學圖像方面的這個難題呢?就要用盡量少的標註數據去訓練一個 promising 的分類器,就是說一個比較好的分類器。

那我們就要考慮要多少訓練數據才夠訓練一個 promising 的分類器呢?這裡有個例子,比如左邊這個圖,這個模型的 performance 隨著數據的增加是一個線性增長的過程,就是說數據越多,它的 performance 就越高。但在實際中,這種情況很少出現,一般情況下都是數據量達到一定程度,它的 performance就會達到一個瓶頸,就不會隨著訓練數據的增加而增加了。但是我們有時候想的是把這個臨界點提前一點,讓它發生在更小數據量的時候。比如右邊這個圖的紅色虛線部分,用更小的數據達到了相同的 performance。這篇論文里就是介紹主動學習 active learning 的手段,找到一個小數據集達到大數據集一樣的效果。

怎麼樣通過 active learning 的方式降低剛才右圖裡的臨界點呢?就是要主動學習那些比較難的、容易分錯的、信息量大的樣本,然後把這樣的樣本標記起來。因為這些是比較難分的,容易分的可能幾個樣本就訓練出來了,難分的就需要大量的數據,模型才能學出來。所以模型要先去學這些難的。

怎麼去定義這個「難」呢?就是「難的」、「容易分錯」、「信息量大」,其實說的是一個意思。這個「信息量大」用兩個指標去衡量,entropy大和diversity高。entropy就是信息學中的「熵」,diversity就是多樣性。這個數據里的多樣性就代表了模型學出來的東西具有比較高的泛化能力。舉個例子,對於二分類問題,如果預測值是在0.5附近,就說明entropy比較高,因為模型比較難分出來它是哪一類的,所以給了它一個0.5的概率。

用 active learning 去找那些比較難的樣本去學習有這5個步驟

  1. 首先,把所有的未標註圖片數據在大量自然圖像中訓練的網路,大家知道現在有很多常用的網路,從最初的LeNet、AlexNet、GoogLeNet、VGG、ResNet這樣的網路中去測試一遍,得到預測值。 然後挑出來那些最難的、信息量大的樣本去標註
  2. 用這些剛剛標註了的樣本去訓練深度學習網路,得到一個網路N
  3. 把剩下沒有標籤的圖像用N過一遍,得到預測值,挑一遍那些最難的,用人工去給它標註
  4. 把剛剛標註了的樣本和原來已經標好的樣本一起,也就是整個標註集拿來繼續訓練這個網路
  5. 重複3到4這個步驟,直到當前的分類器可以對選出來的比較難的圖像很好的分類了。

剛才的文字講解可能不是很直觀,我們用一個圖來看一下。這個圖從左到右看,一開始灰濛濛的意思是都還沒有標註,然後用一個pre-trained model去預測一遍都是哪個類。這樣每個數據上都有一個概率,可以根據這個概率去選擇它是不是難分的那個數據,就得到了中間這個圖,上面那一段是比較難的,然後我們把它標註出來。然後用一個 continuous fine-tune 的 CNN,就是在原來的模型上再做一次 fine-tune,因為有了一些標註數據了嘛,就可以繼續 fine-tune了。 fine-tune後的模型對未標註的數據又有了一個預測的值,再根據這些預測值與找哪些是難標的,把它們標上。然後把這些標註的數據和之前就標註好的數據一起,再做一次 continuous fine-tune,就得到 CNN2了。然後依次類推,直到把所有的數據都標完了,或者是在沒有標完的時候模型的效果就已經很好了,因為把其中難的數據都已經標完了。

剛才提到了兩個指標來判定一個數據是不是難分的數據。entropy比較直觀,預測結果在0.5左右就認為它是比較難分的;但diversity這個值不是很好刻畫,就通過 data augmentation數據增強的方式來設計指標,就是說從一個圖像設計出一系列它的變形。這些變形就可以是靠翻轉、旋轉、平移操作等等,一個變成了好幾個甚至十幾個,增加了它的多樣性。然後對這些所有的變形去預測它們的分類結果,如果結果不統一的話,就說明這副圖像的diversity比較強,那麼這張圖像就是比較難分的,是hard sample;反之就是比較好分的,那麼就不去做它的增強了。然後對所有增強以後的數據的預測值應當是一致的,因為它們代表的是同一個東西,但是也有一些例外,如果是像我剛才說的那樣的簡單的數據增強。

這就會產生一個問題,原始的圖像,比如左邊這隻小貓,經過平移、旋轉、縮放等一些操作以後得到9張圖,每張圖都是它的變形。然後我們用CNN對這9張圖求是一隻貓的概率,可以看到上面三個圖的概率比較低,就是判斷不出來是一隻貓,我們直觀的去看,像老鼠、狗、兔子都有可能。本來這是一個簡單的例子,很容易識別出來這是一隻貓,但是增強了以後反而讓模型不確定了。這種情況是需要避免的。

所以這種時候做一個 majority selection,就是一個少數服從多數的方式,因為多數都識別出來它是一隻貓了。這就是看它的傾向性,用裡面的6個預測值為0.9的數據,上面三個預測值為0.1的就不作為增強後的結果了。這樣網路預測的大方向就是統一的了。

這篇文章的創新點除了active learning之外,它在學習的時候也不是從batch開始,而是sequential learning。它在開始的時候效果就不會特別好,因為完全沒有標註數據,它是從一個ImageNet資料庫訓練出的模型直接拿到medical的應用里來預測,效果應該不會太好。然後隨著標註數據的增加,active learning的效果就會慢慢體現出來。這裡是在每一次fine-tune的時候,都是在當前的模型基礎上的進一步fine-tune,而不是都從原始的pre-train的model做fine-tune,這樣就對上一次的模型參數有一點記憶性,是連續的學習。這種思路就跟學術上常見的sequntial learning和online learning是類似的。但是有一個缺點就是,fine-tune的參數不太好控制,有一些超參數,比如learning rate還有一些其它的,其實是需要隨著模型的變化而變化的,而且比較容易一開始就掉入local minimal,因為一開始的時候標註數據不是很多,模型有可能學到一個不好的結果。那麼這就是一個open的問題,可以從好幾個方面去解決,不過解決方法這篇文章中並沒有提。

這個方法在機器學習方面是比較通用的,就是找那些難分的數據去做sequntial的fine-tune。這篇論文里主要是用在了醫學圖像上面,用兩個例子實驗了結果,一個是結腸鏡的視頻幀分類,看看有沒有病變、瘤之類的。結論是只用了5%的樣本就達到了最好的效果,因為其實因為是連續的視頻幀,通常都是差不多的,前後的幀都是類似的,不需要每一幀都去標註。另一個例子也是類似的,肺栓塞檢測,檢測+分類的問題,只用1000個樣本就可以做到用2200個隨機樣本一樣的效果。

這個作者我也了解一些,他是在 ASU 的PhD學生,然後現在在梅奧,美國一個非常著名的私立醫院梅奧醫院做實習,就跟需要做標註的醫生打交道比較多。這相當於就是一個從現實需求得出來的一個研究課題。

總結下來,這篇文章有幾個比較好的亮點。

  • 從標註數據來說,從一個完全未標註的數據集開始,剛開始的時候不需要標註數據,最終以比較少量的數據達到很好的效果;
  • 然後,從sequntial fine-tune的方式,而不是重新訓練;
  • 選擇樣本的時候,是通過候選樣本的一致性,選擇有哪些樣本是值得標註的;
  • 自動處理噪音,就是剛才舉的貓的那個例子,數據增強的時候帶來的噪音,通過少數服從多數的方式把那些噪音去掉了;
  • 在每個候選集只選少量的patches計算熵和KL距離,KL距離就是描述diversity的指標,這樣減少了計算量。傳統的深度學習的時候會需要在訓練之前就做數據增強,每個樣本都是同等的;這篇文章裡面有一些數據增強不僅沒有起到好的作用,反而帶來了噪音,就需要做一些處理;而且還有一些數據根本不需要增強,這樣就減少了噪音,而且節省了計算。

QA

Q:為什麼開始的時候 active learning 沒有比random selection好?
A:其實不一定,有時候是沒有辦法保證誰好。active learning在一開始的時候是沒有標註數據的,相當於這時候它不知道哪些數據是hard的,在這個醫學數據集上並沒有受到過訓練。這時候跟 random selection 就一樣了,正在遷移原來 ImageNet 圖像的學習效果。random selection 則有可能直接選出來 hard的那些結果,所以有可能比剛開始的active selecting要好一點,但這不是每次都是 random selection 好。就是不能保證到底是哪一個更好。


占坑,過幾天再補詳細內容,這裡只列論文列表和資料。如有錯誤,歡迎批評指正。

說句題外話,據說今年cvpr 投稿量多了40%,去年不愧是VR 元年,視覺這個領域越來越火了。不知道投稿量增加的情況下,審稿人是否也有相應的數量調整。估計今年iccv 投稿量也會增加很多,cvpr 斃掉的一般都會轉投iccv吧。一個領域繁榮是好事,然而潮水退去才知誰在裸泳。

個人比較關注的圖像處理方向:

  • Image-to-Image Translation with Conditional Adversarial Nets
    項目主頁: https://phillipi.github.io/pix2pix/

文章主要是基於GAN,提出了一個通用性模型網路,這個網路可以自動學習損失函數,對於不同的問題,只需要改變訓練數據就可以了,文章中列舉了很多從圖像到圖像的應用,具體應用可以看上圖。Gan是個可以出很多東西的新玩法,可以follow 。

  • Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction

面向非監督學習的新型自動編碼。對於原始數據X,將其劃分為兩個通道,X1、X2,每個通道可以得到其特徵表達F1、F2,根據F1可以預測出X2的估計,同時根據F2也可以預測出X1的估計。

現在貌似比較流行在知乎分析論文,官方論文列表還沒出來,下面是兩個在知乎發現的文章:

實時跟蹤,效果還不錯的工作:

  • Large Margin Object Tracking with Circulant Feature Maps https://arxiv.org/abs/1703.05020
    作者@和傻牛一起闖天下首發於知乎,專欄文章鏈接https://zhuanlan.zhihu.com/p/25761718
    侵刪。

  • 深度紋理網路,作者@張航

鏈接https://zhuanlan.zhihu.com/p/25013378


有評論指出何凱明大神的這篇不是CVPR,抱歉,是我沒有搞清楚,但是不管是不是CVPR,這篇文章都是值得關注的,放在最後了。

mask rcnn ,目標檢測加分割。文章地址http://arxiv.org/pdf/1703.06870.pdf 有一些公眾號已經分析過了。知乎也有相關問題鏈接。http://www.zhihu.com/question/57403701


本人比較關注目標檢測的工作。對抗網路如此之火,基本各個領域都涉及到了。

自然少不了object detection。

今年CVPR發現了一篇論文

A-Fast-RCNN: Hard positive generation via adversary for object detection

將對抗過程和目標檢測結合起來,是一個fast-rcnn的改進,取得了不錯的效果。


關注目標跟蹤相關濾波方向:

  • Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking [C]// In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.

Danelljan M大神力作,C-COT加速增效版,深度特徵ECO為6fps,HOG+CN版ECO-HC為60fps,今年的baseline,就問你怕不怕。。

  • Luke?i? A, Vojí? T, ?ehovin L, et al. Discriminative Correlation Filter with Channel and Spatial Reliability [C]// In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.

CSR-DCF作者整容比較強大,Tomá? Vojí?, Luka ?ehovin, Ji?í Matas and Matej Kristan領域內應該都很眼熟,這效果再配上13fps的速度,就問你看不看。。

  • Wang M, Liu Y, Huang Z. Large Margin Object Tracking with Circulant Feature Maps [C]// In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017.

有興趣可以去看首發--Large Margin Object Tracking with Circulant Feature Maps (CVPR 2017),速度可達80fps,作者親自講解你聽不聽。。

  • Jack Valmadre, Luca Bertinetto, Jo?o F. Henriques, Andrea Vedaldi, Philip H.S. Torr. End-to-end representation learning for Correlation Filter based tracking [C]// CVPR, 2017.

CFNet ,University of Oxford的全明星整容,這個是一定要推薦的,相關濾波終於不再滿足於用現成的深度特徵,論文還沒出來就先給代碼你服不服。。


如果對相關濾波類演算法感興趣,可以來這裡交流下:

https://www.zhihu.com/question/26493945/answer/156025576?group_id=835617484278210560


最近老師要求通讀CVPR2017的文章,邊看邊整理,整理了oralspotlight的標題、鏈接、作者、摘要和我自己的評論。有關注的可以一起努力,把Github上的項目完善,這樣通讀摘要,速度會快不少。

Github項目:CVPR 2017 論文摘要合集


謝邀


我也來斗膽強答一下我們的工作: End-to-end Learning of Driving Models from Large-scale Video Datasets


.我們的工作的核心是定義了如何從Vision的角度通過深度學習來實現自動駕駛, 並且與英偉達,和CMU的ALVINN的工作不同, 不僅僅在路況簡單的情況下可以實現"車道跟隨"(lane following), 而且可以處理更複雜的環境, 例如城市, 商業區等. 現有的深度學習的方法往往由於數據的原因被限制在固定的場景下, 我們使用大規模眾籌(crowd-sourced)視頻數據, 從而讓我們的模型可以更好地泛化.


我們沿著ALVINN的道路, 嘗試了端到端(end-to-end)的訓練方式, 並且證明了這樣的模型可以有效地達到自動駕駛的目的,同時隱含地學習出圖像中關鍵的信息. 並且加入了LSTM來進行對時間序列的建模,從而可以利用駕駛者的歷史信息. 我們還嘗試了用其他的task來增強我們主task, 我們用語義分割網路來對我們的主要駕駛網路進行finetune, 發現對主要的task有部分效果提升.


伴隨著我們的文章,我們將會在近期發布我們使用的數據集, 該數據集是目前市面上時長最長, 場景最豐富的自動駕駛數據集. 在我們的最終文章中會對這個數據集有更細緻的介紹(Arxiv版本暫未放出)


歡迎各位小夥伴討論以及來夏威夷聽我們的口頭報告~


文章鏈接: https://arxiv.org/pdf/1612.01079.pdf


貌似正式的paper list還沒有release,我來強答一波。

==================================

update:2017/7/24

CVPR 2017獎項公布了。。

Best Paper:

  1. Learning from Simulated and Unsupervised Images through Adversarial
    Training
  2. Densely Connected Convolutional Networks

Best Paper Honorable Mention Awards:

  1. Annotating Object Instances with a Polygon-RNN
  2. YOLO9000: Better, Faster, Stronger

==================================

列幾個比較sexy的工作,全是FAIR的工作:

ResNext:Aggregated Residual Transformations for Deep Neural Networks,何凱明與R.B.G大神的工作,在Resnet上面的改進的又一個baseline model,與 ResNet 相比,相同的參數個數,結果更好:一個 101 層的 ResNeXt 網路,和 200 層的 ResNet 準確度差不多,但是計算量只有後者的一半。

FPN:Feature Pyramid Networks for Object Detection,何凱明,R.B.G,P Dollar三個大神的工作,目前是single model最好的檢測模型,主要思想是通過不同層的feature map疊加,同時學習高層語義以及低層細節特徵,非常豪華的作者陣容,以及非常solid的實驗結果。。ps:最新剛出來的Mask RCNN,剛發出來就在arxiv看到論文,一看標題這麼短,再看作者陣容(又是你們三個人。。),就有一種發現大新聞的感覺。。。看了下論文。。果不其然,把detection,instance segmentation,keypoints detection一起做了。。太厲害了。

Learning Features by Watching Objects Move,R.B.G與Piotr Dollár大神的工作,主要是利用視頻中的結構化信息(光流信息,比如說始終在一起運動的某些光流被認為是一個object)...

==================================

MSRA的工作

Fully Convolutional Instance-aware Semantic Segmentation,MSRA的工作,作者是dai jifeng(R-FCN作者),End-to-end Instance-aware semantic segmentation,把mask prediction和classification聯合起來做,accuracy和efficiency都很高。

Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition,MSRA mei tao的工作,提出了一個全新的循環注意力卷積神經網路(recurrent attention convolutional neural network——RA-CNN),用互相強化的方式對判別區域注意力(discriminative region attention)和基於區域的特徵表徵(region-based feature representation)進行遞歸學習。

==================================

另外,@周博磊 大神在CVPR 2017將會組織一個Tutorial, 請到了R.B.G和Kaiming He,Xiaogang Wang,這個Tutorial主要討論「Deep Learning for Objects and Scenes」,好想去參加啊!!!

附上鏈接:Deep Learning for Objects and ScenesDeep Learning for Objects and Scenes


我主要關注 zero-shot learning(ZSL)方向。最近看到一篇

Yongqin Xian, Bernt Schiele, Zeynep Akata,

Zero-Shot Learning - The Good, the Bad and the Ugly

https://arxiv.org/pdf/1703.04394

這篇文章把ZSL領域的現狀批判了一番,以往發表的文章的實驗結果並不能良好地反映一個ZSL方法的好壞。benchmark數據集的default split不合理,evaluation protocols不合理。一些方法的結果不具有可比性,因為在提取特徵的CNN使用了pre-train model,而pre-train的使用的樣本是包含unseen類別的。隨後提出了一系列評價方法,最後自家的ZSL演算法又重回榜首。這篇文章挑了許多比較好的方法,整理歸納了一下,對了解ZSL幫助很大。某方法的實驗結果沒法復現,看得我也是很尷尬。

這種批判的文章讓我回憶起了Unbiased Look at Dataset Bias(2011CVPR),看完之後都感覺好慌。本人渣碩一枚,感覺實驗更難做了。


推薦一下我們自己的工作,基於非局部稀疏張量分解的高光譜圖像超解析度。方法非深度學習,做的也是傳統的視覺問題。文章主要的特色就是首先用張量表示的方法重新定義了高光譜圖像超解析度這一問題。文章暫時還沒公布。有興趣的話可以私信我。


轉一篇quora上 Zeeshan Zia 寫的回答 :

Since uploading papers on arXiv right after submission (for many, even before submission) became a thing – the main conference has lost its freshness. I was already aware of many of the kickass ideas in problems that I am interested in. Fortunately there were still a few pleasant surprises.

I』ll start by talking about the papers that I particularly liked, and end with observations on the rest of the program.

Main Conference: the papers

Most of the work that interested me can be filed under the following headings:

1. Artificial Intelligence

Overall CVPR seems to have transformed from a computer vision conference to an AI conference. A significant number of the papers presented weren』t talking exclusively about vision anymore.

The program was flooded with Visual Question Answering (VQA, vision + language) papers with a significant representation in the orals. To be honest, I was initially skeptical of these works. I thought of such attempts as chickening out of the really challenging problems of vision – as nobody expects strong results on entirely novel problems, and thus they are presumably easier to publish. However now, with ever increasing recognition accuracies, as we start saturating tag-level tasks, I feel that we will be holding ourselves back if we don』t start leveraging more sophisticated language constructs to describe visual concepts. On this, I was particularly moved by a talk by Ivan Laptev (at a workshop) where he pointed out the incredible diversity found in crowdsourced labels obtained for any given video snippet [0]. We communicate concepts via language, and thus the visual concepts we can model can only be as sophisticated as the language constructs we will use to describe them. My favorite capability tangentially related to VQA was demonstrated in 「Counting Everyday Objects in Everyday Scenes」 [1] – though I don』t really understand the approach yet.

Another paper that falls in the broad AI category is titled 「Image to Image Translation」 [2], and uses adversarial training to learn a variety of generative tasks in an unsupervised manner. The funny thing about this paper is that it has the same idea as Apple』s paper that won the Best Paper Award at the conference – whereas this paper didn』t even get a spotlight or oral presentation! I personally liked [2] better because it discusses many more applications and results. For that matter, the other best paper awardee, 「Densely Connected Convolutional Networks」 is a minor extension on top of last year』s best paper (ResNet). Fortunately, the rest of the awards went to truly deserving works and I can recommend checking them out.

Another work that I found quite interesting was on predicting future behavior of traffic participants employing deep inverse optimal control [3].

Finally, a magical, nearly unbelievable work is [4] which uses a CNN to reconstruct a few hundred dimensional EEG signal recorded by showing human participants images of 40 ImageNet classes. The paper shows that classifiers trained on this feature representation (mimicking human cortical spikes just for 40 classes) perform en par with traditional CNNs trained on 1000 classes! Not only that, the authors announced their accepted ICCV paper, where they invert EEG signals to images that the human is looking at, employing GANs. They are able to reconstruct what you are seeing with your eyes just using EEG signals from your brain!!! Kaboom! That just blew away my mind. I have subscribed to the authors』 Google Scholar profiles and eagerly look forward to that ICCV paper becoming available.

2. Return of domain knowledge

One major shift in the tide that I felt this CVPR, is towards incorporating explicit domain knowledge into otherwise data-driven models. It seems that the community spent the last couple of years exploring rather generic CNNs/LSTMs/GANs and has started seeing a plateau in performances.

There are two ways by which model-driven ideas are being revisited: with novel layers or losses and by exploiting auxiliary training objectives

My favorite paper at the conference, that I hadn』t even seen before is called 「Learning shape abstractions by assembling volumetric primitives」 [5]. It revives decades old ideas that represented 3D objects using generalized cylinders and geons but in a CNN context. The method learns to encode an object class using a small set of oriented cuboids, employing an autoencoder with a constrained output representation for the task. I have been thinking hard about the problem of representing 3D objects using primitives myself, and couldn』t come up with such an elegant (almost) unsupervised solution – nor have I seen anything like this in recent literature.

Another interesting work is called 「Deep Kinematic Pose Regression」 [6] which proposes a novel layer and loss to enforce that human body pose estimates emanating within a CNN obey realistic kinematic constraints.

3D face reconstruction is performed in [7] from a single image, by introducing a proper graphics renderer as a layer inside a CNN; whereas [8] incorporates a linear program as a layer in a CNN for the task of multi-object tracking. Since part-level reasoning is even more important than global object-level reasoning for fine-grained categorization, [9] leverages an attention module sandwiched between a coarse-scale and fine-scale CNN as in [7].

Apart from exotic layers and losses, the second route to injecting domain knowledge into CNNs is through auxiliary supervision. Our own paper [10] shows how a CNN can be trained entirely on (photo unrealistic!) synthetic data – without pretraining or fine-tuning on real images - by supervising the network along depth by multiple relevant concepts in order. As opposed to supervising with a single task, or even multiple tasks at the output node – this strategy avoids overfitting, and enables the unique richness of labels and modeling of occlusions that 3D CAD data can provide. Ofcourse this observation is not limited to us: at a workshop Raia Hadsell talked about some exciting work on deep reinforcement learning applied to agents navigating 3D mazes taking in RGB images, where asking the network to predict depth as a side-task helps even more than providing depth as an input!

At a workshop, Fei-Fei Li described her recent attempts at reviving GOFAI ideas from the days of Winograd, to improve visual-language modeling. While her group』s initial attempts at image captioning type of problems were purely data-driven, she claimed she doesn』t believe language problems can be solved using data alone, irrespective of the amount of training data available – together with learnable components some degree of explicit symbolic modeling will be indispensable!

3. Differentiable modules:

Opposite to papers described in the previous section, there were also a few trying to replace still remaining explicit algorithmic blocks in computer vision pipelines with differentiable modules.

Learning non-maximum suppression [11] reasons about pairs of object detection hypotheses emerging from a generic object detector and rescores them to ensure that there will only be a single bounding box predicted per object when the detections are thresholded by score.

IM2CAD [12] defines a special layer to perform template matching in the context of fitting 3D CAD models to objects in images. I like the work particularly because so far CAD instance alignment had been dealt exclusively using non-neural network approaches, which I always found quite surprising. Even ECCV 2016 papers were using random decision forests or differential image analysis techniques for the problem! The paper does CAD models alignment in the context of a holistic scene-level reasoning pipeline.

Leonidas Guibas』s group presented a number of papers on directly applying CNNs to point clouds, avoiding the need to convert them to a more structured voxel grid representation first [13].

3D keypoint descriptors are learnt in [14] like many recent works for 2D, but I found the application to intra-class 3D CAD model alignment to be particularly exciting. This capability may enable utilization of 3D CAD models for object recognition, which is something that I have built my career around, in a completely unsupervised manner! [Note to self: actually [5] may also be relevant for this.]

4. Dataset papers

Since the revival of deep neural networks, every other paper at the last few CVPRs has been proposing a new dataset. This trend continued at this meeting too.

The one dataset paper that I really liked had released a synthetic 3D dataset comprising of 40K houses with finely labeled objects, at the level of CAD model alignments [15]. This is going to be a major help to researchers working in 3D scene understanding, going beyond bounding box level object recognition problems that are only relevant for web applications but useless for robotics.

Industrial Exhibits

The tradeshow at CVPR has grown exponentially over the past couple of years. This year we had dozens of startups demoing really cutting edge examples of productized computer vision. In particular, it seems that Chinese startups can make any vision algorithm work in real-time on palm sized smart cameras! My previous job was in the Silicon Valley, and I got adequate opportunity to visit and interact with vision startups there [thanks to Quora!], but I have a strong feeling that Shenzen is beginning to kick Bay Area』s ass when it comes to vision/learning innovation.

One of these startups is Vion Technologies Inc. founded by SRI veterans, who were demoing half a dozen different applications in automated cloud-less visual surveillance. I have not seen smart cameras with this level of capability.

A startup called PIXM from New York (I think), was demoing their computer vision based solution to prevent phishing on the internet. I found the idea and execution to be incredibly convincing. I keep needing to tell my less technically sophisticated family and friends to avoid clicking on suspicious looking links, and yet even graduate degree holders in CS I know have entered all their details on fake Amazon page! I feel dumb now, that I never imagined computer vision had a part to play in solving this.

My team mates at Microsoft revealed our new neural network chip specifically targeting visual edge intelligence, as well as a research mode for HoloLens. Now researchers will be able to access the sensor streams inside of HoloLens. As a postdoc exploring semantic SLAM a few years ago, I was often frustrated at the sheer amount of engineering effort it took to get precise camera tracking to work, so that I could start incorporating visual recognition into the pipeline. I have no doubt in my mind that HoloLens』 research mode will be an even bigger hit in the research community than Kinect.

I wonder if soon CVPR will replace CES for vision and learning products – with CEOs unveiling their new products here. Speaking of CEOs, I spotted Nvidia』s Jensen Huang roaming around this CVPR as well, just like last year. I know that a few friends of mine received direct recruiting emails from him after last year』s meeting!! This sounds like a great way to ensure all the star scientists land at Nvidia.

Oh, and Apple has a booth at CVPR now [finally].

In short, if you want to hire top talent in vision and learning, or you are startup looking for business, CVPR is the place to be!

Workshops Keynotes

The best talk I heard at CVPR by far was the keynote by James DiCarlo. Perhaps we needed somebody from outside the community to teach us how to give a good talk, as most of the oral and spotlight presentations at vision conferences are horrible. He talked about how advances in deep neural networks are helping explains human visual cortex among other things. If you weren』t there, I can strongly recommend watching the talk when it gets posted online.

I really liked the workshop on 「Visual Understanding Across Modalities」 organized by A2I. A2I organizes three vision + AI challenges that are all ahead of the curve. I love the Thor challenge, which bypasses the robotic manipulation problem, and involves perception and planning in realistic indoor environments. As opposed to deep RL driven navigation and planning work being done at DeepMind in rat-maze like environments, I found Thor to be a lot more convincing.

Another nice talk by Jianxiong Xiao at the 「Deep learning for robots」 workshop included pausing Tesla』s inner-city self-driving video and pointing out how crappy their object detector is – highlighting that we should have little faith in demo videos. Anybody can record a hundred demo experiments, and share the one instance where their system works!

While many people in the robotics community are leveraging deep reinforcement learning to teach robots by demonstration, Ashutosh Saxena mentioned some of his work [16] on jointly modeling language, perception and planning that sounded amazing.

I have long wondered why we can』t just simulate physical contacts for robotic manipulation or locomotion (think legged robots), instead of needing to build real robots. Jitendra Malik finally answered my question, that the problem is not in modeling the physics behind these interactions which is simple. The problem is that we don』t yet have detailed catalogs of material properties like friction, elasticity which are needed to make these models work. He pointed out that the graphics community had to go through such an elaborate exercise over the past few decades modeling how light interacts with various materials, before they managed to succeed in delivering realism in their works.

Maybe most importantly, Honolulu was an amazing place to visit. I feel fortunate that we as a community are commercially relevant enough that we don』t have to hold our conferences in Omaha! It was very clever of the organizers to leave half a day free in the middle of the conference, so people could do a bit of tourism. I didn』t get to visit any of the other Hawaiian islands, but did go to a couple of beaches, Pearl Harbor sites, as well as for a hike on the Three Peak mountains trail. This trail passes through thick forest, and on my way back, I got separated from my group and lost in the forest and ended up calling 911 after spending a couple of hours searching for the exit!! Hats off to the amazing fire department staff who immediately came to my rescue. Request to HERE Maps people. Can you please add a feature to show latitude and longitude in your app as well?

That』s all folks!

[0] Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding.

https://arxiv.org/pdf/1604.01753...

[1] Counting Everyday Objects in Everyday Scenes https://arxiv.org/pdf/1604.03505...

[2] Image-to-Image Translation with Conditional Adversarial Networks.

https://arxiv.org/pdf/1611.07004...

[3] DESIRE: Distant Future Prediction in Dynamic Scenes with Interacting Agents.

https://arxiv.org/pdf/1704.04394...

[4] Deep Learning Human Mind for Automated Visual Classification

https://arxiv.org/pdf/1609.00344...

[5] Learning Shape Abstractions by Assembling Volumetric Primitives

https://arxiv.org/pdf/1612.00404

[6] Deep Kinematic Pose Regression

https://arxiv.org/pdf/1609.05317...

[7] Learning Detailed Face Reconstruction from a Single Image

https://arxiv.org/pdf/1611.05053...

[8] Deep Network Flow for Multi-Object Tracking

https://arxiv.org/pdf/1706.08482...

[9] Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

http://openaccess.thecvf.com/con...

[10] Deep Supervision with Shape Concepts for Occlusion-Aware 3D Object Parsing

https://arxiv.org/pdf/1612.02699...

[11] Learning non-maximum suppression

https://arxiv.org/pdf/1705.02950

[12] IM2CAD

https://arxiv.org/pdf/1608.05137...

[13] PointNet: Deep Learning on Point Sets for 3D Classi?cation and Segmentation

https://arxiv.org/pdf/1612.00593...

[14] 3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions

3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions

[15] Semantic scene completion from a single depth image

Semantic Scene Completion

[16] Deep multimodal embedding: Manipulating novel objects with point-clouds, language and trajectories

https://arxiv.org/pdf/1509.07831...


作者是微軟亞研梅濤研究員。
期待文章放出來。


本來醞釀寫一篇長回答,再次審題之後默默刪除了…

到底有幾個人和我一樣看成CRV 2017的…

(╯‵□′)╯︵┴─┴


推薦閱讀:

你們家的人工智障掃地機器人出現過哪些讓人啼笑皆非的事情?
如何評價 UCLA 朱松純教授近日訪談中對深度學習的批評?
目前的人工智慧離可以自己給自己寫代碼編程還有多遠?
為什麼 Siri 不能聯繫上下文跟你對話?
未來 3~5 年內,哪個方向的機器學習人才最緊缺?

TAG:人工智慧 | 機器學習 | 計算機視覺 | 深度學習(Deep Learning) |