如何評價 Kaiming He 在 ICCV 2017 上拿下雙 Best 的 paper?

iccv2017前方消息,kaiming He大大拿下了可怕的雙best,如何評價這兩篇論文的工作?

圖源來自朋友圈王乃岩大大 @Naiyan Wang ,前方iccv2017。


非常佩服Kaiming, 不僅是一直都有很好的paper,而且真正在研究的一線工作。

kaiming最好的工作基本都是自己一作做出來的,這和很多教授,researcher靠手下的人偶爾迸發出一兩篇好的paper撐門面不一樣。其實很多做到kaiming這種senior的人都不自己做實驗或者寫paper了,甚至有的剛博士畢業沒多久的就已經靠手下的學生幹活,自己改改paper過日子了。這樣對最前沿的sense肯定是不夠的。而kaiming感覺一直都親力親為的做research。只有這種自身非常厲害,又親自在一線的的人才能持續的輸出高質量的paper。


謝邀,當然歷史記錄般的厲害咯,恭喜愷明。跟愷明也算是關係戶,認識六七年了,中大讀碩的時候跟他就有一年overlap,後來斷斷續續保持聯繫,今年一塊辦了個CVPR"17 tutorial Deep Learning for Objects and Scenes (廣告:講座視頻已經上傳)。好久沒寫知乎了而且去ICCV不能,那今天我就來寫幾句我眼中的愷明師兄吧。

其實從他發Dark Channel那篇論文開始,我就挺關注他的研究工作。那時候還是前Deep Learning時代的計算機視覺,一切都還不怎麼work,還流行著LDA和各種graphical models。他那幾篇low-level vision的論文讀完就讓人有眼前一亮的感覺,很多時候論文的立意都是從現象出發,然後追溯到背後的本質,然後再提出了一個樸實有效的解決問題的辦法。雖然我自己不做low-level vision,但這些論文讀完讓我有 「啊哈」 的欣喜感覺,受到挺大的啟發。這種從現象和問題出發追溯本質的思想,給他後面更加優秀和廣為人知的工作埋下了重要的伏筆。

後來愷明從中大(CUHK)博士畢業在MSRA當研究員的時候就開始領隊打ImageNet比賽了,做image classification的問題。從low-level vision到high-level vision,對於一般研究者,本來是個挺大的轉變。但這恰好趕上了deep learning的浪潮,如何訓練更好的分類神經網路本身是個非常empirical的研究問題。神經網路太複雜了,很難有什麼理論指導,所以這玩意更像一個現象。

這樣,愷明之前的從現象到本質的研究方式讓他發現了神經網路中很多的問題所在,並提出了一些很有效的解決辦法。比如說從防治gradient vanishing問題, 導出了Parametric ReLU,以及進一步提出後來封神的ResNet(關於這個ResNet的問題,可以參見我另外一個回答(周博磊:為什麼現在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上調整的?)。再比如針對在object detection里如何更有效地利用CNN feature map, 提出了Spatial Pyramid Networks,到後來Fast RCNN, 跟Ross一起的Faster RCNN, 以及現在獲獎的Mask RCNN。你可以很清楚地看出這些優秀研究工作的連貫性。在一個研究問題上死磕5,6年,在現在這個亂花迷人眼的時代非常難得。而且這image classification and object detection是計算機視覺的核心問題,愷明能解決得如此漂亮,真是由衷佩服,對這個領域推動也是巨大的(連AlphaGo Zero都用了residual block,可以想像Resnet是如何應用到計算機視覺的研究和產品線中去的)。當然,愷明的這些研究工作有很多頂級優秀的Collaborator參與,比如說他MSRA的孫老大(現Face++),兩位頂尖實習生Xiangyu Zhang, Shaoqing Ren,以及FAIR的頂尖高手Ross和Pitor等等,這裡就不展開了。

愷明去年夏末的時候才從MSRA到美國來加入Facebook AI Research,一年不到就搞出了MaskRCNN這個黑武器。MaskRCNN是semantic segmentation和object detection的一個結合,成為了instance segmentation的利器(去年寫過一篇關於instance segmentation的回答周博磊:Instance Segmentation 比 Semantic Segmentation 難很多嗎?,想不到MaskRCNN這麼快橫空出世)。Facebook內部工程線上面都廣泛部署了Resnet和MaskRCNN,想必對公司貢獻是非常大的。三周前我剛去FB總部參加了一個workshop,跟他聊了些近況和新的研究方向。你們的愷明大神還是依舊戰鬥在coding最前線的,哈哈,我是不會透露他正在蘊釀下一個什麼大招的,大家期待就是了:)。

最後,大家可以再留意一下ICCV"17最後一天(也就是這周末)的Workshop COCO + Places 2017 。我參與舉辦了這次joint challenge,比賽項目是object detection, keypoint detection, scene parsing, instance segmentation等等。一個看點是,Kaiming和Ross所在的FAIR團隊如何對壘中國的一些視覺公司如Face++和SenseTime等等。比賽結果會在當天揭曉。結果是挺有意思的,也值得大家思考。


ICCV的熱點已過,忙裡偷閒,來寫寫我心目中的偶像吧。寫在前面,我可不是這兩年跟風best paper追星,佩服Kaiming是實實在在從14年跟Kaiming在ImageNet比賽「交鋒」過之後就開始了。Kaiming也是對我觸動最大的兩個老師之一,可以說Kaiming很大程度上影響了我很多關於research的三觀,包括到怎麼定義一個好的工作,怎麼把一個想法做紮實。以至於我很多時候遇到很多難題,都會想如果是Kaiming遇到這個問題會怎麼想怎麼處理。

現在很流行一個詞,叫做「賦能」。在我眼中,Kaiming,Ross做的恰恰是在計算機視覺這些重要的High level任務中「賦能」的工作。Kaiming的很多工作都是第一眼看上去會覺得這就完了?這一點也不fancy啊。再到後來細細品味,會覺得蠻有insight。再到最後會很懊悔,為什麼這麼簡單有效的工作我不能自己想出。從Kaiming涉及DL開始,從基礎網路(ResNet)到Detection(Faster RCNN)再到Instance Segmentation(Mask RCNN)一次次地重新定義了經典和「baseline」。

另外一點我很佩服Kaiming就是非常善於從一些細節出發,以小見大,從一些看似trivial的點耐心深入,從而挖掘出背後的insight。一系列的文章都是如此。
舉一個例子,其實在14年kaiming參加ImageNet比賽的時候沒法train大於10層的網路,原因是當年流行的Gaussian初始化訓練一定會出問題。當年我在百度實習的時候,試出了Xavier初始化對於深度的網路訓練很有幫助,但是也沒有去考慮更深入研究背後的一些原因。當時在ECCV的時候和Kaiming交流提到了這一點,我也沒有在意。另外在差不多同樣的時間點(大概14年底?)上,和MXNet的小夥伴們也發現Relu可能是很有問題地方,做了一個Random Relu,雖然在小數據上挺work的,但是ImageNet上沒什麼幫助,就被我們扔到一邊去了。後來的故事大家就應該都知道了,Kaiming通過改進Xavier初始化和Relu第一次在ImageNet上超過了人類的水平。這一次其實給我的觸動就挺大的,後來思考了很多,也深刻明白了差距。

很可惜,一直沒有一個和偶像一起工作學習的機會,希望以後能有這樣的機會吧 :-)


kaiming he拿了好多頂會的best

去霧一個
殘差網一個
mask rcnn一個
focal loss一個

今年fb中的iccv paper中五分之一的paper跟他有關係

還是當年的廣東高考狀元,在清華各種國獎

kaiming he簡直超級賽亞人


該拿的獎也拿了,kaiming就趕緊開源mask rcnn吧,不然各大視覺公司預研組的績效要難看了。
TuSimple在GitHub上更新了一版mxnet maskrcnn,在Cityscapes上復現了結果,git clone工程師們開始加班跑測試吧!


所以呀,想拿 best paper, 一定得啃硬骨頭,做主流 task


向KaimingHe勢力低頭。。。


第一反應,突然想起了另外一些關聯的問題,就是那些什麼「曾經的高考狀元後來都怎麼樣了...」 ,這應該就是一個很正面的例子,曾經的廣東省理科狀元(執信中學的童鞋,你們的校友哦~),做了一個很好的榜樣。

不過真的不要忽視paper裡面的其他作者,特別是其中一篇的一作(風頭直接被蓋過了,sad...), 至於其他的作者也都是榜樣級別的。


膜拜Kaiming 大神,Best paper數量都超過我paper的數量了,情何以堪……


人和人之間的差距真是比人和狗之間的差距還大。。


其實個人更看好deformable conv, 奈何mask RCNN大佬多 攤手╮(╯▽╰)╭


Mask R-CNN 第一份開源代碼剛剛由圖森放出,MXNet實現的,大家可以參考學習。 https://github.com/TuSimple/mx-maskrcnn

毫不誇張的說,自動駕駛使用的視覺技術多少都和他的paper有關。ResNet,RCNN都是人工智慧從業者最熟悉的卷積神經網路架構,不但獲獎無數,實際應用也十分廣泛。最重要的是已經身為Facebook AI Research Scientist的他並沒有停止腳步!從他之前paper的引用和影響力來看,今天的雙best paper絕對是順理成章,實至名歸。

下面列出一些重要的供大家參考。

「Mask R-CNN」 iccv 2017 Marr Prize (ICCV Best Paper Award)

paper: https://arxiv.org/pdf/1703.06870.pdf

"Deep Residual Learning for Image Recognition" is the most cited paper published in CVPR 2016.

paper: https://arxiv.org/pdf/1512.03385.pdf

caffe model: https://github.com/KaimingHe/deep-residual-networks

"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks" is the most cited paper published in NIPS 2015.

paper: https://arxiv.org/pdf/1506.01497.pdf

caffe python model: https://github.com/rbgirshick/py-faster-rcnn

"Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification" is the most cited paper published in ICCV 2015.

paper: https://arxiv.org/pdf/1502.01852.pdf


Kaiming還評價什麼評價!要是隨便評價咱長了膝蓋幹什麼的!就是這個時候跪就好了啊!


感慨良多...

最大的感觸有兩點:

  1. Simple, clean yet effective
  2. 如何講好一個 paper 的故事真的是無比重要

唯一驕傲的就是,大神的paper在沒拿獎前就已經仔細研讀了;

===============================================================

驕傲得好心酸。。。


就差ECCV了,期待集齊三大會best paper,召喚CV界神龍。


求代碼的各位,圖森放出了他們復現的mask rcnn代碼。當然了,是mxnet版本的。

https://github.com/TuSimple/mx-maskrcnn


應該就是那種既羨慕,又祝福,同時又著急的感覺吧。羨慕能有如此卓越的work,同時又希望能在未來看見更多大神們的作品,最後是著急自己何時能也踏上這樣的舞台吧。可能我是評論里唯一一個眼光如此狹隘的人了。。。。


這下可以開源源碼了吧,等了半年了。

就這麼點出息。。。。。


kaiming很屌。。。但說實話,這兩篇加上DenseNet(CVPR的Best Paper),我看的時候並沒有當時看ResNet那種「哇,金色傳說!」的感覺。。。

期待kaiming的下一個大新聞!


推薦閱讀:

寫一個操作系統內核有多難?大概的內容、步驟是什麼?
iPhone 5s 配備的 A7 處理器是 64 位,意味著什麼?
CPU 的摩爾定律是不是因為 10 納米的限制已經失效了?10 納米之後怎麼辦?
為什麼計算機能讀懂 1 和 0 ?
《黑客帝國》中的先知是人還是程序?

TAG:人工智慧 | 機器學習 | 計算機科學 | 計算機視覺 |