如何評價ILSVRC2015?
MSRA的這個玩意兒,其實細看會發現,它是上半年的highway networks的一個特例。 最主要的貢獻,應該是把這種很深的highway networks在主流的benchmark上做了一遍,並且實踐證明:1.這麼深的網路效果比淺的好多了;2 highway networks能夠在很深的網路訓練中還能保持梯度穩定,不易消失或爆炸。 相信不久後會有一堆工作出現類似的網路結構。
residual block 其實就是 transform function T 為兩個卷積和一個relu, transform gate是一個data independent 值為0.5 的一個 highway layer。...殘差只是 kaiming 的換了種說法的馬甲..
題主和我一樣是Kaiming哥粉,鑒定完畢。
這個深層網路模型 Deep Residual Learning for Image Recognition: http://arxiv.org/pdf/1512.03385.pdf [1]。你們感受下:
This result won the 1st place on theILSVRC 2015 classification task. We also won the 1st
places on the tasks of ImageNet detection, ImageNet localization,
COCO detection, and COCO segmentation。
說一下個人的理解:
首先從網路結構說起,文章最主要的思想是借鑒了所謂residual function的思想,其最主要的意圖在於更容易的進行預測下一層網路。上圖中的輸出 H(x) = F(x)+x 就是x層上面的某一層,注意到有一個x在裡邊,因此這一層最簡單的初始化就是x,這樣的操作使得訓練時 (a)更容易收斂(b)不增加模型參數。(有童鞋認為是在模擬殘差,我在這一點上持保留意見。)這個模型同時借鑒了[2]的思想(a)batch normorlization 和(b) 將最後的FC以及dropout替換掉(因為沒用FC使得模型參數大大減少)。
作者驚奇的發現,隨著網路層數的增加,訓練的error不斷下降!
與highway networks這篇文章[6]思想有一些相似,感興趣的童鞋一起拜讀,而且Imagenet上的結果也證明了這種思想的有效性。
目標檢測
在目標檢測上,可以認為該組使用了現有的目標檢測幾乎所有的trick(a) ImageNet預訓練, COCO finetune,pascal finetune.(b) multi-region box voting [3](c) RPN for proposal [4]
(d) 全圖信息作為context [5](e)multi-scale testing
結果就是,在幾個比較challenge的數據集上都取得了大約10個百分點的提高。
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition, arXiv:1512.03385[2] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015[3] S. Gidaris and N. Komodakis. Object detection via a multi-region semantic segmentation-aware cnn model. In ICCV, 2015.[4] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.[5] Ouyang W, Wang X, Zeng X, et al. Deepid-net: Deformable deep convolutional neural networks for object detection. In CVPR 2015[6] Rupesh Kumar Srivastava, Klaus Greff, Jürgen Schmidhuber. highway networks, arXiv:1505.00387網路方面:深度確實很重要,一方面非線性變換帶來的收益十分顯著,另一方面可以通過減小卷積元的辦法減少參數量(記得論文里VGG是19billion這個是11好像),這兩個點怎麼看都是只賺不賠。而且通過短接使得誤差可以迅速地向後傳播,按照論文里的說法,更容易訓練,簡直是血賺。我從沒看文章到看完後的心路歷程大致是:150層的網路?這怎麼做出來的,感覺VGG已經差不多了啊→哎這個好像很合理啊→卧槽牛逼。。。。。。
framework方面:在檢測任務上還結合了MSRA自己的faster-RCNN,也是取得好成績的重要原因,這種End-to-end的思想似乎開始慢慢佔據主導地位了。聊兩句題外話,個人覺得Kaiming是good idea和實現能力的完美結合,有的人可能一開始想到一個好點子,但是苦於某種技術上的原因,或者自身姿勢水平有限,做不出來;有的人可能實現能力很強,但是只能跟著別人走,所以文章里基本是別人各種方法的組合。Kaiming大神既有他人想不到的idea(暗原色已經說爛了吧都),也有出色的實現能力(一般人你跟他說你去設計一個150層網路肯定能拿明年ILSVRC第一他估計也設計不出來)。當然實現能力是很重要的,別人論文里結果秒天秒地,結果自己拿來訓練網路都不收斂(比如本菜雞)也是不行的。
這個網路的一個非常重要的優點是它(目前看起來)非常地接地氣,一看就覺得好理解,有道理,而且應該會容易實現,負擔小,這是很重要的。ILSVRC2014結果出來以後大家的關注點都放在GoogleNet上,但是後來用的最多的還是VGG16,因為VGG16的設計思想非常樸實,而且拿來很容易就能用,也吃不了太多資源就能自己訓練。
(話說coco都已經59了。。。這個領域是不是快飽和了)10分鐘過完文章……然後就覺得……卧槽,這特么不是數值分析嗎!卧槽,太神奇了啊!kaiming大神你為什麼這麼吊!!
竟然能把數值分析裡面的殘差的思想用到CNN中……kaiming大神真的是牛逼,角度拔群。不過shortcut connection當初提出的時候就是模擬殘差法的嗎(不是很了解,應該是吧)。即使思想早就有了,那也是九幾年了,kaiming大神能把他發揚光大,真是厲害。再看看其他做det的,就是1415年火的方法堆在一起,什麼fast,faster,multi-region……再搞個多model,這就是差距啊……逼格就不是一個量級的。
文章的核心思想十分簡單
之前的網路訓練呢,是讓網路模擬一個未知的H(x),理論肯定可以,但實際特別容易訓歪。用了shortcut connection後,改成了模擬殘差,訓練的過程變成了一步步讓殘差逼近0,讓網路模擬0就可以了……文章中的實驗也驗證了這一點,deep network比shallow network效果差 not caused by overfitting。只是因為你沒有找到optimal……多麼憂桑的故事……more deeper, more better,果然是王道。最後,看一下kaiming大神的裝逼
Our deep residual nets can easily enjoy accuracy gains from greatly increased depth, producing results substantially better than previous networks.easily enjoy,無可反駁……
最後的最後,誰能想到國內保研最好的選擇是msra聯合培養博士……一股淡淡的憂傷……大幅提高的mAP
以及MSRA的秒天秒地-------------------------
150多層啊槽。。。http://arxiv.org/pdf/1512.03385v1.pdf152層的網路的性能其實應該和google的inception v3差不多。
CV狗看到結果後就想到該轉行了。。。
152層!!!我很想知道他們用的是什麼配置的機器,訓練花了多長時間!!!
150層,這是真的很叼……而且值得注意,這個net在每個task上基本都是第一,說明transfer能力極強
這種幾百層和lstm串幾百個詞有可比性嗎?
推薦閱讀:
※如何理解CNN在CV與NLP領域運用的聯繫與區別?
※計算機視覺的應用前景如何?可能有哪些不錯的應用?
※如何ensemble多個神經網路?
※如何自學平面設計專業的幾個軟體?
※VOT2016有什麼值得關注的?
TAG:計算機視覺 | 深度學習DeepLearning |