深度學習(如100層)為什麼不過擬合?

這篇文章在Image Net上用了152層的深度神經網路,為什麼不過擬合?

He, Kaiming, et al. "Deep Residual Learning for Image Recognition." arXiv preprint arXiv:1512.03385 (2015).

上面的文章是源於這個19層的VGG神經網路。

Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556(2014).

按理說隨著層數增多過擬合的危險越來越大,為什麼100多層了還沒有過擬合?


1. 參數越多,過擬合的風險越大,但不一定就肯定過擬合

2. imagenet數據集夠大

3. 現在看來imagenet數據集的top1準確率還有提升空間

4. 最近新論文identity mappings in deep residual network,已經把網路層數推到200了


因為residual networks實際上沒有那麼多層,其實residual networks 並沒有通過保存梯度信息流在整個深層次(100多層)的網路中來解決梯度彌散的問題,而是通過對一些相對短小的網路做了ensemble,所以光看深寬度還沒用,還有個新的維度,multiplicity-the size of the implicity ensemble。

Residual Networks are Exponential Ensembles of Relatively Shallow Networks

https://arxiv.org/abs/1605.06431


一樣會過擬,只是你還未訓練到過擬點,就已經state of the art了.....


全世界做deep learning的人,都想知道這個問題的答案。


應該是數據集足夠大吧


知乎傳統,為什麼之前,先問是不是……


因為它其實只有18層。


因為有個恆等映射。在訓練的時候,如果梯度變化會讓誤差變大,那麼就不會傳播梯度了。

到最後,其實真正在傳播梯度的也就那麼幾層,和淺層網路一樣。


最近也聽到另外一種說法 其實已經過擬合 但是泛化性能好測試集表現照樣厲害。。。


增加了層數,其實參數增加並不多,像最早的alexnet,由於有兩個full connected層,參數比googlenet還多


數據集夠大,小步慢走吧,結果更加優化了。


推薦閱讀:

如何評價 MIT Deep Learning 這本書?
如何評價「膠囊理論」和其論文 Dynamic Routing Between Capsules?
如何用c++在mnist上實現一個簡單的卷積神經網路,有哪些參考資料?
如何看待《Deep Learning without Poor Local Minima》?
RBF神經網路和BP神經網路有什麼區別?

TAG:計算機視覺 | 神經網路 | 深度學習DeepLearning | NIPS |