深度學習(如100層)為什麼不過擬合?
01-05
這篇文章在Image Net上用了152層的深度神經網路,為什麼不過擬合?
He, Kaiming, et al. "Deep Residual Learning for Image Recognition." arXiv preprint arXiv:1512.03385 (2015).上面的文章是源於這個19層的VGG神經網路。Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556(2014).
按理說隨著層數增多過擬合的危險越來越大,為什麼100多層了還沒有過擬合?
1. 參數越多,過擬合的風險越大,但不一定就肯定過擬合2. imagenet數據集夠大
3. 現在看來imagenet數據集的top1準確率還有提升空間
4. 最近新論文identity mappings in deep residual network,已經把網路層數推到200了因為residual networks實際上沒有那麼多層,其實residual networks 並沒有通過保存梯度信息流在整個深層次(100多層)的網路中來解決梯度彌散的問題,而是通過對一些相對短小的網路做了ensemble,所以光看深寬度還沒用,還有個新的維度,multiplicity-the size of the implicity ensemble。
Residual Networks are Exponential Ensembles of Relatively Shallow Networkshttps://arxiv.org/abs/1605.06431一樣會過擬,只是你還未訓練到過擬點,就已經state of the art了.....
全世界做deep learning的人,都想知道這個問題的答案。
應該是數據集足夠大吧
知乎傳統,為什麼之前,先問是不是……
因為它其實只有18層。
因為有個恆等映射。在訓練的時候,如果梯度變化會讓誤差變大,那麼就不會傳播梯度了。
到最後,其實真正在傳播梯度的也就那麼幾層,和淺層網路一樣。
最近也聽到另外一種說法 其實已經過擬合 但是泛化性能好測試集表現照樣厲害。。。
增加了層數,其實參數增加並不多,像最早的alexnet,由於有兩個full connected層,參數比googlenet還多
數據集夠大,小步慢走吧,結果更加優化了。
推薦閱讀:
※如何評價 MIT Deep Learning 這本書?
※如何評價「膠囊理論」和其論文 Dynamic Routing Between Capsules?
※如何用c++在mnist上實現一個簡單的卷積神經網路,有哪些參考資料?
※如何看待《Deep Learning without Poor Local Minima》?
※RBF神經網路和BP神經網路有什麼區別?
TAG:計算機視覺 | 神經網路 | 深度學習DeepLearning | NIPS |