深度學習（如100層）為什麼不過擬合？

01-05

這篇文章在Image Net上用了152層的深度神經網路，為什麼不過擬合？
He, Kaiming, et al. "Deep Residual Learning for Image Recognition." arXiv preprint arXiv:1512.03385 (2015).
上面的文章是源於這個19層的VGG神經網路。

Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556(2014).
按理說隨著層數增多過擬合的危險越來越大，為什麼100多層了還沒有過擬合？

1. 參數越多，過擬合的風險越大，但不一定就肯定過擬合

2. imagenet數據集夠大

3. 現在看來imagenet數據集的top1準確率還有提升空間

4. 最近新論文identity mappings in deep residual network，已經把網路層數推到200了

因為residual networks實際上沒有那麼多層，其實residual networks 並沒有通過保存梯度信息流在整個深層次（100多層）的網路中來解決梯度彌散的問題，而是通過對一些相對短小的網路做了ensemble，所以光看深寬度還沒用，還有個新的維度，multiplicity－the size of the implicity ensemble。

Residual Networks are Exponential Ensembles of Relatively Shallow Networks

https://arxiv.org/abs/1605.06431

一樣會過擬，只是你還未訓練到過擬點，就已經state of the art了.....

全世界做deep learning的人，都想知道這個問題的答案。

應該是數據集足夠大吧

知乎傳統，為什麼之前，先問是不是……

因為它其實只有18層。

因為有個恆等映射。在訓練的時候，如果梯度變化會讓誤差變大，那麼就不會傳播梯度了。

到最後，其實真正在傳播梯度的也就那麼幾層，和淺層網路一樣。

最近也聽到另外一種說法其實已經過擬合但是泛化性能好測試集表現照樣厲害。。。

增加了層數，其實參數增加並不多，像最早的alexnet，由於有兩個full connected層，參數比googlenet還多

數據集夠大，小步慢走吧，結果更加優化了。