在使用relu的網路中,是否還存在梯度消失的問題?

relu的正梯度始終是1,那麼是否還會存在梯度消失的問題,為什麼使用relu作為激活函數的深度網路依然面臨梯度消失的困擾,需要類似resnet的網路結構調整來改善?


瀉藥,會,有。

梯度衰減因子包括激活函數導數,此外,還有多個權重連乘也會影響。。。梯度消失只是表面說法,按照這樣理解,底層使用非常大的學習率,或者人工添加梯度噪音,原則上也能迴避,有不少論文這樣試了,然而目前來看,有用,但沒太大的用處。深層原因訓練不好的本質難題可能不是衰減或者消失(殘差網路論文也提到這一點),是啥目前數理派也搞不清楚,所以寫了論文也順勢這樣說開了。不然,貿貿然將開山鼻祖的觀點否定了,是需要極大勇氣和大量的實驗,以及中二精神的。

所以,謹慎看待這個互聯網上各大深度學習門戶,頭條上泛濫的解釋吧。


ReLU: f(x) = max(0, x),所以當x&<0的時候用反向傳導就會造成梯度消失。Leaky ReLU就此應運而生。


ReLU的Sparsity也會導致gradient diffusion哦。特別是layer多的時候。Backprop的時候從最尾端流入的INFORMATION的量是有限的,但是每一層都會block一部分,層數增多導致有可能到最後一層的時候就非常少了。


誤差方向傳播公式里包含有 權重係數、激活函數的導數 這兩項。

w的偏導數包含有 上一層的激活值 這一項。

這三項都會影響w的更新,relu沒有針對權重係數的問題


今天用relu訓練了一個網路,前幾層的梯度都是0


ReLU不過是一個簡單的截斷的y=x函數。不要指望能有多大用。剃度在反向傳播的時候消失,是沒有辦法的。如果不消失,豈不是更麻煩。信息的耗散是學習的基礎。所謂盈虧同源,學習也就是忽略。


推薦閱讀:

關於語音識別特徵提取該如何入門?
詞向量,LDA,word2vec三者的關係是什麼?_?
預測和回歸的區別是什麼?
語音識別中,如何理解HMM是一個生成模型,而DNN是一個判別模型呢?
如何高效地調整PID參數?

TAG:數據挖掘 | 機器學習 | 神經網路 | 深度學習DeepLearning |