【2.改善深層神經網路】第一周深度學習實踐-Dpt【筆記3】

【2.改善深層神經網路】第一周深度學習實踐-Dpt【筆記3】

來自專欄深度學習筆記1 人贊了文章

對應課程1.6-1.9

有人說我過時了?不,這叫classic

一、Dropout實現(1.6)

Dropout是辛大爺(Geoffery Hinton)等於2014年提出的一種正則化方法.論文:

http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf?

www.jmlr.org

The key idea is to randomly drop units (along with their connections) from the neural network during training .

來自課程1.6

Dropout的核心就是在訓練過程隨機丟棄節點和其連接.

dropout翻譯為隨機失活,我認為還不錯,比較直觀

超參數:keep_prob:訓練時節點被保留的概率,一般為0.5(測試時為1,不丟棄節點)

inverted dropout:利用與某層(節點越多,keep_prob越大)輸出 a^{[l]} 相同維度並且以 frac{1的個數}{1和0總數} 為keep_prob值的矩陣 d 來稀疏化 a^{[l]} 實現,即相乘;再將稀疏化的a^{[l]}除以keep_prob作為最終a^{[l]}輸出.

二、為什麼dropout可以作為一種正則化方法(1.7)

加入dropout後,每次迭代時都隨機丟棄節點,簡化了網路結構,而保留的節點權值更大,輸入到保留節點的特徵的重要性相應增加,輸入到丟棄節點特徵的重要性降低,又起到了數據增強的效果.

最後一點,使用dropout後,不好確定每次迭代代價是否下降,所以先確定代價在下降,再打開dropout.

三、其他正則化方法(1.8)

1.數據增強(另一方面):對圖片來說可以翻轉、裁剪、亮度變化、加入雜訊、模糊等處理.

2.Early stopping(早停法):找到代價函數下降和驗證集錯誤率上升的平衡點(Tradeoff),及時止損.

四、標準化特徵(1.9)

特徵x1分布過於分散

標準化特徵原因:若樣本特徵過於分散,梯度下降時間將變長

正態分布:Xsim N(mu,sigma^{2}),f(x)=frac{1}{sqrt{2pi}sigma}e^{frac{(x-mu)^{2}}{2sigma^{2}}}

標準化正態分布: frac{X-mu}{sigma}sim N(0,1)

在標準化特徵時,既可以採用減均值 mu ,也可以除以方差平方 sigma^{2}. (為啥不像標準化正態分布一樣除以 sigma ?)

推薦閱讀:

TAG:深度學習DeepLearning | Dropout | 神經網路 |