標籤：

Dropout 深度學習DeepLearning 神經網路

【2.改善深層神經網路】第一周深度學習實踐-Dpt【筆記3】

10-09

【2.改善深層神經網路】第一周深度學習實踐-Dpt【筆記3】

來自專欄深度學習筆記1 人贊了文章

對應課程1.6-1.9

有人說我過時了？不，這叫classic

一、Dropout實現(1.6)

Dropout是辛大爺(Geoffery Hinton)等於2014年提出的一種正則化方法.論文:

http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf?

www.jmlr.org

The key idea is to randomly drop units (along with their connections) from the neural network during training .

來自課程1.6

Dropout的核心就是在訓練過程中隨機丟棄節點和其連接.

dropout翻譯為隨機失活，我認為還不錯，比較直觀

超參數：keep_prob:訓練時節點被保留的概率,一般為0.5（測試時為1，不丟棄節點）

inverted dropout:利用與某層（節點越多，keep_prob越大）輸出 $a^{[l]}$ 相同維度並且以 $frac{1的個數}{1和0總數}$ 為keep_prob值的矩陣 $d$ 來稀疏化 $a^{[l]}$ 實現，即相乘；再將稀疏化的 $a^{[l]}$ 除以keep_prob作為最終 $a^{[l]}$ 輸出.

二、為什麼dropout可以作為一種正則化方法(1.7)

加入dropout後，每次迭代時都隨機丟棄節點，簡化了網路結構，而保留的節點權值更大，輸入到保留節點的特徵的重要性相應增加，輸入到丟棄節點特徵的重要性降低，又起到了數據增強的效果.

最後一點，使用dropout後，不好確定每次迭代代價是否下降，所以先確定代價在下降，再打開dropout.

三、其他正則化方法(1.8)

1.數據增強（另一方面）：對圖片來說可以翻轉、裁剪、亮度變化、加入雜訊、模糊等處理.

2.Early stopping（早停法）：找到代價函數下降和驗證集錯誤率上升的平衡點（Tradeoff），及時止損.

四、標準化特徵(1.9)

特徵x1分布過於分散

標準化特徵原因:若樣本特徵過於分散，梯度下降時間將變長

正態分布： $Xsim N(mu,sigma^{2})$ , $f(x)=frac{1}{sqrt{2pi}sigma}e^{frac{(x-mu)^{2}}{2sigma^{2}}}$

標準化正態分布： $frac{X-mu}{sigma}sim N(0,1)$

在標準化特徵時，既可以採用減均值 $mu$ ，也可以除以方差平方 $sigma^{2}$ . （為啥不像標準化正態分布一樣除以 $sigma$ ？）

推薦閱讀：

TAG:深度學習DeepLearning | Dropout | 神經網路 |