【2.改善深層神經網路】第一周深度學習實踐-Dpt【筆記3】
來自專欄深度學習筆記1 人贊了文章
對應課程1.6-1.9
一、Dropout實現(1.6)
Dropout是辛大爺(Geoffery Hinton)等於2014年提出的一種正則化方法.論文:
http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf
The key idea is to randomly drop units (along with their connections) from the neural network during training .
Dropout的核心就是在訓練過程中隨機丟棄節點和其連接.
dropout翻譯為隨機失活,我認為還不錯,比較直觀
超參數:keep_prob:訓練時節點被保留的概率,一般為0.5(測試時為1,不丟棄節點)
inverted dropout:利用與某層(節點越多,keep_prob越大)輸出 相同維度並且以 為keep_prob值的矩陣 來稀疏化 實現,即相乘;再將稀疏化的除以keep_prob作為最終輸出.
二、為什麼dropout可以作為一種正則化方法(1.7)
加入dropout後,每次迭代時都隨機丟棄節點,簡化了網路結構,而保留的節點權值更大,輸入到保留節點的特徵的重要性相應增加,輸入到丟棄節點特徵的重要性降低,又起到了數據增強的效果.
最後一點,使用dropout後,不好確定每次迭代代價是否下降,所以先確定代價在下降,再打開dropout.
三、其他正則化方法(1.8)
1.數據增強(另一方面):對圖片來說可以翻轉、裁剪、亮度變化、加入雜訊、模糊等處理.
2.Early stopping(早停法):找到代價函數下降和驗證集錯誤率上升的平衡點(Tradeoff),及時止損.
四、標準化特徵(1.9)
標準化特徵原因:若樣本特徵過於分散,梯度下降時間將變長
正態分布:,
標準化正態分布:
在標準化特徵時,既可以採用減均值 ,也可以除以方差平方 . (為啥不像標準化正態分布一樣除以 ?)
推薦閱讀:
TAG:深度學習DeepLearning | Dropout | 神經網路 |