??批標準化,如何在面試的時候口頭表達清楚?
來自專欄 TensorFlow
面試官:批標準化的原理是什麼?
答:
1、先說說為什麼要做批標準化?(internal covariate shift)
輸入的各個特徵值的大小可能差異很大,比如一個人的特徵有身高180cm,年齡20歲,月收入5000元;這就導致對應到各個特徵的參數值差異很大,這樣不同的參數的學習率就不同,不能在同一個學習率下收斂,這是第一個問題
第二個問題是,就算所有的特徵值都差不多大小,每個維度的值大約都在400-500之間,還有一個問題是,這樣的話會讓wx+b的值處在激活函數(以 sigmoid舉例)的飽和區域,並不能很好的傳遞梯度
2、說說怎麼辦?
不同的特徵值差異很大那就都平移放縮到同一個尺度,scale*x + offset
放縮到同一個尺度之後的值有可能還是在激活函數的飽和區域,搞成正太分布了再平移放縮,scale*[( x - μ ) / σ] + offset
3、其中scale和offset是trainable的,μ 和σ是每個batch算一個,等到測試的時候用滑動平均
Z=( X - μ ) / σ會得到一個標準正態分布 ,σ這個是標準差
internal covariate shift這個詞要記住
scale*[( x - μ ) / σ] + offset這個公式要記得,面試官會問到
參考視頻:這個老師講的應該是關於這個東西最清楚的一個了
https://www.bilibili.com/video/av16540598?from=search&seid=8859536659160672507
推薦閱讀:
※將數組約束到[a,b]區間內的標準化方式
※如何做好菜品品質標準化
※R—用scale()函數進行變數標準化處理
※標準化流水線式把妹方法
※【廚政管理】廚房管理的標誌——標準化
TAG:標準化 | 面試 | TensorFlow |