??批標準化，如何在面試的時候口頭表達清楚？

09-14

來自專欄 TensorFlow

面試官：批標準化的原理是什麼？

答：

1、先說說為什麼要做批標準化？（internal covariate shift）

輸入的各個特徵值的大小可能差異很大，比如一個人的特徵有身高180cm，年齡20歲，月收入5000元；這就導致對應到各個特徵的參數值差異很大，這樣不同的參數的學習率就不同，不能在同一個學習率下收斂，這是第一個問題

第二個問題是，就算所有的特徵值都差不多大小，每個維度的值大約都在400-500之間，還有一個問題是，這樣的話會讓wx+b的值處在激活函數（以 sigmoid舉例）的飽和區域，並不能很好的傳遞梯度

2、說說怎麼辦？

不同的特徵值差異很大那就都平移放縮到同一個尺度，scale*x + offset

放縮到同一個尺度之後的值有可能還是在激活函數的飽和區域，搞成正太分布了再平移放縮，scale*[( x - μ ) / σ] + offset

3、其中scale和offset是trainable的，μ 和σ是每個batch算一個，等到測試的時候用滑動平均

Z=( X - μ ) / σ會得到一個標準正態分布，σ這個是標準差

internal covariate shift這個詞要記住

scale*[( x - μ ) / σ] + offset這個公式要記得，面試官會問到

參考視頻：這個老師講的應該是關於這個東西最清楚的一個了

https://www.bilibili.com/video/av16540598?from=search&seid=8859536659160672507?

www.bilibili.com