如何評價Google 在TensorFlow 中引入的bfloat16 數據類型？

06-10

bfloat16是TF特有的，叫做截斷浮點數（truncated 16-bit floating point），它是由一個float32截斷前16位而成。
它和IEEE定義的float16不同，主要用於取代float32來加速訓練網路，同時降低梯度消失（vanishing gradient）的風險，也可以防止出現 NaN這樣的異常值。

深層神經網路每次梯度相乘的係數如果小於1，那就是浮點數，如果層數越來越多，那這個係數會越來越大，傳播到最底層可以學習到的參數就很小了，所以需要截斷來防止（或降低）梯度消失。
參考：
What is tf.bfloat16 "truncated 16-bit floating point"?
吳教授的CNN課堂：進階 | 從LeNet到殘差網路(ResNet)和Inception Net

一個很大原因是既可以用於訓練又可以用於推斷。Amazon也證明Deep Speech模型使用BFloat的訓練和推斷的效果都足夠好。Uint8在大部分情況下不能用於訓練，只能用於推斷，大多數的Uint8模型都從FP32 轉換而來。所以，Bfloat可能是未來包括移動端的主流格式，尤其是需要語言相關的模型時候。

推薦閱讀：

※七政四餘洞微大限演算法簡總
※初級演算法—字元串
※五、權重計算
※學點演算法之字元串的亂序檢查
※九章演算法 | Google、Airbnb、Facebook面試題 : 外星人的字典(Alien Dictionary)

TAG:演算法 | 谷歌Google | TensorFlow | TPUTensorProcessingUnit |