為什麼數據科學家都喜歡高斯分布

為什麼數據科學家都喜歡高斯分布

來自專欄論智

作者:Abhishek Parbhakar

編譯:weakish

對深度學習和機器學習工程師而言,在世界上所有的概率模型中,高斯分布(Gaussian distribution)模型最為引人注目。即使你從來沒有進行過AI項目,有很大的幾率你曾經遇到過高斯模型。

高斯分布,又稱為正態分布(Normal distribution),常常可以通過其標誌性的鐘形曲線識別出來。高斯分布如此流行,有三大原因。

高斯概率分布函數

在自然現象中普遍存在

所有的模型都是錯的,但有些模型有用!—— George Box

擴散中的微粒的位置可以用高斯分布描述

自然科學和社會科學中有極其大量的過程天然遵循高斯分布。即使當它們並不遵循高斯分布的時候,高斯分布也往往提供最佳的逼近。一些例子:

  • 成人的身高、血壓、智商
  • 擴散中的微粒位置
  • 測量誤差

數學上的原因:中心極限定理

二維平面隨機行走兩百萬步

中心極限定理表明,滿足一定條件時,大量相互獨立的隨機變數經適當標準化後,收斂於高斯分布。例如,隨機行走的總距離分趨向於高斯概率分布。

這一定理意味著專門為高斯模型開發的大量科學方法和統計學方法同樣適用於可能牽涉其他類型分布的廣闊領域內的問題。

可以認為,這一定理解釋了為什麼這麼多自然現象遵循高斯分布。

另外,高斯分布在一些轉換後仍然是高斯分布:

  • 高斯函數經傅里葉變換後,所得仍為高斯函數。
  • 兩個高斯函數的積仍然是高斯函數。
  • 兩個高斯函數的卷積仍然是高斯函數。
  • 兩個符合高斯分布的獨立隨機變數之和仍然符合高斯分布。

簡單性

奧卡姆剃刀原則強調在其他條件相同時,最簡單的解是最佳解

對每個高斯模型逼近而言,可能存在一個提供更好的逼近的複雜多參數分布。然而,我們仍然選擇高斯模型,因為它大大簡化了數學!

  • 均值、中位數、眾數均相等
  • 整個分布僅需指定兩個參數——均值和方差

高斯分布得名於偉大的數學家和物理學家卡爾·弗里德里希·高斯(Carl Friedrich Gauss)。

推薦閱讀:

《機器智能的未來》系列三:Brendan Frey--當深度學習遇上基因生物學 | 將門推薦
初窺神經網路內部機制,圖文詳解權重和隱藏層
python3機器學習經典實例-第五章構建推薦引擎25
ZT:機器學習中如何選擇特徵值
[機器學習演算法]邏輯回歸

TAG:數據科學家 | 正態分布 | 機器學習 |