為什麼數據科學家都喜歡高斯分布

06-24

為什麼數據科學家都喜歡高斯分布

來自專欄論智

作者：Abhishek Parbhakar

編譯：weakish

對深度學習和機器學習工程師而言，在世界上所有的概率模型中，高斯分布（Gaussian distribution）模型最為引人注目。即使你從來沒有進行過AI項目，有很大的幾率你曾經遇到過高斯模型。

高斯分布，又稱為正態分布（Normal distribution），常常可以通過其標誌性的鐘形曲線識別出來。高斯分布如此流行，有三大原因。

高斯概率分布函數

在自然現象中普遍存在

所有的模型都是錯的，但有些模型有用！—— George Box

擴散中的微粒的位置可以用高斯分布描述

自然科學和社會科學中有極其大量的過程天然遵循高斯分布。即使當它們並不遵循高斯分布的時候，高斯分布也往往提供最佳的逼近。一些例子：

二維平面隨機行走兩百萬步

中心極限定理表明，滿足一定條件時，大量相互獨立的隨機變數經適當標準化後，收斂於高斯分布。例如，隨機行走的總距離分趨向於高斯概率分布。

這一定理意味著專門為高斯模型開發的大量科學方法和統計學方法同樣適用於可能牽涉其他類型分布的廣闊領域內的問題。

可以認為，這一定理解釋了為什麼這麼多自然現象遵循高斯分布。

另外，高斯分布在一些轉換後仍然是高斯分布：

奧卡姆剃刀原則強調在其他條件相同時，最簡單的解是最佳解

對每個高斯模型逼近而言，可能存在一個提供更好的逼近的複雜多參數分布。然而，我們仍然選擇高斯模型，因為它大大簡化了數學！

高斯分布得名於偉大的數學家和物理學家卡爾·弗里德里希·高斯（Carl Friedrich Gauss）。