為什麼高斯模型混合模型(GMM)理論上可以擬合任意形狀的概率分布呢?

補充:為什麼選用的是高斯分布呢?


Wiener"s tauberian theorem

Let fL1(R) be an integrable function. The span of translations fa(x) = f(x + a) is dense in L1(R) if and only if the Fourier transform of f has no real zeros.

證明可以見Rudin的泛函分析。

這個定理實際上比GMM可以逼近任何概率分布強,因為只用了平移。

另外因為高斯函數的積還是高斯函數,似乎用Stone-Weierstrass定理也可以……

選用高斯分布的理由其實有很多,一方面因為中心極限定理,生活中高斯分布非常多,另一方面,它實在是太好算了……

其實第二個理由更充分,畢竟對任意的概率分布不可能總是高斯逼近是最好的。

不過一般的GMM效果都不錯,見過算車流量的演算法用GMM取前景,雖然速度慢一些,但是效果好得驚人,我猜是自然環境效果才這麼好,對動畫GMM就不一定了233

——————————————————————————我是分割線

那就再細一點吧,評論放不下…………

這些算是實變函數和泛函分析的內容,證明主要是靠Hahn-Banach定理來把Tauberian定理轉換成證明Fourier transform無零點的函數形成一個稠密子集。

簡單地說,證明函數集的完備性就是這樣:一個集合稠密是說,從全空間中取任意一個點,其任意小的鄰域都包含這個稠密集的一個點,這就是說,對全空間的任意一個點,在這個稠密集合內,都有一個點和和他「無限接近」,這就是逼近的定義。

舉例子的話,有理數集合Q在R中稠密,任意一個數都有一個有理數和它「無限接近」,那麼顯然地,對一個連續函數來說,由連續的定義,如果它在所有的有理點處都為0,那麼這個函數必然在所有點處都是0(非連續的話當然不是這樣)。

這個情況反過來也成立,就是說,如果對任意連續函數,只要「它在某一集合上都是0這就必然會導致在全空間都是0「的話,這個集合必然是稠密的。


無限維空間上就可以靠Hahn-Banach定理(延拓泛函)得到這個逆定理,這個無限維空間在這裡指的是L^1(可積函數),這時候上面的」連續函數
「就要換成泛函,也就是連續泛函,為了方便可以換成線性的,L^1空間上的連續泛函看起來很難求,實際上可以證明Riesz表示定理,他們都是一個積分的
形式,對L^1,任意線性連續泛函(作用於f)都是這樣:∫f
hdx,其中h是一個本性有界函數(就當有界的即可),詳細可見Rudin的實分析與複分析,定理6.16。

現在來看Tauberian定理:

Suppose the Fourier transform of fL1 has no real zeros, and suppose the convolution f * h tends to zero at infinity for some hL∞. Then the convolution g * h tends to zero at infinity for any gL1.

More generally, if

for some fL1 the Fourier transform of which has no real zeros, then also

for any gL1.

這個定理怎麼和稠密聯繫到一起呢?

要想證明f和它的平移f(x+a)是完備的,因為最上面的推導,只要證明如果有一個線性連續泛函設為F,滿足F(f)、F(f(x+a))、……對所有的a對是0,的話,那麼這個泛函本身就是0泛函,也就是整個L^1空間都被它映射為0。

利用L^1上連續泛函的積分形式,這就是說,無論a為何值,∫f(x+a)hdx=0,顯然可以看出,這就是說其卷積為0,也就是上面陶博定理左側的形式,而右側是f的傅里葉變換在0處的值。

如果∫f(x+a)hdx=0,因為f的傅里葉變換無0點,只能讓上面左側的A為0,換句話說,h=0,這就證明了它是個0泛函,也就證明了其完備性。

另外似乎還有種方法,因為高斯函數之積配方之後還是高斯函數,用Stone-Weierstrass定理(也見Rudin的泛函分析)也行。


感覺這個和泰勒展開是一個道理,還有傅里葉變換,任何波形都可以用正弦波表示,而且頻率還是基頻的整數倍


跑個題,這個有個典型應用就是CPD(coherent point drift)演算法啊


推薦閱讀:

lim(x趨向0)[x^2-(sinx)^2]/x^4應該如何求?
為什麼數學沒有可證偽性而物理學卻有?
梯度下降法和共軛梯度法有何異同?
二維坐標平面上有n個隨機點,如何求解這些點的最小外接矩形呢?
梯度下降為什麼步長要乘以導數?

TAG:數學 | 計算機 | 統計學 | 統計 | 計算機圖形學 |