人類行為服從的冪律分布是否違背了中心極限定理?

中心極限定理:設從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ^2/n 的正態分布。 ——摘自百度百科

人類行為在統計意義上服從的冪律分布,從而使行為的累積並不呈現正態分布的特徵,這是對中心極限定理的違背,還是只是條件的不符合?

在對人類行為進行分析的時候,在正態分布建模、冪律分布建模以及不依賴於假設分布的三者之間,有沒有一個最優選擇?


大部分冪率分布不符合中心極限定理的條件。

維基百科上對中心極限定理 (Central limit theorems)的定義是:

Let {X1, ..., Xn} be a random sample of size n — that is, a sequence of independent and identically distributed random variables drawn from distributions of expected valuesgiven by μ and finite variances given by σ

2. Suppose we are interested in the sample average

of these random variables. By the law of large numbers, the sample averages converge in probability and almost surely to the expected value μ as n → ∞. The classical central limit theorem describes the size and the distributional form of the stochastic fluctuations around the deterministic number μ during this convergence.

注意劃線部分是finite variances,也就是說隨機變數的二階矩收斂中心極限定理才適用。而根據[1],冪指數alpha>3時二階矩才收斂,因此除了冪指數大於3的冪率分布,中心極限定理對於其他的冪率分布都是不適用的。根據[1][2]所述,大部分真實網路的冪指數都在2和3之間,因此應該說中心極限定理對大部分的真實的、冪率的數據都是不適用的,一些基於中心極限定理的方法,比如常用的針對正態樣本的假設檢驗也不能用了。

對於建模方法,我也沒有太好的建議。Mark Newman在[2]中採用的是不依賴於假設分布的方法 (

Kolmogorov–Smirnov test)來擬合冪率分布的冪指數。現在我自己的工作中採用的也都是不依賴於假設分布的方法。

拋磚引玉,等待大牛來回答。

[1] Power laws, Pareto distributions and Zipf"s law, M. E. J. Newman, Contemporary Physics46, 323–351 (2005).

[2] Power-law distributions in empirical data, Aaron Clauset, Cosma Rohilla Shalizi, and M. E. J. Newman, SIAM Review51, 661-703 (2009).

-----------------

各階矩收斂的條件很容易就能推出來:

由冪率分布的概率分布等於1,可以求得 :

1=int_{x_{min}}^{infty}p(x),dx = int_{x_{min}}^{infty}x^{-alpha},dx=frac{C}{1-alpha}[x^{-alpha+1}]_{x_{min}}^{infty}

由於alpha>1時才有意義,所以可以得到C=(alpha-1)x_{x_{min}}^{alpha-1},因此:

p(x)=frac{alpha-1}{x_{min}}(frac{x}{x_{min}})^{-alpha}

那麼冪率分布的一階矩就是:

langle x 
angle=int_{x_{min}}^{infty}xp(x),dx=Cint_{x_{min}}^{infty}x^{-alpha+2},dx=frac{C}{2-alpha}[x^{-alpha+2}]^{infty}_{x_{min}}

alpha<2時,一階矩不存在,也就是均值沒有意義。隨機變數二階矩,即方差也可以求得:

langle x^2 
angle==frac{C}{3-alpha}[x^{-alpha+3}]^{infty}_{x_{min}}

所以當alpha<3時,二階矩不存在,方差沒有意義。


要滿足lindeberg條件。。。


推薦閱讀:

概率論問題:邏輯上說不通?
如足夠久,180萬隻猴子能不能敲出莎士比亞全集?
從第一個人開始,三個人輪流扔一個六面骰子,三個人率先扔出6的概率分別是多少?
為什麼麥克斯韋-玻爾茲曼速度分布在v=0時,兩種表述不一樣?
兩個人爬兩架梯子,每一次都擲骰子決定自己爬幾格(1~6),求第n次兩人高度相同的概率?

TAG:數學 | 統計學 | 概率論 | 冪律分布 |