大數定律和中心極限定理在各個領域的運用有什麼 ?


不請自來。

我個人覺得中心極限定律的各種推論和應用中,最簡潔!最強大!最普適!,真·出現在「各個領域」的,莫過於:

均值標準誤反比於樣本數量的平方根:S_{ar{x} } 
ightarrow frac{sigma}{sqrt{n} } (公式1)

有時也被稱為Square root n Law或者root n law。

只要給了標準誤的定義,就可以從Lindeberg–Lévy的中心極限(CLT)描述(公式2)直接改寫過來。

公式2:

root n law的運用幾乎出現在所有的STE(Science, techonology, engineering)中,甚至直接體現在各種自然現象當中,以下舉幾個微小的栗子。

(1)只要有測量,其實就繞不開公式1的運用。最簡單的應用

就是估計樣本標準差:	ext {STD} =  sqrt{n} 	ext {SEM}

當然有更powerful的應用,比如利用bootstrapping的standard error計算

(2)和雜訊密切相關,廣泛應用在通信理論、信號處理、圖像處理中

信號處理最簡單的應用——signal averaging除噪:通過在時域上平均多次測量值提高信噪比(signal-noise ratio),好用到不行。

from Synchronous Averaging

圖像處理中效果也不差:

from:Image Stacking for Noise Reduction Averaging in Photoshop

在通信中的應用就是通過反饋降低信號和相位誤差,原理就是一遍一遍地疊加,也遵循root n law。

from:Noise Reduction

(3)最後談談本行,各種各樣的生命系統用的是一毛一樣的root n law控制雜訊。

首先給一點背景知識:細胞的DNA,指導RNA轉錄;RNA被翻譯成蛋白質;蛋白質形式各種各樣的功能。目前為止觀測到的大多數的生命活動可以被這樣一條「中心法則」概括。

from:Central Dogma

蛋白質表達的雜訊就是不同細胞內的蛋白質濃度差別,如下圖,細胞表達紅/綠兩種蛋白質,由於雜訊,產生紅、綠、黃(紅+綠)、黑四種狀態。

(Science 16 AUGUST 2002 VOL 297, ISSUE 5584 COVER [Image: M. B. Elowitz])

對於維持細胞「活著」的蛋白質(essential),要求雜訊儘可能小。而有的基因出於各種原因,需要較大的雜訊,比如和細胞決策有關,需要從一種狀態轉變為另一種狀態,就需要雜訊比較大,降低響應時間。

from:A role of stochastic phenotype switchin

g in generating mosaic endothelial cell heterogeneity : Nature Communications : Nature Publishing Group

相對複雜一些的,通過幹細胞分化過程中,可以程序性地調控雜訊,從低雜訊到高雜訊轉變,從而實現「幹細胞狀態的維持」轉變為「細胞分化」。

from:http://systems-signals.blogspot.com/

大的雜訊也可以提高個體多樣性,從而提高對未知環境的適應能力。

from:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4824758/

而細胞控制雜訊的方法,就是通過控制DNA/RNA的拷貝數即蛋白質合成過程中的sampling size,so easy!

縱軸是雜訊,紅三角int代表內稟雜訊(真·雜訊),橫坐標是蛋白表達量(正比於RNA拷貝數),虛線是用公式1+背景值的擬合。from Elowitz Science 2002

費曼老師說,「你不能重建的玩意都是你妹整明白」。按這個標準,拷貝數控制雜訊的方法在人工設計的biological system裡面能夠得到廣泛應用,可以說是非常可靠的了。

事實上根據我的經驗,bioengineering或者synthetic biology中,root n law是一個非常鮮見的例子。其實大多數情況下,由於生物系統的複雜性過高,我們對其了解遠遠不夠,理論指導設計很難試驗成功,更不要提廣泛應用於不同設計了。

(以後有機會再寫些別的應用)


說兩個和諸多領域都密切相關的運用:Monte Carlo Method 與 假設檢驗(Statistical Hypotheses Testing)

首先,Monte Carlo Method 完全是建立在 強大數定律(Strong Law of Large Numbers,SLLN)的原則上。詳細解釋一下:

首先給出 Kolmogrov SLLN的定義,令{xi_i}是獨立同分布的隨機變數序列,且mathbb{E} |xi_1|<infty,令隨機變數的樣本均值widehat{S}_N:=frac{1}{N}sum^N_{i=1}xi_i,則隨機變數的樣本均值幾乎處處(a.s.)收斂到總體均值,即lim_{N
ightarrow infty }hat{S}_N=mathbb{E}(xi_1), mathbb{P}=a.s.

根據SLLN,當X是隨機變數,如果我們要計算形如f(X(w))的期望值mathbb{E}[f(X(w))]時,可以通過不斷生成與X同分布的隨機數,計算frac{1}{N}sum_{i=1}^N figl(X^{(i)}(w)igr),來得到mathbb{E}[f(X(w))]的近似值。而這不就是Monte Carlo Method么,所以Monte Carlo Method的核心就是Kolmogrov SLLN一個典型的例子是Option Pricing的Monte Carlo方法。

當我們要計算某一事件的概率時,可以先利用示性變數將其轉換為期望的形式,比如事件A的概率

P(A)=mathbb{E}(I_{{win A}}),其中I是示性變數。再利用上面的方法即Monte Carlo Method求解。一個典型的例子就是 Buffon』s Needle。

其實並不一定是求隨機變數的函數的期望值這一問題可以用Monte Carlo Method,很多問題事實上都可以轉換為這個形式(上面計算某一事件的概率實際上就是一個例子)。

比如,求解定積分int_a^b 3x dx,可以將其轉換為3(b-a)int_a^b frac{x}{b-a} dx,而int_a^b frac{x}{b-a} dx正是[a,b]上均勻分布的隨機變數的期望值,即mathbb{E}(xi),xisim U(a,b),可以不斷隨機抽取[a,b]上的隨機數求其樣本均值再乘以3(b-a)則可得到原本的定積分。這個過程就是SLLN和Monte Carlo方法的應用。

------------------------------------------------------------------------------------------------------------------------

假設檢驗(Statistical Hypotheses Testing)的基礎就是SLLN以及中心極限定理。這個不用解釋了吧。


講一個金融領域裡Merton"s Portfolio Problem的故事吧。

這是經濟學諾獎獲得者Robert C. Merton在1969年提出的理論,核心idea是存在一個風險資產佔總資產的固定比值,投資人只要不斷rebalance這個比值就能實現效用最大化。

具體的模型如下:

The agent has wealth w(t) and invests wealth into two assets: risky and risk-free. The agent consumes c(t)
at time t and invests a fraction p(t) of wealth into risky asset. Thus the agent』s problem is:

解這個模型可以得到:

也就是說,最優的p(t)其實是一個不隨時間變化的固定值。這個結論非常有意義,因為這意味著節省投資者mental cost的投資策略是可能的。

說了這麼多,大數定理扮演著什麼角色呢?大數定理意味著如果他蒙受了損失,他不能抽走資金,而是應該不斷地維持這個最佳比值,直到他盈利為止。是不是很amazing?

當然這個故事裡,股價被設定為服從Brownian motion,效用函數為CRRA形式,這是確保結論有效的關鍵。

然而,當Merton自己進入股市時,也虧得一塌糊塗,那就是另一個關於著名的長期資本公司的故事了。

PS: 另一個故事早有雄文珠玉在前,我就不拾人牙慧了。

吃瓜群眾請移步:

如何評價 Long Term Capital Management? - 對沖基金


計量經濟學, asymptotic estimation and asymptotic tests.

基本三分鐘就要用一次大數定理....

十分鐘用一次中心極限定理...


實際上,只要做實驗用頻率來估計概率的話,都要用大數定律。。。


最簡單的。。。。蒙特卡羅演算法


可以推算恐怖分子來自**組織的概率有多大。


對於貝葉斯推斷,大數定律是其具有未來的保證。大數定理-&>蒙特卡洛採樣-&>貝葉斯推斷


Bernstein多項式逼近任意閉區間連續函數

具體看這個http://w3.math.sinica.edu.tw/math_media/d223/22302.pdf

剛開始看會覺得這個多項式是怎麼想出來的,但這其實是二項分布的概率分布


時時彩,3D,等等彩票,都有人利用大數定律來賺錢,比如說奇妙三軟體,算的是他的標準概率,然後用實際的出號來算他下一次多久該出這個號

會玩時時彩的一般都是這個套路。有人輸有人贏。


在你生活的各個領域都可能會用到大數定律,只是你沒有意識到你用到了它


賭場應該算是大數定律的實際應用了。控制整個賭場的賠率使整個賭場贏面在0.5以上,只要賭場一直開下去,哪怕不出老千,賭場最終也是盈利的。


推薦閱讀:

最大似然估計和EM演算法的關係是什麼?
SAS, SPSS, AMOS, Stata之間的比較?
回歸分析中,x對y回歸和y對x回歸,也就是交換順序之後,為什麼係數不是倒數的關係?
如何評價多倫多大學新建的向量學院 (Vector Institute)?對人工智慧領域會有何影響?

TAG:金融學 | 數學 | 統計學 | 經濟學 | 計量經濟學 |