蒙特卡洛抽樣的次數該如何確定?

蒙特卡洛抽樣是研究隨機問題的最常用的方法。

而在研究過程中,就涉及到抽樣次數的問題。

有一個常識,就是抽樣次數越多越好。但抽的越多,計算工作量就越大。最終會導致分析沒法進行。因此應該在做分析前,進行最小抽樣次數的估計。同時也希望抽樣次數越少越好。

在研究可靠度問題的時候,我看到過一個估計frac{100}{P_f} ,P_f是失效概率,這對於高可靠度目標時,計算量是驚人的,例如百萬次級別。

而如果只要研究隨機特性,例如:均值,方差,概率密度分布等,抽樣次數就會少很多,但我沒有找到一個估計計算量的式子。

所以,

問題1:當研究某個隨機現象的隨機特性時,是否有蒙特卡洛抽樣次數的估計公式

(隨機特性指,均值,方差,概率密度函數)

問題2:這個抽樣次數是否與隨機現象的隨機參數個數有關?

例如y1=x1與y2=x1+x2+x3,x1,x2,x3都是隨機變數

那麼研究y1與y2的隨機特性時,抽樣次數是否不一樣,該如何估計?

當然還有重要性抽樣,拉丁超立方抽樣等等改進抽樣方法,我們暫時不管,先說直接蒙特卡洛抽樣。


Monte Carlo 採樣的效率確實是個很嚴重的問題,因此在採樣的時候必然要考慮一些技巧,而不是單純地增加採樣的次數,從實用的角度,考慮重要性採樣(Importance sampling)是很有必要的。因為只有這樣才某種程度上利用了先驗信息,另一種真的具有實用性的採樣方法是Markov chain Monte Carlo。

如果不利用任何技巧地來抽樣,採樣的次數怎樣確定,我僅從一個物理體系來談談我的一點點經驗,作一個簡單的估計。

我的這個回答裡面肯定有很多問題,如果有錯誤之處歡迎大家指出。希望拋磚引玉看到更好的答案。

首先,可以認為任何一個分布都可以通過:P(x) = exp(-F(x)/T) 這樣一個變換從 P(x) 得到一個自由能函數 F(x)。x 是廣義坐標,這裡的 F(x) 就可以看成是一個「自由能」。假設有一堆粒子,粒子之間存在相互作用,現在處在一個自由能的極小值(而非最小值)狀態,當溫度比較低的時候,即使增加抽樣的次數,很可能出現的情況是如下圖所示的情況:

即所有的採樣點(藍色)都落在勢能的一個極小值範圍內,而不能翻過這個勢阱到達另一個能量更小的點。如果不達到這個能壘,就沒有辦法採樣到另一個勢阱裡面的構象,採樣也就不可能充分。如果把這個能壘的高度認為是 ΔE,那麼估計一下,要是希望採樣達到能壘,採樣次數的增加應該是跟 exp(ΔE) 成正比的。即,採樣的次數與待採樣的概率分布函數是否充分平滑有關,對於不夠平滑的一些概率分布,對應的 ΔE 可能會很大,採樣次數 exp(ΔE) 就更大了。在實際物理問題裡面,這個能壘的高度一般不依賴於坐標的選取,因此隨機參數個數不太會影響採樣的次數。


謝謝邀請,

我開始沒敢答的原因就是賭場抽樣還是拉丁超方都不是純粹的數學模擬,離開具體的問題領域完全不能一概而論,而在應用層面我只接觸過金融模型。。而傳統工科的層面並不熟悉,所以我專程去看了一些土木上結構分析的論文,再過來答,因理科生對工科不熟,如有錯誤,請指正。。

先回答兩個問題吧:

1,問題1:當研究某個隨機現象的隨機特性時,是否有蒙特卡洛抽樣次數的估計公式

答案是沒有。採樣的技巧性只能是根據概率分布圖形或者利用即有概率推測單一抽樣次數下的過程概率,然後來簡化整個抽樣過程,所謂轉化為某種隨機分布的特徵數,比如隨機事件出現的概率,或者隨機變數的期望值。通過隨機抽樣的方法,以隨機事件出現的頻率估計其概率,或者以抽樣的數字特徵估算隨機變數的數字特徵

而在結構分析或者材料力學分析裡面,尤其是可靠度分析裡面。大致是這麼幾種技巧,(排除重要性抽樣,因為可靠性分析裡面不適用)

1,用拉丁超立方在抽樣過程中代替賭場抽樣的直接抽樣。讓抽樣過程的可推導性變強。

在抽樣時,每個區間都抽取一個樣本。把這個和使用蒙特卡羅方法抽取的 5 個聚集的樣本比一下。使用拉丁超立方體方法,樣本更加準確地反映輸入概率分布中值的分布。在拉丁超立方體抽樣中使用的技術是「抽樣不替換」。累積分布的分層數目等於執行的迭代次數。當使用拉丁超立方體技術從多個變數中抽樣時,保持變數間的獨立性很重要。為一個變數抽樣的值,需要獨立於為其它變數抽樣的值(當然,除非特意希望相關)。獨立性的保持通過為每個變數隨機選擇抽樣的區間來實現。在某次迭代中,變數 #1 從分層 #4 抽樣,變數 #2 從分層 #22 抽樣,以此類推。這樣保證了隨機性和獨立性,避免了變數之間的無意相關。當低概率結果非常重要的時候,只模擬低概率事件對輸出分布的影響,運行這樣的分析也很有幫助。在這種情況下,模型只對低概率結果的發生進行模擬 — 設定為 100% 的概率。這樣做可以把低概率結果隔離開,直接研究其產生的結果。。

總之就是通過抽樣階段的這種變化來算失效概率。

2,將變數做一個線性擬合的過程,得出既有變數和相應變數的線性關係,推導出功能函數,然後生成函數變數概率分布圖形。在可靠性分析這種「分布構型」(就是分布波動)間距並不是很大的情況下,可以用這種思路保證取樣的穩定性。。

3,確定容量樣本的時候,利用一些行業經驗。(待考證)。我大概閱讀了10來篇土木方面的paper,主要是結構分析方面。在確定容量樣本的時候,要麼是三級迭代,N=100,1000,10000。要麼是假設分析確定100/pr,把N=500,1000確定為容量樣本。。而且所有的論文全都沒告訴你為毛這麼確定,但是被廣泛應用。考慮到金融分析中也有類似的事情,所以我做出這第三點結論,但是準確性待考。

問題2:這個抽樣次數是否與隨機現象的隨機參數個數有關?

近似分析下有關,不直接相關,且如果相關則唯一相關因為影響到積分中點聚圖形的M值。但和可靠性分析以及大部分隨機過程關係不大。這種近似分析方法一般用在沒有解析解的非權重積分上面,通過這種方法來暴力運算出數值解。因為其只會M有關,和緯度無關。故而此方法在很多時候是最優途徑。


與已回答者的觀點一樣,此問題無法回答,目前只能給出統計學家們的一些方法。剛好我的本科畢業論文中的核心就是對抽樣演算法的研究,現在拿出來部分內容來給提問者一些參考。

正如@傅渥成 所言, 重要性採樣 (Importance Sampling) 是我所接觸到的採樣演算法的核心——在抽樣步驟,權重大的傾向於被留下,而權重小的易被剔除。

1. 如何抽?

重要性採樣是基於權重的採樣,我們在抽樣時,是一個一個地產生隨機數,與權重序列進行對比,還是只產生一個隨機數,然後與整個序列對比而得到被抽出的單體呢?顯然,前者的方法需要的運算量更大。在文獻 [1] 中給出了一些採樣方法的對比,其中提到了並論證了系統抽樣 (Systematic Sampling) 在其他採樣演算法中的優越性,該抽樣現在目前被普遍地稱為分層抽樣 (Stratified Sampling)。然而分層抽樣也會傾向於將權重大的單體抽出並複製多份,因此在文獻 [2] 中給出了最優抽樣 (Optimal Sampling) ,該演算法根據權重組合,計算出一個權重閾值,將大於該閾值的單體直接抽出且只保留一份,從而將更多的機會給予了小權重的單體,關於其意義請見該文獻。

2. 先驗和後驗的概率與權重。

很常見地,人們會對抽出來的單體們進行其他操作,而這些操作會立即改變對應單體的權重,因此就有了一個很顯著的問題——一個在當前步驟小權重的單體,很可能在之後權重變化劇烈而成為大權重的單體。然而,我們很有可能在第一步抽樣的時候,就早早地把小權重的單體剔除了。為此,後面的信息也很重要,因此,在 [3] 中就給出了改進後的重要性採樣——δ步前瞻 (δ-step lookahead) ,該演算法就利用了後面的信息。然而,該演算法是窮舉後面δ步的可能情況,雖然對問題的解決有一定幫助,但是仍然因為指數級別的對計算量的要求的增長,是有一定缺陷的。為此, [4] 又提出了非窮舉而是抽樣枚舉未來可能情況的重抽樣演算法—— PER (Pilot-Exploration Resampling),來將問題繼續解決,雖然該方法增加了計算量,但是效果更加突出。

3. 對 Monte Carlo 策略的書推薦—— Jun S. Liu 的 Monte Carlo Strategies in Scientific Computing,目前有中文譯版,名為《科學計算中的蒙特卡羅策略》(劉軍著),讀者有興趣可參考這本書得到更多的信息。然而,這本書是 2001 年的書,其中的演算法是現在的演算法的基礎,但是參考文獻 [1] [2] 等比較重要的演算法都在此書之後出現,且演算法一直在改進之中,相關領域發展比較迅速,要想得到最新的資料,我的建議是:參考引用了下面四篇文獻的文獻。

4. 對提問者問題的解答:如果是一個確定的研究問題的話,問問你的師兄師姐,或者在該問題的相關文獻中,都會給出演算法相關的各個參數(否則不會通過發表)。

[1] Hol J D, Sch?n T B, Gustafsson F. On resampling algorithms for particle filters [Z]. Proceedings of the Nonlinear Statistical Signal Processing Workshop, Cambridge, 2006.

[2] Fearnhead P, Clifford P. On-line inference for hidden Markov models via particle filters [J]. Journal of the Royal Statistical Society, 2003, 65(4): 887-99.

[3] Meirovitch H. A new method for simulation of real chains: scanning future steps [J]. Journal of Physics A: Mathematical and General, 1982, 15(12): L735-41.

[4] Zhang J L, Liu J S. A new sequential importance sampling method and its application to the two-dimensional hydrophobic-hydrophilic model [J]. Journal of Chemical Physics, 2002, 117(7): 3492-8.


推薦閱讀:

星界德天胡概率詳解——爐石與概率的碰撞(2)(未完待續篇)
測度論
從非洲邁向歐洲——了解Dota2中的偽隨機機制

TAG:自然科學 | 概率 | 概率論 |