強大數定律和弱大數定律的本質區別？

11-16

現有的答案大部分是在討論i.i.d.且期望存在存在情況下的強/弱大數定律.我現在從另一個角度來談一下這個問題.

--------------------------------------------------

首先是兩種不同的收斂形式,即幾乎必然收斂(converge almost surely, 簡稱a.s.收斂)和依概率收斂(converge in probability, 簡稱i.p.收斂). 在概率空間中,a.s.收斂強於i.p.收斂.

現在來說大數定律. 大數定律所討論的問題是,對於一個隨機變數序列 ${X_n}$ (沒有要求i.i.d.),記 $S_n=sum_{k=1}^n X_k$ ,我們希望找到兩個非隨機實數列 ${a_n},{b_n}$ ,使得 $frac{S_n}{b_n}-a_n ightarrow 0$ .

如果這裡的收斂性是a.s.收斂,就稱為強大數律; 如果收斂性是i.p.收斂,就稱為弱大數律.

如果任意給一列隨機變數 ${X_n}$ ,顯然我們並不一定能找到合適的 ${a_n},{b_n}$ 使得 $frac{S_n}{b_n}-a_n ightarrow 0$ 成立. 因此我們需要給 ${X_n}$ 加上一定的的條件,來保證可以找到這樣的 ${a_n},{b_n}$ .而給 ${X_n}$ 加上不同的條件,也就得到了不同的強/弱大數定律,它們通常用證明該定理的數學家名字來命名.

比較常用的是 ${X_n}$ i.i.d.並且期望存在條件下的強大數定律,這時我們取 $a_n=mathrm{E}(X_1),b_n=n$ ,就有:

強大數定律(Kolmogorov): 設有i.i.d.的隨機變數序列 ${X_n}$ ,並且期望存在,記為 $mu=mathrm{E}(X_1)$ ,那麼有 $frac{S_n}{n}-mu xrightarrow{a.s.}0$ .

但是有時候獨立同分布是很難辦到的,往往我們只能得到獨立序列,不能滿足同分布,這時如果滿足一些二階矩條件,我們又有下面的強大數定律:

強大數定律(Kolmogorov): 設有獨立隨機變數序列 ${X_n}$ ,其期望和方差存在. 如果存在單調遞增的非隨機正實數列 ${b_n}$ 滿足 $b_nuparrow +infty$ 以及 $sum_{n=1}^{infty}frac{mathrm{Var}(X_n)} {b_n^2}<+infty$ ,那麼有 $frac{S_n-mathrm{E}(S_n)}{b_n}xrightarrow{a.s.}0$ .

下面再給一個弱大數律的例子,它的條件相比前兩個強大數律更弱了,甚至不要求期望存在,所以就只能得到依概率收斂.

強大數定律亦不要求方差有限，強大數定律和弱大數定律的條件完全相同，只是結論不同。要求方差有限的乃是中心極限定理。

下圖截取自 Rick Durret 的概率論教材《Probability: Theory and Examples》第三版，世界圖書出版公司， 2009年出版。

強弱大數定律都是在說：隨著樣本數的增大，用樣本的平均數來估計總體的平均數，是靠譜的。

1. 強弱大數定律的前提條件一樣：要求獨立同分布iid的隨機序列，要求其期望存在。
2. 強弱大數定律的結論不同（廢話）。弱大數定律比較早被證明出來，弱大數定律表示樣本均值「依概率收斂」於總體均值；而強大數定律是比較晚被證明出來的，它證明了樣本均值可以「以概率為1收斂」於總體均值。簡單的來說，就是數學家先證明了弱大數定律，後來在沒有改變前提的情況下把弱大數定律推進了一步，得到了更厲害的強大數定律。

3. 弱大數定律和強大數定律的區別在於，前者是「依概率收斂(convergence in probability)」，後者是「幾乎確定收斂(almost surely convergence)或以概率為1收斂、幾乎處處收斂」。
後者比前者強，滿足後者的必定滿足前者，而滿足前者的未必滿足後者。

3.1 依概率收斂的例子：
考慮下圖，圖中的每條線都代表一個數列，虛線表示一個非常小的區間。總的來說每個數列都越來越趨近0，且大部分時候不會超過虛線所表示的小邊界，但是，偶爾會有一兩條線超過虛線、然後再回到虛線之內。而且我們不能保證，有沒有哪一個數列會在未來再次超出虛線的範圍然後再回來——雖然概率很小。注意虛線的範圍可以是任意小的實數，此圖中大約是 $pm 0.04$ ，可以把這個邊界縮小到 $pm 0.004,$ ，甚至 $pm 4*10^{-10}$ ，隨你喜歡，這個性質始終存在。

3.2 幾乎處處收斂的例子：

3.2 幾乎處處收斂的例子：
圖中的黑線表示一個隨機數列，這個數列在大約n=200之後進入了一個我們定的小邊界（用虛線表示），之後我們可以確定，它再也不會超出虛線所表示的邊界（超出這個邊界的概率是0）。跟上面的例子一樣，虛線所表示的邊界可以定得任意小，而一定會有一個n值，當這個數列超過了n值之後，超出這個邊界的概率就是0了。

弱大數定律是較早被數學家最早證明的，即對於獨立同分布的隨機序列 $X_{1} ,X_{2} , X_{3} ,... X_{n}...$ ，只要總體均值 $mu$ 存在，那麼樣本均值 $S_{n} =frac{1}{n} sum_{i=1}^{n}{X_{i} }$ 會隨著n增大而「依概率收斂」到總體均值 $mu$ ，就是弱大數定律。
但是弱大數定律/「依概率收斂」不夠完美，隨著 $n$ 增大，樣本均值有沒有可能（即使概率很小）偶然偏離總體均值 $mu$ 很多呢？後來數學家們證明了強大數定律，就是告訴我們不用擔心， $S_{n} =frac{1}{n} sum_{i=1}^{n}{X_{i} }$ 會「幾乎處處收斂」到 $mu$ .

參考:
1. De Micheaux P L, Liquet B. Understanding convergence concepts: A visual-minded and graphical simulation-based approach. The American Statistician, 2009, 63(2).
2. Convergence in probability vs. almost sure convergence
3. Papoulis A, Pillai S.U., Probability, Random Variables and Stochastic Process, McGraw Hill Education, 3e, 2010.

本來我強行回答的這篇文章舉了2個生活化的例子，雖然直覺、有助於理解但不夠恰當。經各位的批評刪除了，哈哈~~
感謝 @Yang SONG博士的指點，感謝 @司馬木的批評。拜謝。

@runze Zheng的答案已經說得很清楚了，這裡我主要想結合公式談一談對這個問題的理解。

若干描述不正確的地方已經修改，感謝 @逐月 @蘇何 @游傑宇的指正！

（另外知乎這個公式編輯器在編輯狀態下，帶有括弧的公式老不顯示，不知道啥情況，修改起來太麻煩了，編輯器也各種bug）

首先大數定律想要證明當對一個隨機變數進行無限次採樣時，得到的平均值會無限接近真實的期望值。
強大數定律想證明：採樣的次數越多，平均值幾乎一定越來接近真實期望值；
弱大數定律想證明：採樣的次數越多，平均值接近真實期望值的可能性越來越大。

首先用公式描述下強大數定律和弱大數定律。

問題是：

設 $X_1,X_2,ldots,X_n,ldots$ 這些變數相互獨立，是服從同一分布的隨機變數序列， $E(X_k)=mu$ ；

$mu_n={ sumlimits_i^n X_i } /{ n }$ ， $mu_1,mu_2,ldots,mu_n,ldots$ 是該隨機變數序列。

強大數定律認為： $forall epsilon > 0, P(lim_{n ightarrowinfty}|mu_n - mu|leqepsilon) = 1$ ；

弱大數定律認為： $forall epsilon > 0, lim_{n ightarrowinfty}P(|mu_n-mu|leqepsilon)=1$ ；

先用直觀的語言來描述下，強大數定律和弱大數定律的區別主要在於：

強大數定律能證明當 $n ightarrow infty$ 時， $mu_n$ 幾乎一定能不斷接近真實的 $mu$ ，也就是說 $mu_n$ 幾乎是不斷朝著接近 $mu$ 的方向去的；

弱大數定律能證明當 $n ightarrow infty$ 時， $mu_n$ 接近真實的 $mu$ 的可能性會越來越大，也就是說 $mu_n$ 是朝著接近 $mu$ 的方向去的可能性越來越大，但是也有極小的可能朝著反方向。

下面我們來說明下這兩者的區別：

我們對比下上面的公式，一個lim寫在P裡面，一個lim寫在P外邊，只是變換下位置含義就不同。我們把公式極限的部分改寫下，改寫成下面的形式也許會更直觀。

強大數定律：

$forall epsilon>0, exists N in mathbb{N^+}$ ，當 $n>N$ 時， $P(|mu_n-mu|<epsilon)=1$ ;

弱大數定律：

$forall epsilon>0$ , $forall delta >0$ , $exists N in mathbb{N^+}$ , 當 $n>N$ 時， $|P(|mu_n - mu|leqepsilon)-1| leq delta$ ;

下面照著上面去掉極限的公式看，我們來說明下這二者的含義。

強大數定律：

隨著 $n$ 不斷增大， $forall epsilon ge 0, |mu_n-mu|leqepsilon$ 這件事是必然發生的；

即隨著 $n$ 不斷增大， $mu_n$ 幾乎一定能不斷接近真實的 $mu$ 。

弱大數定律：

隨著 $n$ 不斷增大， $forall epsilon ge 0, |mu_n-mu|leqepsilon$ 這件事發生的概率是逐漸增大的；

隨著 $n$ 不斷增大， $mu_n$ 越有可能接近真實的 $mu$ 。

提下收斂、幾乎確定收斂、按概率收斂的概念，幾乎確定收斂對應強大數定律，按概率收斂對應弱大數定律。

設 $mu_1,mu_2,ldots,mu_n,ldots$ 是一個隨機變數序列， $mu$ 是一個常數，

收斂：

$lim_{n ightarrowinfty} | mu_n - mu | = 0$ ，

即 $forall epsilon>0, exists N in mathbb{N^+}$ ，當 $n>N$ 時， $|mu_n-mu|<epsilon$ ，

記作 $mu_n longrightarrow mu$ ，稱 $mu_n$ 收斂於 $mu$ 。

幾乎確定收斂：

$[ forall epsilon > 0, P(lim_{n ightarrowinfty}|mu_n - mu|leqepsilon) = 1 ]$ ，

$forall epsilon>0, exists N in mathbb{N^+}$ ，當 $n>N$ 時， $P(|mu_n-mu|<epsilon)=1$ ;

記作 $mu_n xrightarrow{a.s} mu$ ，稱 $mu_n$ 幾乎確定收斂於 $mu$ 。

按概率收斂：

$forall epsilon > 0, lim_{n ightarrowinfty}P(|mu_n-mu|leqepsilon)=1$ ，

$forall epsilon>0$ , $forall delta >0$ , $exists N in mathbb{N^+}$ , 當 $n>N$ 時， $|P(|mu_n - mu|leqepsilon)-1| leq delta$ ;

我們又記作 $mu_n xrightarrow{P} mu$ ，我們又叫 $mu_n$ 按概率收斂於 $mu$ 。

弱大數定律就是實用版，依概率收斂在大多數情況下足夠用了。
Song Yang 提到的強大數定律並不是最強的版本。Etemadi在1981年證明只要X1,X2,...兩兩獨立並且同分布，期望存在，那麼強大數定律就成立。見An elementary proof of the strong law of large numbers

依概率收斂： $lim_{n o infty} ext{P} left( |X_n - X| > varepsilon ight) = 0$ , $varepsilon$ 是任意常數

a.s.收斂： $lim_{n o infty} ext{P} left( |X_n - X| > 0 ight) = 0$

弱大數律和強大數律只是按照收斂的方式區別的稱法。

強大數律成立充要條件是X絕對值的期望存在。

弱大數律成立充要條件是 $x ext{P}( |X| >x ) < infty ; ext{as} ; x o infty$ ，極限行為是 $S_n /n - mu_n o 0 ; ext{in p}$ , $mu_n = ext{E} (X; |X|<n)$ ，同樣在Durrett的書中可以找到該結論。最簡單的服從弱大數律卻不服從強大數律的例子為 $ext{P}(X>x) = 1/2x (x>1) , ext{P}(X<-x) = -1/2x (x<-1)$

類似於 $alpha = 1$ pareto分布。顯然 $mu_n = 0$ , 但X絕對值的期望是無窮

我也來湊個數。Runze 把強弱大數定理已經說得很清楚了。其實大數定理的證明並沒有那麼複雜。一旦證明了式子（3-42），恩，一切都豁然開朗。

強大數定律和弱大數定律都是表明在樣本個數趨於無窮大時，樣本均值 $ar{X}$ 收斂於總體均值 $mu$ 。

區別在於，強大數定律基於的收斂方式，也就是證明過程中使用的定理是幾乎處處收斂（almost surely convergence），而弱大數定律基於的是依概率收斂（converge in probability）。事實上，在我研究過這兩個定理的證明過程後，我認為這是它們數學意義上唯一的差別。

更詳實的內容可參見經典的統計專業教材， Casella Berger 的 "Statistical Inference"，第五章。

弱大數是整體收斂,像是某種平均意義下。（每個點可以不收斂），對應依測度（概率）收斂。
強大數是點態的(局部性），對除了一個概率為0的集合之外的所有點都逐點收斂，對應幾乎處處收斂（概率論中一般稱almost surely）。
強大數比弱大數強是因為概率最大為一（有限），從而幾乎處處收斂蘊含依測度收斂。
兩者實際上非常不同。

大數定律的出發點是說，用樣本均值來估計實際均值，這件事情的靠譜程度。
現在有n個樣本， $X_{1}, X_{2},...,X_{n}$ ，我們可以計算出他們的均值 $hat{mu}$ ，但這個均值 $hat{mu}$ 和這些樣本的實際均值 $mu$ 之間的關係是什麼呢？
弱大數定律說的是，對於任意一個很小的值 $epsilon$ ，樣本數n趨於無窮時，均值 $hat{mu}$ 和均值 $mu$ 之間的誤差在 $epsilon$ 這個範圍內（ $left| hat{mu}-mu ight| < epsilon$ ）。
強大數定律說的是，只要n夠大之後， $hat{mu}$ 就以概率為1收斂到了 $mu$ 。
簡而言之，弱大數定律保證樣本均值接近實際均值，但是不保證收斂性。

生活例子:

開始上課了，慢慢大家都安靜下來。這是幾乎處處收斂。

開始上課了，絕大多數同學都安靜下來。但每一個人都在不同時間不安靜。這是依概率收斂。

弱大數定律和強大數定律通俗的說，都是指樣本均值收斂於總體均值 $mu$ ，不同之處在於不同定律強調的是不同的收斂類型，顧名思義，弱大數定律的說的收斂更「弱」一些。。。

先給出各自的定義：
獨立同分布的隨機變數序列( $X_1, X_2,...,X_n$ )，在大樣本(n-&> $infty$ ) 的情況下：
弱大數定律：樣本均值依概率收斂於均值 $mu$ 強大數定律：樣本均值以概率1收斂於均值 $mu$
這兩種收斂類型到底是什麼鬼呢？
舉個栗子，秋天的時候，有很多的鳥遷移去某一個新大陸。
假定鳥是一隻接著一隻到達新大陸的，並且到達大陸的時刻都是整數時刻。現在我們把所有可能的時刻(1, 2, ... , n) 劃分成區間， $I_k = { 2^k, 2^k +1, ..., 2^{k+1}-1}$
這樣，有：
$I_0 = {1}$
$I_1 = { 2, 3}$
$I_2 = {4, 5, 6, 7}$
...
可知，每個區間內有 $2^k$ 個離散時刻。

再次假定，每個劃分好的區間內只有一隻鳥到來，並且這個區間內的每一個離散時刻被這隻鳥選擇作為到達時刻的可能性都是相等的。區間之間的到達相互獨立。
這樣的話，在第k個區間內的某一個特定時刻到來的概率是
$1 / 2^k$ ，把這個時刻稱之為到來時刻。

現在定義隨機變數序列 $Y_n$ : 如果在時刻n是到來時刻，則定義 $Y_n$ = 1，如果這個時刻沒有鳥到達，那麼定義 $Y_n$ = 0，這樣的話，每一個區間內只有一個Y為1的時刻。

現在計算概率，假設 $n in I_k$ ，那麼這個時刻為到來時刻的概率，也就是 $P(Y_n e 0) = 2^{-k}$ ，取n為無窮大，則有

$lim_{n ightarrow infty }{P(Y_n e 0)} = lim_{k ightarrow infty }{2^{-k}} = 0$

這就是依概率收斂的定義，可以認為， $Y_n$ 是依概率收斂於0的。

然而，我們知道，每一個區間都存在一個到來時刻，也就是說當我們繼續進行試驗時，到來時刻的總數是無窮的。也就是說，對於趨於無窮的n，總存在 $Y_n$ = 1。這樣，也就說明了事件{ $lim_{n ightarrow infty }{Y_n = 0}$ } 的概率是0，
即 $Y_n$ 並不收斂（總有一些Y「跳出去」），當然也不是以概率1收斂的。

直觀上解釋這兩種收斂類型: 如果對於任意時刻， $Y_n$ 與a具有顯著偏差的概率很小，並且隨著n的增大越來越小，那麼就是說依概率收斂於a。
但是如果隨著時間的進行，總存在某些例外的其他事件發生，那麼就不以概率1收斂。

結合如上分析，可以理解這兩個定理的不同之處：
弱大數定律只是說樣本均值顯著性偏離 $mu$ 的概率，隨著n的增多趨向於0，然而並沒有說明到底顯著性偏移的量是怎樣的。
強大數定律則回答了這個問題，如果給定一個無窮的時間，樣本均值和 $mu$ 顯著性不同的概率是0，即不存在如上所說的例外事件。

如果頻率和概率的角度來解釋，弱大數定律是說，當n充分大時，頻率以很大的概率落在相應概率的 $epsilon$ 鄰域內。
而強大數定律則強調說，頻率以概率1收斂於對應概率。此結論更強一些，當然證明也更加困難。

追問下，收斂的速度如何計算？

強大數收斂是依範數，弱大數收斂是依泛函。