點估計、區間估計、中心極限定理之間的聯繫?


首先說點估計。點估計就是用一個數據(data)的函數(通常稱為估計統計量,estimator)來給出一個未知參數的估計值。

即使是固定的參數真值(雖然我們不知道這個值),由於數據的隨機性,不同的數據代入這個函數往往會得出不同的估計值(estimation )。所以我們往往在點估計的基礎上包裹上一個鄰域,即得到一個區間估計。

那麼點估計周圍的這個鄰域的大小是怎麼確定的呢?一個最直接的答案就是:確定一個百分比,p%,使得給定任意數據集,參數的估計值(estimation)落在這個鄰域內的概率為p%。那麼,確定鄰域大小的問題就變成了確定參數估計量(estimator)的分布的問題了。

首先,如果我們假設數據服從正態分布。那麼可以證明,統計量作為隨機變數的函數,往往會服從從正態分布中推導出來的一系列分布(如t分布,chi-square分布和F分布),那麼通過統計量(estimator)的分布,我們可以很輕鬆的得到所求鄰域的大小。

接下來的問題就是,在日常生活中,數據並不一定服從正態分布的。如果數據不是正態分布的,那麼估計統計量(estimator)很可能也不服從t分布,chi-square分布和F分布這些我們已知的分布。如果我們不知道統計量的分布,就無法確定應該給這個點估計包裹一個多大的鄰域。

於是我們退而求其次,由於在滿足一定正則條件的情況下,很多數據的分布都會在數據量趨近於無窮的情況下趨近於正態分布。如果數據的分布恰好落在這個範圍內,那麼我們說,在數據量趨近於無窮的前提下,我們仍然相信統計量服從t分布,chi-square分布和F分布這些我們已知的分布。並以此為基礎得到區間估計。而中心極限定理(CLT)就是用來保證數據分布的極限為正態分布的定理。

*更正:CLT說的是樣本均值的極限分布。估計量一般可以表示成樣本均值的函數(e.g. OLS,GMM) 所以知道了樣本均值的極限(正態)分布也就知道了這些估計量的極限分布。於是我們就可以計算區間估計中的區間了

最後,如果正則條件不滿足,CLT無法適用。數據分布即使在數據量趨於無窮的情況下仍然不是正態分布,這時候,採用傳統方法得到區間估計的辦法就行不通了。需要採用更加先進的方法(比如bootstrapping尋找區間估計;比如徹底拋棄parametric model轉用semi- non-parametric model等等)。

編輯*:其實CLT不單單在找區間估計的時候用到。很多假設檢驗的問題都依賴於統計量(或者數據等)的分布是正態分布這一假設。所以如果假設統計量本身就是正態的,那麼當然可以以這些統計量為基礎進行假設檢驗。但是如果分布不是正態的,那很有可能就需要CLT來幫助(至少建立在極限狀態下的正態性)證明假設檢驗(包括區間估計)的正當性:因為如果統計量不是正態的,那麼得出來的東西根本對不上號,假設檢驗也就沒啥大意義了。


中心極限定理是推斷統計(包含參數估計和假設檢驗)的理論基礎,從而也是參數估計(包含點估計和區間估計)的基礎。

參數估計有兩種方法:點估計和區間估計,區間估計包含了點估計。二者的相同點都是基於一個樣本作出;不同點是點估計只提供單一的估計值,而區間估計在點估計的基礎上還提供了一個誤差界限,給出了取值範圍——這個取值範圍又叫置信區間(confidence interval),受置信度(一個概率值,即進行估計前必須事先確定的估計的把握度)影響,根據中心極限定理推導得來。

=========「我不說你倒還明白,我越說你越糊塗」分割線========

區間估計的思路,在於它是中心極限定理的倒推,所謂倒推(reason backward),如福爾摩斯所說,是一種有用且易用的技能,但卻少為常人所踐行——

「In solving a problem of this sort, the grand thing is to be able to reason backward. That is a very useful accomplishment, and a very easy one, but people do not practice it much."

"Most people, if you describe a train of events to them will tell you what the result would be. They can put those events together in their minds, and argue from them that something will come to pass. There are few people, however, who, if you told them a result, would be able to evolve from their own inner consciousness what the steps were which led up to that result. This power is what I mean when I talk of reasoning backward, or analytically.」
——Sherlock Holmes

整個倒推的思路是這樣的:區間估計實際上是抽一個樣本,然後用這個樣本的統計量來估計總體參數。比如想知道全校同學的每天平均學習時間(參數),就通過隨機抽樣找了100個同學作為樣本,然後用這100個同學的平均學習時間(統計量),比如說2小時,並加減一個誤差比如說半小時(關於這個誤差的大小怎麼定有空再說)來得到一個估計的範圍。

但從一個總體可以抽許許多多樣本,從全校10000名學生可以抽取到許許多多100位同學的組合,憑啥只相信一次抽樣的結果?光憑一次抽樣、並且只有100個同學來估計10000個同學底靠不靠譜?

所以,在最終只用一個樣本來估計總體前,必須先知道如果抽取了許許多多樣本會發生什麼情況?也就是必須先知道抽樣分布的規律——如果我們把同樣大小的所有可能的樣本都抽完,樣本的統計量有何分布特徵?

中心極限定理就告訴了我們樣本統計量的分布特徵,也就是在一定條件下(總體正態、或大樣本),統計量將以總體參數為中心、抽樣標準誤(描述抽樣分布離散度的術語)為離散度的正態分布。

這就好比射擊,射出的子彈(統計量)就是圍繞靶心(參數)分布,並且,大部分子彈將聚集在靶心周圍——如果想提高聚集度、減少誤差,那可以增大樣本來減少抽樣標準誤。

有了中心極限定理,我們就知道參數在哪、統計量就不會離參數左右——這是正推。反過來,當我們進行估計——用統計量來倒推參數,即使只抽一個樣本,彈著點也不會離靶心太遠,並且,誤差還可以控制和計算。


區間估計本質是兩個點估計。
估計的本質是構造以樣本為自變數的函數求其值可得到總體參數的估計值。
中心極限定理是隨機變數獨立和的大樣本收斂性質,是概率論的里程碑,是高斯分布被叫做正態分布的理論依據。
統計估計對中心極限定理的利用主要因為隨機樣本的大量存在和可取得性,即通常所說的iid樣本。要讓一個系統的熵降低你得做功。
多維的中心極限定理是成立的,所以多維下獨立大樣本推斷的置信區間往往是個橢圓。


(用我們統計課老師最喜歡的例子)

現在要估算全校學生的平均身高,

點估計就是估計一個數值,比如說1.70。

但是很多情況下我們估計的數值是不對的,這時我們就可以大致估計一個區間,比如說1.65-1.75。
而中心極限定理就可以用分布(正態分布,t分布,卡方分布...),估計全校學生的平均身高落在1.65-1.75的概率。

但願我沒記錯 : )


我也只是剛考完試隨手一答,是學農的,不是學數學或者統計的,所以感性認識多一點。也不專業,錯了求指出來。
首先說在統計學裡,這些估計方法都是通過樣本統計數來估計總體參數的。
點估計指的是用樣本的一個統計數估計總體參數,一個數字估計另外一個數字,通過正態轉換這些手段完成。區間估計指的是有了點估計的這個數字之後,計算一下在這個數字周圍的範圍里95%或者99%的可能性這個數字會出現。
中心極限定理是總體參數符合正態分布,但樣本容量較少的時候不是正態分布,當樣本容量增大到一定程度的時候就可以認為樣本統計數也符合正態分布了。
所以中心極限定理是點估計和區間估計的理論基礎,區間估計中間的那個數字來源於點估計的結果。


一般用點估計來構造樞軸統計量,樞軸統計量服從某一個與參數無關的分布,解該分布就得到區間估計,比如在一元線性回歸時求出兩個參數的點估計,經常 再求個區間估計,中心極限定理是指在做參數估計時,有時候你不知道某個參數的分布、或者對於離散分布無法得到樞軸統計量,這時就需要利用中心極限定理將某些分布「近似化」處理,比如二項分布在樣本量很大的情況下,其均值近似服從正太分布,這樣就得到其樞軸統計量。


中心極限定理表示大量相互獨立的隨機變數,其均值的分布的極限是正態分布。
主要屬於概率論中的內容。

點估計和區間估計屬於統計學的內容,是針對參數估計而言的。(參數估計:對一個給定的分布,估計分布中的某個參數。)
點估計顧名思義就是用一個具體的值(統計量)來得到待估參數的值。
區間估計就是用一個區間(統計量表示的區間)來得到以1-alpha概率包含待估參數的區間。

回到題主問題,點估計和區間估計是兩種不同的參數估計方法。
中心極限定理則是概率論中一個重要的定理。一定要講聯繫的話可能就是可以用於點估計和區間估計中的部分證明。


點估計就是用樣本數據代替總體數據的統計量,區間估計就是用樣本統計量估計總體統計量可能位於的區間~這兩者目的是一樣的,我認為這是為了提高結論的可靠性。
至於中心極限定理~我覺得它應該算作一個工具~利用正太分布的原理和性質區間估計的依據。


其實很簡單。正態分布是啥你知道吧,t分布,z分布都是不同均值的正態分布的一個標準化。為啥用要標準化呢,因為求概率就是求曲線下面的面積。標準化後求面積就可以對錶了,不用用微積分中的integral來算了。

中心極限定律又是啥呢。
首先,不管是t還是z它都是基於正態分布的一個估計,如果數據本身就不是呈現正態分布該怎麼辦?!
中心極限定律就說了,沒關係,數據本身不是正態分布沒事兒啊,數據總體的均值呈現正態分布啊!(許多人搞不明白就是因為沒搞清楚這裡說的是均值)有了總體均值的正態分布的這個假設,我們就可以用樣本均值估計總體均值了。


一個正態分布的總體,可以對抽取的樣本的均值進行區間估計。
如果正態總體的標準差已知,那麼可以構建標準正態分布對樣本均值進行區間估計。
如果正態總體的標準差未知,那麼可以用樣本標準差代替總體標準差,構建t分布,來對均值進行區間估計。

問題來了,如果一個總體的分布不是正態分布,如何對樣本的均值進行區間估計呢?
這裡就用到了中心極限定理。根據中心極限定理,只要抽取樣本量足夠大(大於30),那麼樣本的均值同樣符合正態分布。所以同樣可以構建標準正態分布進行區間估計。


推薦閱讀:

導演風格是什麼?一個導演的風格是如何形成的?

TAG:數學 | 統計學 | 計量經濟學 | 高等數學 | 概率論 |