為什麼分母從n變成n-1之後,就從【有偏估計】變成了【無偏估計】?

題主對「有偏估計」和「無偏估計」間的轉化,存在一定疑問:為什麼分母從n變成n-1,就能把樣本的有偏估計轉化成無偏估計?

我知道樣本方差之所以是有偏估計,是因為它有系統性誤差,不管怎麼抽樣,樣本方差值總是小於理論方差值。

之所以存在這樣的系統性誤差,是因為計算式使用的均值是樣本均值Y,不是總體均值u。由於Y是樣本中n個X求得的均值,它總是比理論上的u更加靠近這一組樣本中心。

同時也知道分母n-1的由來大概是因為自由度。由於Y本身是n個X的均值,並不獨立,依賴於每組X抽樣。所以均值表達式其實是1個約束式子,方差計算式的自由度就從n變成了n-1。要減去這個約束。

然後呢?

為什麼減去這個約束,用正確的自由度來描述計算式,它就成了無偏估計?怎麼解釋系統性誤差就完完全全是因為自由度引起的?修正一下自由度就完全解除了系統性誤差???想不明白,求大神指教。


因為樣本均值overline{X}並不等於期望EX = mu,而是本身就是一個隨機變數。這個隨機變數的期望為均值mu,方差比較小(是	ext{Var}(X)n分之一)。(用通俗的語言舉個具體的例子,擲均勻六面骰子,點數的期望是 3.5, 是一個確定的數字。但是如果你只是擲六次取平均值,還是有可能擲出六個 1 或者六個 6 —— 這時候平均值分別是 1 和 6, 這體現的就是overline{X}是隨機變數這件事情。)

原來的問題

為什麼分母從n變成n-1,就能把樣本的有偏估計轉化成無偏估計?

其實有點沒問到點子上。其實n-1並不是變魔法得到的。解釋起來分兩個方面,1. 分母是n的時候有偏; 2. 為了無偏經過計算得到的結果是要用一個dfrac{n}{n-1}的因子來修正。自由度之類的答案並不是說錯了,但講得太濫了有點誤導初學者。

上面說到的兩個方面,2. 是計算的結果,不多解釋了。1. 需要多解釋一下。也就是要回答這個問題:

如果X是一個隨機變數,X_1, ldots, X_n互相獨立且與X獨立同分布,

為什麼用 dfrac{1}{n}sum_{i=1}^n (X_i - overline{X})^2定義出來的量,並不是X的方差?

(其中overline{X} := dfrac{X_1+ldots+X_n}{n}

答: 因為overline{X}並不是均值EX = mu,而是一個期望為均值mu,方差比較小的隨機變數(而且這個隨機變數和X_1, ldots, X_n還是相關的,這就是提到自由度的原因之一)。

方差	ext{Var}(X)是由dfrac{1}{n}sum_{i=1}^n (X_i - mu)^2定義的,明白了overline{X}mu並不是一回事之後,就可以開始計算原來的那個定義跟方差的定義之間的差異——這就是課本上的標準計算了,簡單說就是把

dfrac{1}{n}sum_{i=1}^n (X_i - mu)^2 = dfrac{1}{n}sum_{i=1}^n ((X_i - overline{X}) + (overline{X} - mu))^2

展開,展開之後會發現,差的那個因子,其實來自於overline{X}的方差(正好是	ext{Var}(X)1/n,因為X_1, ldots, X_n互相獨立且與X獨立同分布,所以他們的和的方差是X的方差的 n 倍,除以 n 之後方差變成原來的dfrac{1}{n^2}. 所以overline{X}的方差是X的方差的dfrac{1}{n}.)。

最後,自由度的說法並沒有說錯,但是解釋得太粗暴了還是容易引起誤解。具體細節要看關於chi^2分布的計算:如果X是標準正態分布,則sum_{i=1}^n (X_i - overline{X})^2這個量,是n-1獨立同分布的服從標準正態分布的隨機變數的平方和,這個n - 1說的其實是chi^2分布的自由度。

P.S. 關心最初提到的計算的讀者,可以參考這個答案:為什麼樣本方差(sample variance)的分母是 n-1? - 知乎用戶的回答 本答案是由我在那個答案下的一個一句話評論衍生出來的。(順便說一句,那個問題裡面很多答案都似是而非,噪音很多。但上面鏈接的答案是一個比較有誠意的。作者也說不通過計算沒法解釋為什麼是n-1而不是n-2.)


聽說開頭吼一句反對全部特別爽 (^_^) 好像其他答案都在說為什麼是n-1,題主根本沒在問這個,而是問與自由度聯繫好嗎。

事實上,無偏估計時,那個分母也不一定是n-1(只是大多數時候是),而一定是自由度

舉個例子,比如說你要測定一種植物生長與肥料的關係,將氮的含量分成三個區間,分別求每個區間的平均數和方差,再得出總方差,這時如果取無偏估計,可以計算分母就是n-3。

有的人理解n-3的來源是(n1-1)+(n2-1)+(n3-1),n1 n2 n3分別每個區間樣本個數,這樣理解實際是不確切的。如果我們再取一變數,磷的含量分成三個區間,這樣和氮一起,就將原樣本分成了9個區間,但無偏估計時,分母卻並不是n-9,因為9個區間並不是相互獨立的,分母是n-5,等於其自由度。

首先先考慮自由度為n-1的時候,這是候所有數據是一大坨不分類的,其實這時所有樣本都被看做是homogeneous的,自由度的減少並不來自樣本本身,而是來自人為的規定:規定你的估計必須是無偏的(從這也可以看出無偏估計其實並不一定是最好的估計)。

此時方差的定義是

frac{1}{n}sum_{1}^{n}{(x_{i}-u)^2 }

u是x的數學期望,直接替代成平均數顯然是有bias的:

frac{1}{n}sum_{1}^{n}{(x_{i}-u)^2 }=frac{1}{n}sum_{1}^{n}{((x_{i}-ar{x})+(ar{x} -u) )^2 }=frac{1}{n}sum_{1}^{n}{(x_{i}-ar{x} )^2 } +E(ar{x} -u)^2

你看他多出了一項

無偏估計在計算上還有個優勢,就是使平方的和直接變為了和的平方。我們都知道,那個小尾巴始終是方差的n分之一,這就是n-1的來源。

我們再考慮提到的氮的情況,方差的定義是每個數偏離其數學期望的平方的數學期望,此時數被分成不同的三組,每組有不同的期望,方差為:

frac{1}{n}sum_{i=1}^{3}sum_{j=1}^{n_{i}}{(x_{ij}-u_{i})^2 }

你再將它展開,就會發現多出三個小尾巴

9個區間那個比較麻煩,可以把每個區間平均值按以下公式替換:

u_{ij}=u+N_{i}+P_{j}   …………………………(1)

u是general effect, N和P是氮和磷單獨的影響,其中

N(P)_{3}=-N(P)_{1}-N(P)_{2}

將方差展開,會有五個小尾巴

這其實就是內在聯繫:在我們計算方差時,每多一個約束,少一個自由度,方差計算式中就會多一個變數,而全部約束可以分成若干個系列(如N系列和P系列),每一個系列對全部數據包含且僅包含一次。

我們都進行了一個工作,就是將這個變數換成了這個變數的估計值,這個估計值與變數「相等」但「平方不等」,再計算替換所產生的bias,由於估計是無偏估計,所有線性bias都是0,僅剩下他們的平方差的數學期望delta 。這個delta 實際上是某一部分數據的平均值的方差,和這部分數據的方差是成比例的。對於每一個約束系列,顯然他們的總delta 與總方差成比例,是總方差的frac{m}{n} 倍,其中m為約束在這個約束系列中的自由度,等於約束個數減一。

所以,那個分母是n-sum{m}-1 ,其實由(1)式的內涵可以看出,顯然,它等於總自由度。

如果約束之上還有對約束的約束,那上個式子就不對了,不過等於總自由度總是對的。

----------------------------------------------------------

另外,我特別想吐槽,自由度來自於物理,是正經的統計學和物理學概念。不是玄學,更不是耍流氓。


不請自來,從理論上給題主推導一下:

例如有X_1,X_2,...,X_n的隨機樣本,E(X_i) = muV(X_i) = sigma^2

zeta^2 = frac{1}{n}sum_{i=1}^{n}(X_i-ar{X})^2還有S^2=frac{1}{n-1}sum_{i=1}^{n}(X_i-ar{X})^2

其中zeta^2是分母為n的樣本方差,而S^2則是樓主說的分母為n-1的樣本方差。ar{X}=mu。接下來算算他們倆倒是是有偏還是無偏(biased or unbiased):

@王平民ing 提到了無偏估計量的定義:E(hat{	heta})=	heta

我們的問題變成了,如果E(zeta^2)或者E(S^2)等於sigma^2,那麼該估計量就是無偏的;反之,有偏。

V(X) = E(X^2)-[E(X)]^2 &<--這是方差和期望的關係,可以推出:

E(X_i^2) = V(X_i^2)+[E(X_i)]^2 = sigma^2 + mu^2

E(ar{X}^2)=V(ar{X}) + [E(ar{X})]^2=V(frac{X_1,X_2,...,X_n}{n})+[E(ar{X})]^2=frac{sigma^2}{n}+mu^2

以上兩步如果有看不懂的可以具體看:Mean and Variance of Sample Mean

回到我們的問題

E(zeta^2)=E[frac{1}{n}sum_{i=1}^{n}(X_i-ar{X})^2]=frac{1}{n}E[sum_{i=1}^{n}(X_i-ar{X})^2]

以下答主表弟回答的 ^ ^:

E(zeta^2) = E[sum_{i=1}^{n}X_i^2-sum_{i=1}^{n}2X_iar{X}+sum_{i=1}^{n}ar{X}^2]

E(zeta^2) = E[sum_{i=1}^{n}X_i^2]-E[sum_{i=1}^{n}2X_iar{X}]+E[sum_{i=1}^{n}ar{X}^2]

E(zeta^2) = E[sum_{i=1}^{n}X_i^2]-E[2ar{X}sum_{i=1}^{n}X_i]+E[ar{X}^2sum_{i=1}^{n}1]

E(zeta^2) = E[sum_{i=1}^{n}X_i^2]-E[2ar{X}(nar{X})]+E[nar{X}^2]

之前幾步表弟把節操給丟了,現在樓主幫他撿回來:

E(zeta^2) = frac{1}{n} (nE[X_i^2]-nE[ar{X}^2])

E(zeta^2) = E(X_i^2)-E(ar{X^2})

同理(因為倆估計量有一個共同項),得出

E(S^2) = frac{n}{n-1}[E(X_i^2)-E(ar{X^2})]

帶入之前我們推導出來的:

E(zeta^2) = sigma^2 + mu^2 -frac{sigma^2}{n} -mu^2= frac{n-1}{n} sigma^2

E(S^2) = frac{n}{n-1}(sigma^2 + mu^2 -frac{sigma^2}{n} -mu^2)= frac{n}{n-1}frac{n-1}{n} sigma^2=sigma^2

結論就出來啦!

如果發現什麼錯誤或者疑問,請猛戳回復!


感謝邀請!

12月13日Update

具體的樣本方差的數學期望,是方差的(n-1)/n倍的推導請看 @LegitMe

的回答為什麼分母從n變成n-1之後,就從【有偏估計】變成了【無偏估計】? - LegitMe 的回答和為什麼樣本方差(sample variance)的分母是 n-1? - 數學推導,至於自由度的理解我覺得是另一種理解方式。當然,因為我是土木狗,看到自由度是在結構力學裡對結構體系穩定與不穩定、靜定與超靜定裡面,和約束相對。在數學上我對自由度的理解沒有透徹,不能亂說誤導別人。

12月7日Update

首先對題主因為前面的誤會表示歉意。我剛才再次翻看了浙大版高等教育出版社《概率論與數理統計》對於這個問題是這樣描述的。

圖一最後一句話:無偏估計的實際意義就是無系統誤差。那麼我們可不可以這樣理解:對於一個系統樣本估計量表示的是對樣本的偏離程度,即系統誤差。引用課本原話

估計量的無偏性是說對於某些樣本值,由這一樣本得到的估計量相對於真值偏大,某些則偏小。反覆將

這一估計量使用多次,其「平均」來說偏差為零。(圖一最下面)

系統的E(θ)是n個樣本的數學期望,但是不是n-1個樣本的數學期望,即:對於得到的估計量對於樣本容量為n時系統平均誤差為零,但是對於n-1個樣本時系統平均誤差不為零。

還可以這樣理解n個樣本和n-1個樣本的系統誤差不同。

無論字體服從什麼分布,樣本均值x是總體均值μ的無偏估計。(圖二第三行)

但是均值x不是n-1(我們設總體樣本數為n)的均值,是n-1個樣本的有偏估計量。

為什麼分母從n變成n-1,就能把樣本的有偏估計轉化成無偏估計?

因為
樣本方差的期望是樣本方差的無偏估計量,但是樣本方差不是x的數學期望,是方差的(n-1)/n倍,相關請查閱樣本方差的計算哦,以下內容相關引用了百度百科詞條:方差

————————————————————————————————————————分割線,原回答

總體ξ取出n個樣本

n的那個樣本方差的期望是Dξ的漸近無偏估計量(就是n-&>無窮時才相等)

n-1的那個的期望直接等於Dξ,即是無偏估計量,有更好的性質

自由度也可以解釋,不是有n個與均值偏差的平方和嗎?正好這n個表達式之和等於0,也就是說本來n維自由度的,受限於一個條件。所以變成了n-1維了。

還有一點,正是因為無偏的緣故,大樣本情況下,除以n-1和n結果偏差不大,所以要追求性質更好的那個估計了。

  • 實際上n如果趨於無窮是沒有差別的,但是n—1說的是一個自由度問題,屬於無偏估計。

相關鏈接ChinaUnix博客

終於知道為啥有個方差的分母是n-1了


題主,咱豁出去了,強行求個期望看它有偏沒偏!


少年,數學問題就要用數學證明,把統計學成玄學是病,要治啊!


應該這麼說的:在總體期望已知的情況下樣本方差的無偏估計是除以n;若總體期望未知,估計期望時用了一個自由度,這時方差的無偏估計就除以n-1


為免混淆,用sigma^2指代題主所說的方差,下文中的方差泛指所有var(theta).

自由度的事我也搞不清楚,但就無偏估計而言,還是能給出一個解釋,順帶糾正一下無偏估計和有偏估計的概念——無偏估計並不一定優於有偏估計。

所謂誤差(均方誤差,MSE)包括方差和偏差,而「無偏估計」,指的是偏差為0,但它並不能保證方差的大小。

也就是說從均方誤差的角度而言,無偏估計並不一定是優於有偏估計的(可能有偏估計可以使方差更小,從而使均方誤差更小)。

王松桂《線性統計模型》

具體到sigma^2,

令Esigma^2=sigma^2(前面那個是估計值的期望),可以得到sigma^2的估計值,這就是無偏估計,這個值的分母就是(n-1)。

這個結果和自由度吻合,兩者之間應該是有什麼內在關聯的吧


我的理解是:

首先,

樣本方差=和方╱自由度

先看和方SS=(X-μ)2

和方是意義是將離差去掉正負號,放大

也就是和方代表的是原始數據與總體平均數之間差異的平方的和

總體方差是和方的平均值(書上的定義)

σ2=和方╱N

在看自由度(n-1)

自由度的含義是可以自由變化的個數,由於均值是確定的,也就是說由於均值是確定的,所以,是均值的這個數就被固定了,那麼其他的(n-1)個數就可以任意變化了

也就是說

在樣本當中S2=SS╱(n-1)

那麼這裡的和方就是樣本當中的數據和樣本平均數之間差異的平方的和。那麼這個差異假設只有有一個樣本是沒有差異的,就是樣本為樣本平均數的那一個。那麼和方就是由除了這個樣本數據以外的其他樣本數據造成的。那誰造成的就除誰好了,既然樣本為均值的那一個沒有造成差異,那麼就不算它了。

那麼,剛好,我們的自由度也是如果固定一個數,那麼其他的n-1個可以任意變化。

所以就有和方除以其他的n-1個數就是總體的無偏估計值。


以上各位大神說的太專業,我來調節一發氣氛。

此處n可以理解為自由度。

對於自由度的理解,就是因變數至少由n個自變數確定,那個n就是因變數的自由度。

----------------正題分割線------------------------

當拿到一個容量為n的樣本時,樣本的均ar{x} =(x_{1}+x_{2}+cdot cdot cdot +x_{n} )/n值,ar{x} 由且僅由n個樣本點唯一確定,只要有一個樣本點未知,ar{x} 就未知。

而樣本方差就不同了。此時ar{x} 已知,那麼,n個樣本點中只要有n-1個已知(最後一個樣本點的值可由n-1個樣本點和均值來確定),樣本方差就可以知道了。因此,最後一個樣本點已知和未知情況就無關緊要了。

要想確定樣本方差,只要n-1個樣本點已知就夠了。

所以均值的無偏估計是除以n,而方差的無偏估計除以n-1


左下角是推導結果。中國的數理統計教材還是50年代從蘇聯那抄過來的,爛得跟屎一樣,JJYY一堆文字,都不會把推導過程放出來,建議LZ翻牆學習。

蘇聯共產黨重概率論,打壓數理統計,因為數理統計是服務於資本主義的數學。


因為有自由度問題的存在


如何判斷是有偏還是無偏,不就是一個求期望的純數學問題嗎?自己從頭推導一遍吧。


拿方差來說吧,n/(n-1)算是一個修正因子。為什麼需要修正?打個比方,你認為這n個數都是隨機的,隨機給出。但每一個x都要減掉一個均值。這個均值在已經有了n個給定的x之後是確定的,或者說隨意給出(n-1)個x,有了這一個均值相當於說把剩下的一個x也確定下來了。自由度可以理解成有多少個隨機變數。求和之後除以自由度得到的估計量才是無偏的。

這學期才把這個想清楚,我是這樣理解的,願有幫助。


因為樣本均值的方差是 1/n 倍的無偏估計方差 。。。。。

所以無偏估計方差 × (1 - 1/ n) = 有偏估計方差。

1/n / (1 - 1 / n) = 1/ (n - 1)

n-1 就是這麼來的。。。


這個可以算出來的,除以n-1算出來的樣本方差的期望就等於總體方差。這就滿足了無偏估計的定義。


推薦閱讀:

大數定律和中心極限定理在各個領域的運用有什麼 ?
最大似然估計和EM演算法的關係是什麼?
SAS, SPSS, AMOS, Stata之間的比較?
回歸分析中,x對y回歸和y對x回歸,也就是交換順序之後,為什麼係數不是倒數的關係?

TAG:統計學 | 數據分析 | 數據統計 | 統計 | 統計學分布 |