為什麼樣本方差(sample variance)的分母是 n-1?

相近問題:怎麼理解統計學中「自由度」這個概念?


上面有答案解釋得很明確,即樣本方差計算公式里分母為n-1的目的是為了讓方差的估計是無偏的。無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,儘管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這裡探討;不符合直覺的是,為什麼分母必須得是n-1而不是n才能使得該估計無偏。我相信這是題主真正困惑的地方。

要回答這個問題,偷懶的辦法是讓困惑的題主去看下面這個等式的數學證明:
mathbb{E}Big[frac{1}{n-1} sum_{i=1}^nBig(X_i -ar{X}Big)^2 Big]=sigma^2.
但是這個答案顯然不夠直觀(教材裡面統計學家像變魔法似的不知怎麼就得到了上面這個等式)。
下面我將提供一個略微更友善一點的解釋。
==================================================================
===================== 答案的分割線 ===================================
==================================================================
首先,我們假定隨機變數X的數學期望mu是已知的,然而方差sigma^2未知。在這個條件下,根據方差的定義我們有
mathbb{E}Big[ig(X_i -muig)^2 Big]=sigma^2, quadforall i=1,ldots,n,

由此可得
mathbb{E}Big[frac{1}{n} sum_{i=1}^nBig(X_i -muBig)^2 Big]=sigma^2.

因此frac{1}{n} sum_{i=1}^nBig(X_i -muBig)^2 方差sigma^2的一個無偏估計,注意式中的分母不偏不倚正好是n
這個結果符合直覺,並且在數學上也是顯而易見的。

現在,我們考慮隨機變數X的數學期望mu是未知的情形。這時,我們會傾向於無腦直接用樣本均值ar{X}替換掉上面式子中的mu。這樣做有什麼後果呢?後果就是,
如果直接使用frac{1}{n} sum_{i=1}^nBig(X_i -ar{X}Big)^2 作為估計,那麼你會傾向於低估方差!
這是因為:
egin{eqnarray}
frac{1}{n}sum_{i=1}^n(X_i-ar{X})^2 =
frac{1}{n}sum_{i=1}^nBig[(X_i-mu) + (mu -ar{X}) Big]^2\
=
frac{1}{n}sum_{i=1}^n(X_i-mu)^2 
+frac{2}{n}sum_{i=1}^n(X_i-mu)(mu -ar{X})
+frac{1}{n}sum_{i=1}^n(mu -ar{X})^2 \
=
frac{1}{n}sum_{i=1}^n(X_i-mu)^2 
+2(ar{X}-mu)(mu -ar{X})
+(mu -ar{X})^2 \
=frac{1}{n}sum_{i=1}^n(X_i-mu)^2 
-(mu -ar{X})^2 
end{eqnarray}
換言之,除非正好ar{X}=mu,否則我們一定有
frac{1}{n}sum_{i=1}^n(X_i-ar{X})^2 <frac{1}{n}sum_{i=1}^n(X_i-mu)^2 ,
而不等式右邊的那位才是的對方差的「正確」估計!
這個不等式說明了,為什麼直接使用frac{1}{n} sum_{i=1}^nBig(X_i -ar{X}Big)^2 會導致對方差的低估。

那麼,在不知道隨機變數真實數學期望的前提下,如何「正確」的估計方差呢?答案是把上式中的分母n換成n-1,通過這種方法把原來的偏小的估計「放大」一點點,我們就能獲得對方差的正確估計了:
mathbb{E}Big[frac{1}{n-1} sum_{i=1}^nBig(X_i -ar{X}Big)^2Big]=mathbb{E}Big[frac{1}{n} sum_{i=1}^nBig(X_i -muBig)^2 Big]=sigma^2.

至於為什麼分母是n-1
而不是n-2或者別的什麼數,最好還是去看真正的數學證明,因為數學證明的根本目的就是告訴人們「為什麼」;暫時我沒有辦法給出更「初等」的解釋了。


我覺得無偏估計可以這麼理解。因為均值你已經用了n個數的平均來做估計 
在求方差時,只有 (n-1)個數 和 均值信息 是不相關的。而你的第n個數已經可以由前(n-1)個數和均值 來唯一確定,實際上沒有信息量
所以在計算方差時,只除以(n-1)


(補充一句哦,題主問的方差 estimator 通常用 moments 方法估計。如果用的是 ML 方法,請不要多想不是你們想的那樣, 方差的 estimator 的期望一樣是有 bias 的,有興趣的同學可以自己用正態分佈算算看。)

本來,按照定義,方差的 estimator 應該是這個:

但,這個 estimator 有 bias,因為:

但,這個 estimator 有 bias,因為:


而 (n-1)/n * σ2 != σ2 ,所以,為了避免使用有 bias 的 estimator,我們通常使用它的修正值 S2:


我來補充一個新的視角吧,希望能幫助理解。
有很多人提到了「自由度」的概念。那麼自由度是什麼?說的好玄乎,什麼因為估計了一個參數所以少了一個自由度。我說自由度是矩陣的「秩」或者「跡」有人信嗎?
不信?來看:

就寫這麼多了。

就寫這麼多了。
另外排名最高的答案道出了實情,就是這個scalar不一定是n-1,也可能是n,n+1。但是他沒說清楚為什麼我們要追求無偏性。一般來說,極大似然的估計量可以保證一致性,但是不能保證無偏性。而一致性是在樣本量很大的情況下的性質,但是小樣本情形下未必多麼好。所以我們做假設檢驗的時候經常要調整自由度的,大樣本情況下你甚至可以忽略t和N,x2和F的差異,但是樣本小的情況下,我們更願意用t而非N,用F而非x2.
===================
居然被頂的這麼高。嗯嗯,那我就繼續補充吧。回答評論區裡面對幾個問題。有人說這麼簡單一個問題你搞這麼複雜幹嘛。首先這個一點都不複雜,為了大家看清楚步驟寫的比較詳細而已,實際上非常簡單的東西,只要你熟練掌握線性代數。而且,這是最簡單的情形。稍微複雜一點的應用中,不這麼麻煩你會搞糊塗的。比如工具變數的估計,假設N個觀測,K個解釋變數,K+1個工具變數,你告訴我計算誤差項的方差的時候,是(N-K)還是(N-K-1)還是(N-K-K-1)?第一階段不是已經估計量K+1個參數嗎?要不要算在自由度裡面?有興趣自己用上面的方法簡單推一下就明白了。projection而已。
@趙卿元大神提到應該是trace,的確應該是trace,只不過我這裡都是正交投影,trace=rank,但是我想用rank可以表達出跟「因為估計了一個參數」共同的理解,理解成N維空間裡面投影的時候有一維共線了,這個純屬我自己多想。
@魚片 說教材太過拘泥於無偏性,其實自由度調整有的時候不僅僅是為了無偏。舉個栗子:


當我們做面板效應固定效應(FE)的時候,如果計算誤差項的方差,應該是用1/(NT-K)嗎?嗯嗯,錯了。應該用1/(NT-N-K)。為什麼?你可以用上面的矩陣的形式推出來,也可以理解成我們做within group transformation的時候實際上每個group都減掉了一期,所以樣本量相當於只有N(T-1),也可以回想一下FE估計等價於FD估計的GLS估計,而FD估計只有N(T-1)個樣本。
不管了,反正記住FE計算方差要用NT-N-K,所以你看這裡如果不對自由度做調整,這個方差的估計量連一致的都不是。當N趨向於無窮的時候,兩種方法計算出來的趨向於T/(T-1)倍,兩期的話就是兩倍,三期的話就是1.5倍,差異很明顯。
此外,在一定條件下,FE對個體異質性的估計雖然不是一致的,但是可以是無偏的。
存在總是有道理的。


是為了得到無偏估計。
但是在現代統計學裡,無偏估計不重要,最小化risk,比如minmax estimator更有意義。

對於方差的例子,加一減一沒啥區別。數據量夠大時大家一樣,數據量小時,做統計分析也沒啥意義,Larry Wasserman原話。


樣本方差與樣本均值,都是隨機變數,都有自己的分布,也都可能有自己的期望與方差。取分母n-1,可使樣本方差的期望等於總體方差,即這種定義的樣本方差是總體方差的無偏估計。 簡單理解,因為算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。
再不能理解的話,形象一點,對於樣本方差來說,假如從總體中只取一個樣本,即n=1,那麼樣本方差公式的分子分母都為0,方差完全不確定。這個好理解,因為樣本方差是用來估計總體中個體之間的變化大小,只拿到一個個體,當然完全看不出變化大小。反之,如果公式的分母不是n-1而是n,計算出的方差就是0——這是不合理的,因為不能只看到一個個體就斷定總體的個體之間變化大小為0。
我不知道是不是說清楚了,詳細的推導相關書上有,可以查閱。


我來說個我們這種文科生都能看得懂的。

如果讓你列出三個數,X1、X2、X3,,要求這三個數的平均值是5。
可以有很多種,什麼5、4、3,什麼1、4、10,列著列著你就會發現,X1、X2、X3著三個數字,只要前面兩個列出來了,第三個數字直接就確定了。
如果讓你列四個數字,X1、X2、X3、X4,平均值是5,你依然會發現只要列出前面三個數字,最後一個數字就確定了。

所以這裡我們引出一個概念,叫自由度。顧名思義,就是可以自由取值的個數。相信文科生們看到這裡都知道了,這裡自由度就是n-1。

那麼,為什麼要除以的是自由度呢?因為,在計算樣本標準差之前,先把樣本的平均值算出來。既然樣本個數知道了,平均值知道了,那自由取值的個數不就是n-1了嗎?除以自由度以後我們會發現,樣本的標準差是總體標準差的無偏估計量。


因為樣本均值與實際均值有差別。
如果分母用n,樣本估計出的就方差會小於真實方差。
維基上有具體計算過程:
http://en.wikipedia.org/wiki/Unbiased_estimator#Sample_variance


我能說陳述不成立么?
嗯,樣本方差的分母是m-1是因為他是無偏的,嗯,這個解釋其實蠻牽強。
分母是m-1的情況下,估計值是總體方差的無偏估計。
分母是m的情況下,估計值是最大似然估計。
分母是m+1的情況下,估計值是最小MSE(Mean Squared Error) 的估計。
那憑什麼m-1就好呢?無偏就這麼好,要比最大似然好,要比最小MSE好?
如果覺得樣本夠大,那麼用m-1是不錯的,因為在大樣本下,參數的方差就算大一點兒也不會多多少,影響也不會大到哪兒去。
如果要保證信息利用充分,那我肯定選擇最大似然估計的方差。
如果樣本數量較小,我就選擇最小MSE,因為此時無偏性其實不是第一準則,因為無偏導致了大方差是不可取的行為。
統計是一門很靈活的學科,不同的數據,會有不同的方法來處理。


因為 frac{1}{n-1}sum_{i=1}^n(X_i-ar{X})^2的數學期望剛好就是sigma^2,而 displaystylefrac{1}{n}sum_{i=1}^n(X_i-ar{X})^2的數學期望比 sigma^2小一些,會傾向於低估方差。

我們可以證明 {
m E}(s^2)=sigma^2

首先我們證明 {
m E}(s^2)=frac{n}{n-1}({
m E}(X^2)-{
m E}(ar{X}^2))

egin{aligned}{
m E}(s^2)={
m E}(frac{1}{n-1}sum_{i=1}^n(X_i-ar{X})^2)\=frac{1}{n-1}{
m E}(sum_{i=1}^n X_i^2-2ar{X}sum_{i=1}^nX_i+sum_{i=1}^nar{X}^2)\=frac{1}{n-1}{
m E}(sum_{i=1}^n X_i^2-nar{X}^2)\=frac{1}{n-1}(sum_{i=1}^n{
m E}(X_i^2)-n{
m E}(ar{X}^2))\=frac{n}{n-1}({
m E}(X^2)-{
m E}(ar{X}^2))end{aligned}

然後因為sample裡面的X都是互相獨立的,所以還能知道

egin{aligned}{
m E}(ar{X})={
m E}(frac{1}{n}sum_{i=1}^n X_i)=frac{1}{n}sum_{i=1}^n{
m E}( X_i)={
m E}(X)=mu\{
m Var}(ar{X})={
m Var}(frac{1}{n}sum_{i=1}^n X_i)=frac{1}{n^2}sum_{i=1}^n {
m Var}(X_i)=frac{1}{n}{
m Var}(X)=frac{sigma^2}{n}end{aligned}

又因為

{
m Var}(X)={
m E}(X^2)-{
m E}(X)^2

我們就知道

egin{aligned}{
m E}(X^2)=mu^2+sigma^2\{
m E}(ar{X}^2)=mu^2+frac{sigma^2}{n}end{aligned}

所以

egin{aligned}{
m E}(s^2)=frac{n}{n-1}({
m E}(X^2)-{
m E}(ar{X}^2))\=frac{n}{n-1}(mu^2+sigma^2-mu^2-frac{sigma^2}{n})\=sigma^2frac{n}{n-1}(1-frac{1}{n})\=sigma^2end{aligned}

所以 s^2=frac{1}{n-1}sum_{i=1}^n(X_i-ar{X})^2 可以無偏估計population的方差。

但如果 s^2=displaystylefrac{1}{n}sum_{i=1}^n(X_i-ar{X})^2

egin{aligned}{
m E}(s^2)={
m E}(X^2)-{
m E}(ar{X}^2)\=mu^2+sigma^2-mu^2-frac{sigma^2}{n}\=frac{n-1}{n}sigma^2end{aligned}

它就會傾向於比實際的方差略小一點,就會有bias。


先謝謝少年邀請啦!兔紙才疏學淺受寵若驚~

我認為,樣本方差的分母為n-1最主要的原因是這樣樣本方差才是總體方差的無偏估計。證明如下:

由Student"s Theorem,eta =frac{(n-1)s^{2} }{sigma ^{2} } sim chi ^{2}(n-1) Rightarrow E[frac{(n-1)s^{2} }{sigma ^{2} }]=n-1Rightarrow E(s^{2})=sigma ^{2}
	ilde{S} ^{2} =frac{1}{n} sum_{1}^{n}{(X_{i} -ar{X} )^{2} } =frac{n-1}{n} S^{2} Rightarrow E(	ilde{S} ^{2} )=frac{n-1}{n} sigma ^{2} 
ightarrow sigma ^{2} ,n
ightarrow +infty
S^{2} 是總體方差的無偏估計,	ilde{S} ^{2} 只是總體方差的漸進無偏估計。


但是,我覺得在現在人力物力財力都充足的時代,計算機運算速度更是比以前快了那麼多,還有人只做30個樣本一下的小樣本抽樣么?那麼,既然是大樣本了,這倆其實差別不大吧?


至於上面有人說無偏估計、MLE等等各種估計量用哪個的問題,我覺得這很大程度上取決於使用者的價值觀了吧。各有利弊,就看問題的背景需求和你如何定義那個balance了,所以我覺得統計有意思的地方之一就是 她不僅僅是一門科學還是一門藝術。


使用樣本來無偏估計總體方差的時候,公式如下:

為什麼分母是n-1,而不是n呢?這直覺上不太對。其實,如果分母為n,也可以成為一個估計值,但是它不滿足無偏這個條件。僅在除以n-1時才滿足無偏這個條件。所以說,關鍵問題在於「無偏」。那麼「無偏」的定義是什麼?
如果一個估計量是「無偏」的,那麼它的期望就等於真實值。
看到一些書上和網上的資料,有不同的角度。現在按照從感性角度到理性角度的順序對它們進行整理:

角度一 生活實例
樣本的容量小於整體,所以有較小的可能性抽中一些極端的數據。比如找來一堆人做樣本來測量身高,那麼樣本中出現巨人的可能性是很小的,這樣得到的結果可能就會比實際小。為了彌補這點不足,就把分母變得小一些,這樣就更能反應實際數據了。
質疑:這個解釋其實不太合理。因為既然可能抽不到高個子,也同樣可能抽不到矮個子,所以,分母既然可以變得小一些,也就應該有同樣的理由變得大一些。我認為這個角度並不能說明問題。

角度二 自由度
自由度指的是等式中能夠自由取值的變數的個數,如果有n個數能夠自由取值,那麼自由度就為n。
在公式①中, Xi有n個可取的值,所以Xi的自由度為n,但是,它接著還減去了 ,而 代表了樣本中第1到第n個數值的平均值。那麼,其實相當於增加了一個限制條件,原來的自由度要減去1,得n-1。(可以這樣理解,如果自由度仍為n,那麼n個數可以隨意取值的情況下,是不能得到一個確定的均值的。或者說,一堆數,如果知道了均值,那麼其實只需要知道另外的n-1個數,這堆數中的每個數都確定了)

角度三 公式推導
參考高教《概率論與數理統計》第168頁。首先,

這是對公式本身的化簡。現在,求S

2

的期望

其中,μ和σ 分別是總體X的均值和方差。
並且,倒數第二步,兩次運用了下面這個方差的性質:
D(X)=E(X

2

)-[E(X)]

2

角度4 依然公式推導

依然是公式推導,過程有小區別。在這裡有詳細描述。
其中,原文中談到「關於第二部分和第三部分,實際上有...」後緊跟著的公式那裡,我一開始沒有看懂,請教老師後發現。過程是這樣的:

對於適用條件:
參見樣本描述:

研究中實際觀測或調查的一部分個體稱為樣本(sample),研究對象的全部稱為總體。為了使樣本能夠正確反映總體情況,對總體要有明確的規定;總體內所有觀察單位必須是同質的;在抽取樣本的過程中,必須遵守隨機化原則;樣本的觀察單位還要有足夠的數量。又稱「子樣」。按照一定的抽樣規則從總體中取出的一部分個體。樣本中個體的數目稱為「樣本容量」。


一句話的事。

測量平均值是有方差的。


測量值與測量平均值的差的平方和 的平均。是本次的測量值與本次測量平均值之間的方差。不是測量值與真實平均值之間的方差。想要計算測量值與真實平均值之間的方差。還需要加上真實平均值和測量平均值之間的方差。


有一正態分布。平均值是 X(真實)。 方差是 套方(測量相對真實)

不管測量多少次。平均而言。 測量值X(測量)X(真實)之間的方差都是套方(測量相對真實

可是X(真實)是多少呢? 沒有人知道。知道就不用測量了。所以大多數情況利用X(測量)是無法得到套方(測量相對真實)

但是人們可以得到一個值,就是測量平均值。X(測量平均) 以及 測量值和測量平均值之間的方差。套方(測量相對測量平均)

注意此時。 frac{Sigma(x_{measure} - x_{average})^2}{n} =sigma ^2_{measure----average }

得到的是 套方(測量相對測量平均)

而這個值其實是相對沒有意義的。每次測量的平均值都不一樣。人們更關心的其實是 套方(測量相對真實)

那麼 怎麼求呢。


我們知道。由於多次測量取平均 X(測量平均) 相對真實值的方差 套方(測量平均相對真實)套方(測量相對真實)的N分之一。

又知道。 套方(測量相對真實) = 套方(測量平均相對真實) + 套方(測量相對測量平均)

於是得到。

sigma _{measure-real}^{2} =frac{ sigma _{measure-real}^{2} }{N} + sigma _{measure-average}^{2}

化簡得到

frac{N - 1}{N} sigma _{measure-real}^{2} =sigma _{measure-average}^{2} = frac{Sigma(x_{measure} - x_{average})^2}{N}

再次化簡 得到

sigma _{measure-real}^{2} =frac{Sigma(x_{measure} - x_{average})^2}{N - 1}


最近剛開始學統計,我恰好也卡在這個問題上,正好借這個機會自己也逼自己把書看明白。

首先,作為一個學物理的,我認為還是科學性遠比「藝術性」更重要,有一個邏輯自洽的框架才是美和實用的根本,否則永遠是新時代的博物、分類學家。
關於這個問題,請看David McKay 的Information Theory, Inference, and Learning Algorithms 第24章。裡面有用貝葉斯體系對這個問題的解釋,同時也對照了頻率學派的解釋,說的很清楚。
簡要用大白話說下流程,我們要估計的是一個高斯分布的兩個參數、中心值 u 和標準差 sigma 。我們首先從uninformative prior出發,對於u是一個均勻分布,對於sigma是一個1/sigma(因為rescale的概率是相同的,所以本質上是log(sigma)的均勻分布)。我們用貝葉斯公式求u和sigma聯合分布。以下sigma簡稱s,D代表Data就是得到的數據,然後
P(u|D,s) = P(D|s,u) * P(u) / P(D|s)
實際這個分布就是以樣本平均值為中心,樣本標準差/sqrt(n)為標準差的高斯分布。注意!我們得到的只是高斯分布的中心值u的分布,這個標準差不是高斯分布里的待求參數sigma。

再求sigma,也就是這裡的s,注意到u和s本身的先驗分布是獨立的,所以互相condition不改變函數形式。這樣就得到了conditional on s 的u分布,再利用全概率公式展開P(D|s,u),我們就有了:
P(D|s) = Sum_u P(D|s,u) * P(u)
而利用全概率公式展開的時候,我們要對不同的u進行積分。如果我們考慮s的後驗分布的最大概然情況,也就是貝葉斯意義下最好的原樣本方差估計。這個由於我們不知道u,而必須對所有情況加總的積分就給了我們N-1的修正。如果我們已知u,則不需要這個修正。在貝葉斯框架下就不需要人為的設計estimator,算是非常科學的一點吧,不過先驗概率太難取了,而且很多時候會出現不能歸一的先驗概率。


其實你可以這樣想:樣本均值只可能在一堆抽樣值之間,而實際均值可能不在這一堆抽樣值中間。所以拿樣本均值來估計方差肯定是把方差變小了的。


感覺書上說的淺白易懂_(:3」∠)_


CPA財管書上解釋的很好理解,如圖


答案作為@Jichun Si 答案的補充, @Jichun Si 要覺得有用可以直接領走。

簡單來說為什麼少了一個自由度:
Q_i=(x_i-ar{x} )
Q=sum Q_i^2
一般假設x_i是圍繞均值正太分布的。各個x_i之間是獨立的。那麼Q_1
-Q_n也都是正太分布,按理說也應該有n個自由度,但是他被一個線性條件約束著:sum Q_i=sum x_i-n*ar{x}=0
那一個自由度就是丟在這裡了。
這個解釋不需要Matrix Theory和Multivariate Analysis的知識。


排名第一的答案分了三種情況,前兩個還好,最後一個n+1看起來有點讓人摸不到腦袋額,在這裡我對n+1作下嚴格的分析,為什麼它是最小化均方誤差的估計。


Because of unbiased estimation.

reference:

http://www.econ.umn.edu/~evdok003/week5.pdf


推薦閱讀:

為什麼 30 個樣本就稱為「大樣本」,而不是 40 或 50?

TAG:數學 | 統計學 | 數理統計學 | 概率論 |