樣本方差的自由度是n-1,為何總體的自由度就是n?在求總體方差時,難道不也要用到總體的均值嗎?

相近問題:怎麼理解統計學中「自由度」這個概念?


在回答題主的問題之前,我們先看看為什麼樣本方差的自由度是n-1。

如果我們面對著大量的數據,並且想要試圖了解這一組數據的特性,那麼你要做的是收集所有的數據,然後按照公式計算。然而在現實中這幾乎是不可能的,例如你想要了解某個國家就業者工資水平的波動情況(方差),你不可能把每個人的工資狀況都統計一遍然後進行計算。因此我們需要抽樣調查,得到一個容量比較小,但是足以反映總體特徵的樣本,然後根據這個樣本的特徵去推斷總體的特徵。這也是統計學首要關心的問題。

根據樣本進行統計推斷時,例如我們希望通過樣本方差推斷總體方差,誤差是沒有辦法避免的,畢竟我們只拿到了總體中一部分的數據。但我們希望樣本方差的期望值與總體的方差是相等的。也就是說,一份樣本的方差可能與總體的方差有出入,但我們(理論上)可以進行多次抽樣,這樣樣本的方差就成了隨機變數,而一個合理的估計應該使這個隨機變數的期望值與總體方差相等。也就是E(S^2)=sigma^2。其中S^2是樣本方差,sigma^2是總體方差。我們把估計值的這一特性稱作「無偏性」。

可以證明,樣本方差的自由度只有為n-1才能滿足「無偏性」的要求

所以,接下來可以回答題主的問題了。我們求樣本方差的目的是為了推斷總體方差,而且我們希望進行合理的估計,這要求估計值滿足「無偏性」的要求,於是樣本方差的自由度為n-1;而總體方差實際上在很多時候是一個理論上的值,現實中是很難求出這個數的。而且我們的目的就是想知道總體方差。試想,如果你真的拿到了總體的數據,直接求方差就好了,根據方差的定義,分母就是n,還管什麼推斷,管什麼估計,管什麼自由度。

總之,自由度究竟是多少的判斷標準並不是在其計算的過程中是否用到了總體均值。而且「在求總體方差時,難道不也要用到總體的均值嗎?」這一問題暗含了題主對基本概念的不夠準確的認知。因為在求總體方差時確實要用到總體均值(如果你能拿到總體數據的話),求樣本方差時使用的是樣本均值。

再多說一句,建議題主不要機械地理解自由度這個概念。

題主看到這裡若已明白,請謹慎決定要不要繼續閱讀,因為接下來的內容可能會將你繞暈。若不明白,希望接下來的內容可以幫到你。

為了更好地理解為什麼總體方差的自由度是n,我們此時也可將其視為一種特殊情況:用總體推斷總體。題主務必記住,我們希望估計值是無偏的。若你拿到了總體數據,我們可以視為你進行了一次抽樣,並且只有這一種可能的抽樣(你把所有的數據都抽出來了),那麼樣本方差的期望就是樣本方差;而這裡所說的「樣本」實際上就是總體,因此根據這一抽樣所計算的估計值一定是無偏的。因此,總體均值的自由度是n。

用公式來說,E(S^2)=1	imes S^2=sigma^2。第一個等號成立是因為只有一次抽樣,因此樣本方差這一隨機變數的期望值等於根據這唯一一次抽樣計算出來的樣本方差乘以其概率1;第二個等號成立是因為我們所謂的「樣本」在這次特殊的抽樣中其實就是「總體」。要想保證第二個等號成立,那麼等號左邊的「樣本」(實際上是總體)方差的計算必須除以n,這樣就可以理解為什麼總體方差的自由度是n了。

哈哈哈,知乎首答,有點開心。


估計均值費了一個自由度


樣本中如果均值已知,知道n-1個變數,第n個變數也就已知了。利用無偏性有嚴格的推導,茆詩松那本書有


  • 建議題主先看一下自由度的概念...

In many scientific fields, the degrees of freedom of a system is the number of parameters of the system that may vary independently

這是wiki上的解釋, 簡單舉例

設一個 system 只有三個變數 x,y,z,

若這些變數中存在一個可以由另兩個變數決定的變數, 比如 x=y ( 或x+y=z ), 那麼這個 system 的自由度就是 2 ;

若這些變數滿足 x=y=z, 那麼這個 system 的自由度就是 1 .

簡單說, 可以理解為線性代數中的秩, 也可以理解為一個 變數 system 中的完備變數的個數.

在統計上, 一個 system 內獨立變動的隨機變數的個數就是自由度了.

  • 現在可以解決題主疑問了: "總體方差" 並不存在自由度的概念, 因為總體分布的均值和方差本來就是總體自身的特徵 (定參數) , 不涉及任何隨機變數.

統計抽樣的目的是做統計推斷, 要求根據樣本來推斷總體特徵(未知參數), 通常用樣本(隨機向量 (X_1,...,X_n))來建立一個統計量對其進行估計, 這個統計量是由抽樣(或樣本)隨機性而生的隨機變數.

比如樣本均值 ar{X} 是由 n 個獨立隨機變數構造的隨機變數, 因此這個變數取決於樣本的 n 個隨機變數. 因而在 Sigma(X_i-ar{X})^2 中由於 Sigma(X_i-ar{X})=0 , 其只包含 (n-1) 個可以獨立變動的隨機變數,因此自由度為 (n-1) .

那麼為什麼除以自由度來構建用估計總體特徵的統計量呢 ?

因為方差本質為對"變動"的均值, 從直覺上來講, 考慮 (n-1) 個獨立隨機變數"變動"的均值來估計"總體"變動"的均值"的方式是首選的. 可以經計算驗證這種估計方式的合理性(中間涉及一個中心極限定理): 該統計量符合以被估參數為均值的分布, 即 滿足無偏性 . 相反, 在樣本方差這個統計量中除以自由度以外的任何數字都是違反直覺且毫無依據的.

我猜題主真正想問的是形式 Sigma(X_i-mu)^2/n 與形式 Sigma(X_i-ar{X})^2/(n-1) 的區別.

前者是已知總體均值為估計總體方差所構建的抽樣統計量, 由自由度定義知其自由度為 n ; 另外這種形式與離散型總體方差的形式 Sigma(x_i-mu)^2/n 類似, 但要考慮語境, 不要混淆.

最後, 離散型總體方差和樣本方差定義目的是不一樣的, 只考慮形式上的類比雖然符合「直覺」而且在很多場合有用, 但在某些場合, 比如統計推斷中, 往往因為未了解數學元素的本質的而使問題解決方案的實現失效, 比如出現偏誤, 或者可以說無意義.


上面的答案還是沒有講清為何n-1是估計總體方差時的自由度。自由度是可以自由變動的變數值的數量。在用樣本方差估計總體方差時會需要用到樣本均值,而樣本均值就決定了變數值的總數。用買水果做比喻,假設沒有任何預算限制,買任何類型任何數量的水果都行,自由度是n。但如果限定一個總數,比如十元。那麼確定一種後,還可以自由確定的就是n-1。


哈哈哈,謎底就在謎面上!

正是因為在求總體方差時,要用到總體的均值,才導致了一個自由度的損失。

而計算總體的時候,你並不需要計算均值,因為你用,或者不用,均值就在那裡,不需要你算。


推薦閱讀:

為什麼分母從n變成n-1之後,就從【有偏估計】變成了【無偏估計】?
大數定律和中心極限定理在各個領域的運用有什麼 ?
最大似然估計和EM演算法的關係是什麼?
SAS, SPSS, AMOS, Stata之間的比較?

TAG:數學 | 統計學 | 計量經濟學 | 生物統計學 |