抽樣分布篇之八:什麼是自由度

不知道是誰說的,「自由不是你想做什麼就做什麼,而是你不想做什麼就可以不做什麼」。自由是有度的,不存在沒有約束的自由。當然今天談的自由度與此無關,但其道理確實想通的。

前面幾篇文章提到了自由度(degree of freedom),這是在引入抽樣分布後出現的概念。這個概念又是費歇爾定義的。在與戈塞特的通信中,他就討論過樣本方差應該除n-1而不是n(戈塞特是用n),理由是定了bar{x} 後,在多維空間中的點就受到了sum_{i=1}^{n}{left( x_{i} -bar{x} right)}=0 的限制而只能在n-1維超平面上活動,因此只有n-1個自由度。(引自陳希孺《數理統計學簡史》)

維基百科將自由度描述為當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的數據的個數稱為該統計量的自由度。

在馬逢時老師的書中,對自由度做了通俗解釋,「如果10個數,而且你知道了均值和其中9個數的值,那麼你就可以推算出第10個數,又比如,讓10個人挑選總共10個不同顏色的玻璃球,只有9個人有自由挑選的可能,因為當這9個人都挑好之後,你就別無選擇了!因此這個問題的自由度為9。所以,自由度通常可以簡單地理解為在研究問題中,可以自由獨立取值的數據或變數。」

還記得我們中學學的多元一次方程組嗎?如果有k個比如3個未知量(x,y,z),需要建立3個方程式,稱為三元一次方程組,少了則無解,多了則解不唯一。假設我們就建立了3個方程式,常見的解法是逐步消元。求出一個未知量,就是消了一個元,三元一次方程組就變成了二元一次方程組,後面兩個元就用這消元後的方程組來求了,相當於自由度減了個1。

我們可以用多元回歸分析來理解一下自由度,設我們有k個變數,回歸分析需要估計k+1個係數(包括截距),為此收集n組數據。為求出這k+1個係數,需要建立至少k+1個方程組,所以n必須要大於k+1,否則這個方程組無解。但也不能只有k+1組數據,這樣就不能估計殘差了,沒有殘差就無法運用方差分析來對模型的有效性進行判斷,因此需要nk+2。當然估計殘差只有1~2個自由度顯然還不夠,太少的自由度估計殘差的精度要差一些,建議殘差估計至少有5以上的自由度。延伸一下,在DOE中,兩變數兩水平全因子試驗需要4次試驗,因為要估計1個截距(常數)、2個主效應和1個交互效應,因此就無法估計殘差了,因此在分析模型中就需要去掉交互效應。如果要估計交互效應,就需要增加試驗次數,如重複1次,即8次試驗,或者增加2~3次中心點試驗。

在統計學中需要的方程式多於元的數量,這樣可以用多餘的自由度來估計隨機誤差。求出最後一個未知量後,剩下的自由度就用來估計殘差了,因此殘差的自由度就是n-k-1。而係數的自由度就是k+1-1=k,總的自由度為n-1。

對於一元回歸,因為要估計截距和因子係數,因此因子的自由度為2-1=1。如果增加一個平方項,則需要估計3個未知量,這時自由度就變成2個了。如果再加上立方項,那自由度就是3。如果總的樣本量為10,那殘差的自由度就是10-4=6,總的自由度為6+3=9。

以此概念來看均值和方差,也相當於列n個方程求均值和方差兩個未知量,先求出均值後,自由度減1,因此方差的自由度就變成n-1。

在上一篇介紹chi ^{2} -分布,當總體均值已知,就不需要再估計均值了,因此自由度就是n,總體均值未知時,需要先估計均值,因此自由度就要少1個。

在單因子方差分析中,設有k組數據,每組數據m個(為了說明方便,假設組內樣本量相同),總樣本量km。因為方差分析要計算離差平方和,在此之前需要先計算均值,因此每組的自由度就是m-1,k組的自由度就是k(m-1)個,同樣組間計算離差平方和的自由度則為k-1,這樣總的自由度就是k(m-1)+k-1=km-1。而總離差平方和也是先估計總均值,因此總離差平方和的自由度就是km-1,公式兩邊自由度相等。

當然自由度在更複雜的分析方法中還有更複雜的計算,有的甚至會計算出小數,限於作者水平,不試圖作一介紹。

自由度的計算對於正確運用抽樣分布非常重要,看過前面幾篇文章的人可能已經注意到了,抽樣分布的形狀與自由度高度相關。自由度不同,分布形狀會有很大不同,如果不能正確計算自由度,就有可能得出錯誤的結論。在手工計算時期,自由度的計算是一個基本功。雖然現在統計軟體幫助我們解決了計算問題,但弄清楚自由度的含義對正確理解分析結果還是很有意義的。

請關注我的微信公眾號:張老師漫談六西格瑪

推薦閱讀:

想學習魚骨圖分析法,有什麼好書or視頻?
我是做生產現場質量管理的,有沒有哪位大俠做過比較好的質量策劃、控制或者改進的例子,共享下。?
乾貨|一篇文章讀懂APQP(先期產品質量策劃)
列聯表篇之四:單向有序列聯表的秩和檢驗
足球場上的後衛、中場、前鋒,誰最適合做質量人?

TAG:六西格玛 | 精益六西格玛 | 质量管理 |