抽樣分布篇之一:隨機變數分布vs抽樣分布

大家知道,統計學分為描述性統計和推斷統計兩大部分。描述性統計可以繼續細分為圖表法和數值法。而推斷統計則包含概率論、抽樣理論、估計理論、假設檢驗這四大組成部分。這四大組成部分是層層遞進的,是各種統計分析方法的基礎,在此基礎之上各種各樣的統計方法層出不窮,因此充分掌握這些基礎知識,可以使我們更好、更靈活地運用統計分析方法。本單元就包含抽樣理論和估計理論兩部分,當然我這裡不是講課,不會照搬教科書上的東西,只是就這些知識中比較常見的問題談談自己的理解。網上關於統計的大部分問題都涉及到統計推斷中基本概念的理解,也有很多非常精彩的解答,但有些解答過於深奧,公式推導一套一套的,不利於理解,我在本單元以及下一單元里試圖用比較通俗的語言來解釋,希望能說得清楚。

關於抽樣,前面已經大致介紹過了(雖然只說了對於抽樣的要求,沒有談具體的抽樣方法),現在要講講抽樣的樣本怎麼用了。

我們知道,大多數情況下,總體是無限的,我們不可能收集到總體的所有元素來進行測量。即使是有限總體,很多情況下收集全部元素也是不必要的,比如做菜時我們只能取出一點點來嘗嘗鹹淡或成熟度,沒有必要把菜全吃了來了解菜的整體狀態。有時候由於成本限制,我們也只能收集少量的元素來進行測量。

當然抽樣並不是僅僅讓我們認識抽出來的這些樣品,而是讓我們通過樣本去推測整體的狀況。這就是推斷統計要解決的問題,推斷統計要解決的問題是判斷我們抽樣的結果能不能或者在多大程度上說明總體的狀況。

一般來說總體的均值、標準差和比例是常量,用μσπ表示,稱為參數,這大家都知道。樣本計算出來的均值、標準差和比例(用bar{x} Sp表示,稱為統計量)仍然是隨機變數,因為每次抽樣的結果可能都會有所不同,因此樣本的均值、標準差和比例也有分布,這就是抽樣分布。我們就是用抽樣分布來判斷樣本的統計量在多大程度上逼近總體的參數。

統計分布與前面講的隨機變數的分布(這裡為樣本分布)有很大的區別。

隨機變數的分布多種多樣,已知的就有幾十種,還不排除以後還會有新的分布發現。但抽樣分布只有四種,正態分布、t-分布、chi^{2} -分布、F-分布。看到這裡你可能恍然大悟:哦,原來都學過的,現在想起來了。

講到這後三個統計分布,不得不說一說二十世紀初的統計三劍客,就是他們的貢獻,奠定了現代統計學的基礎。

第一位劍客就是卡爾·皮爾遜(Karl Pearson),手中的寶劍就是chi^{2} 分布。在分布曲線和數據的擬合優度檢驗中,chi^{2} 分布可是一個利器,而皮爾遜的這個工作被認為是假設檢驗的開山之作。 皮爾遜繼承了高爾頓的衣缽,統計功力深厚,在19世紀末20世紀初很長的一段時間裡,一直被數理統計武林人士尊為德高望重的第一大劍客。

第二位劍客是戈塞特(Gosset),筆名是大家都熟悉的學生氏(Student),而他手中的寶劍是t分布。戈塞特是化學、數學雙學位,依靠自己的化學知識進釀酒廠工作,工作期間考慮釀酒配方實驗中的統計學問題,追隨卡爾·皮爾遜學習了一年的統計學, 最終依靠自己的數學知識打造出了t-分布這把利劍而青史留名。 1908年,戈塞特提出了正態樣本中樣本均值和標準差的比值的分布, 並給出了應用上及其重要的第一個分布表。戈塞特在t-分布的工作是開創了小樣本統計學的先河。

第三位劍客是費歇爾(R. A. Fisher),手持F分布這把寶劍,在一片荒蕪中開拓出方差分析的肥沃土地。F分布就是為了紀念費歇爾而用他的名字首字母命名的。 費歇爾劍法飄逸,在三位劍客中當屬費歇爾的天賦最高,各種兵器的使用都得心應手。 費歇爾統計造詣極高,受高斯的啟發,系統地創立了極大似然估計劍法,這套劍法現在被尊為統計學參數估計中的第一劍法。

費歇爾還未出道,皮爾遜已經是統計學的武林盟主了,兩人歲數相差了33歲,而戈塞特介於他們中間。 三人在統計學擂台上難免切磋劍術。費歇爾天賦極高,年少氣盛;而皮爾遜為人強勢,占著自己武林盟主的地位,難免固執己見,以大欺小;費歇爾著實受了皮爾遜不少氣。而戈塞特性格溫和,經常在兩人之間調和。畢竟是長江後浪推前浪,一代新人換舊人,在眾多擂台比試中,費歇爾都技高一籌,而最終取代了皮爾遜成為數理統計學第一大劍客。

以上幾段內容引自靳志輝先生的《正態分布的前世今生》。

在卡爾·皮爾遜之前,數據大多來自大樣本的現實數據,運用正態分布來分析數據能夠取得較準確的結果。但二十世紀開始,科學和工業中的實驗數據運用正態分布的假設來分析就出現了較大的偏差,主要是由於實驗不可能獲得大數據,這三劍客最大的貢獻就是為小樣本分析打下了基礎。

請關注我的微信公眾號:張老師漫談六西格瑪

推薦閱讀:

可靠度|談談環境應力篩選
列聯表篇之三:比率的多重比較
淺談內審員的素質和審核技巧
你永遠學不會的精益六西格瑪!
手機塑膠外殼常見可靠性測試

TAG:六西格玛 | 精益六西格玛 | 质量管理 |