抽樣分布篇之四:戈塞特和t-分布
中心極限定理給大樣本數據的分析帶來了極大的方便,人們可以不必過於糾結總體的分布到底如何,只需針對均值或和用正態分布進行近似分析就能夠獲得較好的結果,在實際應用中節約了大量的計算工作量。
但在樣本量較小時,運用中心極限定理近似計算所帶來的誤差就比較明顯了。在20世紀初,以卡爾·皮爾遜、戈塞特、費歇爾(費雪)為代表的一批統計學家針對小樣本分析進行了研究,從而開創了現代數理統計學的發展,使得20世紀統計學取得了超越歷史任何時期的豐厚的成果,各行各業都獲益於此。
從本篇開始,分別介紹這三位卓越的統計學家的貢獻。他們成果的介紹可謂汗牛充棟,所以我也不試圖介紹這些分布是如何推導出來的,只是簡單介紹一下他們的研究過程。本來的想法是套用一下某些公眾號那種一驚一乍的寫作風格,無奈實在搞不來,所以寫得一點都不生動有趣,感興趣的您就硬著頭皮讀下去,不感興趣的請飄過。
本篇先介紹一下戈塞特以及t-分布。
戈塞特(William Sealey Gosset),英國統計學家,1899年畢業於溫切斯特學院和後來的牛津大學新學院,學習化學和數學。其後進入位於都柏林的吉尼斯父子釀造廠(對!就是那個現在到處搞世界紀錄認證的吉尼斯),擔任釀造化學技師,從事統計和實驗工作。
在吉尼斯,戈塞特處理了這樣一個問題:麥芽漿準備發酵的時候,需要仔細地測量所用酵母的量,酵母是活的有機體,酵母培育需要保持鮮活,加入麥芽漿前它在瓶中的液體里繁殖。工人們得測量清楚某個給定的瓶中有多少酵母,以便決定用多少液體,它們提取一定量的液體,在顯微鏡下檢驗,計量他們所看到的酵母細胞數。這種測量有多精確?了解這一點是很重要的,因為麥芽漿中所用的酵母數應該精確地控制。酵母太少,發酵不充分;太多了,啤酒又會發苦。
由於酵母是活的,而細胞不斷地分裂和繁殖,很難準確測量酵母的數量,在某種意義上,真正存在的是單位液體中酵母細胞的概率分布。戈塞特檢驗了數據,確定酵母細胞的數量可以用所知的泊松分布來描述,確定了樣本中的活酵母細胞數服從泊松分布,戈塞特就能夠設計規則和測量方法,從而得到對酵母細胞濃度更為精確的測量。用戈塞特的方法,吉尼斯能夠生產質量更穩定的啤酒。
1904年戈塞特將這一成果寫成他的第一篇報告《誤差法則在釀酒過程中的應用》,並發表在卡爾·皮爾遜主編的《生物統計》中。
1906年,戈塞特說服了他的老闆,到高爾頓生物統計室在卡爾·皮爾遜門下脫產學習一年。他著重關心的是由人為試驗下所得的少量數據的統計分析問題,在當時這是一個全新的課題,因為當時統計學中佔主導地位的卡爾·皮爾遜學派強調的是由自然觀察得來的大量數據的統計處理。根據戈塞特的經驗,科學家很少能奢華到有如此大的樣本,更為典型的實驗通常能夠看到10到20個觀測數據,他還理解到,這種現象在所有的學科中都很普遍。
戈塞特在釀酒公司工作中發現,供釀酒的每批麥子質量相差很大,而同一批麥子中能抽樣供試驗的麥子又很少,每批樣本在不同的溫度下做實驗,其結果相差很大。這樣一來,實際上取得的麥子樣本,不可能是大樣本,只能是小樣本。可是,從小樣本來分析數據是否可靠?誤差有多大?小樣本理論就在這樣的背景下應運而生。1907年戈塞特決心把小樣本和大樣本之間的差別搞清楚。為此,他試圖把一個總體中的所有小樣本的平均數的分布刻畫出來,具體做法是,在一個大容器里放了一批紙牌,把它們弄亂,隨機地抽若干張,對這一樣本做實驗記錄觀察值,然後再把紙牌弄亂,抽出幾張,對相應的樣本再做實驗觀察,記錄觀察值。大量地記錄這種隨機抽樣的小樣本觀察值,就可藉以獲得小樣本觀察值的分布函數。若觀察值是平均數,戈塞特把它叫做t-分布函數。
1908年,戈塞特將其研究成果撰寫成論文《均值的或然誤差》,卡爾·皮爾遜急於將之付印於他的期刊《生物統計》上。但因為幾年前,吉尼斯一位優秀的釀造師寫了一篇文章,其中泄露了他們某個釀造過程的秘密成份。為了避免進一步損失,吉尼斯禁止它的僱員發表文章。在這種情況下,他們決定用匿名的方式發表文章。於是,戈塞特用「學生(Student)」為筆名發表了論文,這個筆名一直用到他1937年去世,在此期間吉尼斯一直不知道這個「學生」就是戈塞特。
這篇論文開創了小樣本統計理論的先河,為研究樣本分布理論奠定了重要基礎。被統計學家譽為統計推斷理論發展史上的里程碑。戈塞特這項成果,不僅不再依靠近似計算,而且能用所謂小樣本來進行推斷,並且還成為使統計學的對象由集團現象轉變為隨機現象的轉機。換句話說,總體應理解為含有未知參數的概率分布(總體分布)所定義的概率空間;要根據樣本來推斷總體,還必須強調樣本要從總體中隨機地抽取,也就是說,一定要是隨機樣本。
下面就讓我們看看t-分布是什麼樣子的。其概率密度函數為:
其中ν為自由度(以後再解釋),Γ為伽馬函數。
當n為正整數時,則有
這個函數比較複雜,也沒有必要記住它。t-分布曲線如下圖
t-分布與標準正態分布相比,有以下異同點。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀:
※六西格瑪的思維和方法是否適用於互聯網產品的產品質量或者服務質量?
※在讀博士期間考出six sigma有必要嗎?我主攻塑料工程
※為什麼六西格瑪概念的提出會引發技術的革新?
※6西格瑪證書怎麼獲得?
※在實際生產中怎麼通過MTM優化工時?