抽樣分布篇之六:費歇爾和F-分布

本篇介紹數理統計學的三大奠基人之一的費歇爾(Ronald Aylmer Fisher),這是現代統計學最重要的奠基人,可以說是「一位幾乎獨自建立現代統計科學的天才」(安德斯·哈爾德語)。

費歇爾(1890~1962),也有人翻譯成費希爾、費舍爾,最熟悉的可能是費雪,是英國統計與遺傳學家,現代統計科學的奠基人之一,並對達爾文進化論做出了基礎澄清的工作。

1909年進入劍橋大學康維爾克斯學院攻讀數學和物理,在此期間他研讀了卡爾·皮爾遜的《數學用於進化論》,這將他引向生物學和統計學。

費歇爾無疑是20世紀成就最大的統計學家。在20世紀前30年,統計學由以卡爾·皮爾遜為代表的舊統計學,朝向以他為代表的新統計學轉變。

20世紀新統計學與19世紀舊統計學的區別在於,重視小樣本是其一個標誌,另一個重要標誌應對是基礎理論建設,即從學科全局觀點建立完整的數學框架,而不是停留在解決一個一個地具體問題的層面上,這兩方面費歇爾都起到了領頭作用。

費歇爾與卡爾·皮爾遜之間的矛盾到現在還為人津津樂道。1915年費歇爾將其對相關係數分布的研究寫成論文發表於《生物統計》上,從而引起了卡爾·皮爾遜的興趣,他想聘請費歇爾到高爾頓生物統計實驗室擔任首席統計師,但對費歇爾來說,卡爾·皮爾遜顯然是一個主觀意志很強並有支配欲的人,所謂首席統計師,充其量不過是在卡爾·皮爾遜的指令下,從事細節的計算工作。費歇爾拒絕了這一「閹割性」的條件,而接受了約翰·拉塞爾爵士的邀請去羅森斯泰德(也有翻譯成洛桑的)農業實驗站做統計工作。正是得益於在這裡的14年研究工作,費歇爾開創了統計學的新時代。應該說,兩人的矛盾更主要在於理念或哲學觀點的差異。卡爾·皮爾遜把統計分布視為對他所分析數據的集合的真實描述。而按照費歇爾的觀點,真實分布只是一個抽象的數學公式,搜集的數據只能用來估計這個真實分布的參數。這種差異導致兩人在研究統計分布的方法上分道揚鑣。

時間到了1933年,當年的高爾頓生物統計實驗室在卡爾·皮爾遜的領導下已經成長為倫敦大學學院里一個正式的生物統計學系。他退休後,該系一分為二,費歇爾接替卡爾·皮爾遜擔任其中之一的優生學系的高爾頓優生學教授和高爾頓實驗室主任,還兼任了《生物統計》雜誌的編輯。另一個則是規模縮小了的生物統計學系,系主任由卡爾·皮爾遜的兒子愛根·皮爾遜擔任。費歇爾與小皮爾遜的私交也不大好,可見他是一個記仇的人,這完全是他的過錯。小皮爾遜這位溫文爾雅的先生,一則是代父受過,因為費歇爾不喜歡他的父親老皮爾遜;二則是代合作夥伴耶日·奈曼受過,費歇爾特別討厭奈曼,對奈曼和小皮爾遜提出的假設檢驗方法大加鞭撻。儘管如此,小皮爾遜倒是極其尊重並高度評價費歇爾的工作。

1943年,費歇爾回到劍橋擔任優生學系教授和主任一直到1957年退休並繼續呆了2年,其後他作為聯邦科學與工業研發組織(CSIRO)的研究員在澳大利亞的阿德萊德度過了生命的最後三年,於1962年7月29日逝世於阿德萊德。

1929年,費歇爾成為英國皇家家學會會員。1952年被授予爵士稱號。

費歇爾的成果很多,而且大多是開創性的。

1912年及其後的10餘年,提出並不斷優化估計參數的極大似然法。

1915年和1921年,推導出相關係數的準確分布。其後十餘年更多的學者運用其成果解決了相關回歸中重要統計量的精確分布,包括多元回歸係數,偏、復相關係數等。

1918年利用n維幾何方法,給出了t-分布的嚴密的推導和證明。

1922年發布的《回歸公式的擬合優度即回歸係數的分布》和1924年發布的《關於一個引出若干周知統計量的誤差函數的分布》,正式提出方差分析方法和F-分布。至此三大抽樣分布正式完成,稱為現代數理統計學基石。

1925年出版了專著《研究工作者用的統計方法》,其中包括擬合優度檢驗、均值和回歸係數的顯著性檢驗、方差分析及其應用等內容。這本書的影響力超過半世紀,遍及全世界。

n1935年出版了專著《試驗設計》,這本書是對他和合作者自1919年羅森斯泰德農業實驗站的工作以來所運用的試驗方法的總結。書中關注如何從人為試驗中得到的少量數據中檢驗所關心的某項效應是否存在,費歇爾把這種檢驗稱為顯著性檢驗。書中提出了試驗設計應遵循的三個原則:隨機化、區組化和重複(仿行),並指出如何運用技巧合理安排試驗,以降低誤差的影響而提高試驗的靈敏度。這些方法現在也在廣泛應用。

現在讓我們認識一下F-分布。其概率密度函數為

其中,nu _{1} ,nu _{2} 分別為分子和分母的自由度。nu _{1} =n_{1} -1, nu _{2} =n_{2} -1 。這是一個大於0的有偏的分布,在形狀上因分子和分母的自由度的變化而變化,當兩個自由度都趨於無窮大時,F-分布趨於正態分布。

F-分布的應用很多,我們在比較分析、方差分析、回歸分析、DOE等工具中都能看到它的身影。下面舉一個方差比較的例子。

例:在進行兩個正態總體的均值比較時,需要先確認方差是否相等,以此確定後面的估計採用什麼方法。設收集到的兩個樣本的結果分別為

問這兩個總體的方差相等嗎?

解:對於正態總體來說,方差比較可以用F-分布來檢驗。首先構建F統計量為:

通常把大的方差放到上面。這個統計量服從F-分布,如果兩個方差相等,則這個比值在1附近,這個值越大,他們越可能不相等。具體是否相等,需要有個判斷的臨界值。

在設定顯著性水平為0.05的條件下,分子的自由度為19,分母的自由度為24,查F-分布表,F的臨界值為2.04。

由於F=4>2.04,所以我們認為兩總體方差存在顯著差異。

這個例子用到了假設檢驗,後面會介紹。

請關注我的微信公眾號:張老師漫談六西格瑪


推薦閱讀:

列聯表篇之八:屬性不同雙向有序表的線性趨勢檢
抽樣分布篇之十一:抽樣分布的終極分布是什麼,你知道嗎?
質量人都膜拜的「6σ」管理,到底有多厲害?
數據收集篇之七:測不準的幾種情形

TAG:六西格玛 | 精益六西格玛 | 质量管理 |