如何理解擬合優度檢驗 ?

在數據分析中,對於定類變數和低測度的定序變數,通常不能使用均值、T檢驗和方差分析等方法來處理。對於不符合正態分布的定類數據或低測度定序數據,其檢驗方法是利用交叉表技術分行分列計算交叉點的頻數,利用卡方距離實施卡方檢驗,基於頻數和數據分布形態分析不同類別的數據是否存在顯著性差異,對於定類數據的對比檢驗,也叫獨立性檢驗。

低測度數據

對於定類變數,其數值大小和順序並不代表什麼意義,對於定類變數和低測度的定序變數,均值和方差都不能描述變數特徵,故不能通過分析其平均值、方差等參數開展數據分析。在做統計分析時,對於這類變數通常需要藉助中位數、頻數、百分比以及不同分布情況,實現數據描述。對於低測度數據,比較典型的研究是關於結構成分的研究,實際上是一種藉助頻數來分析數據分布形態,並進而發現數據分布差異性的檢驗。

擬合及擬合優度

由於低測度數據的特點,直接進行基於均值的檢驗顯然是不行的,於是人們藉助數學模型,提出了擬合的概念。所謂擬合,就是分析現有觀測變數的分布形態,檢查其分布能夠與某一期望分布(或標準分布)很好地吻合起來。在數學上,擬合的過程就是尋找能很好地溫和當前數據序列的數學模型的過程。為了評價擬合的程度,人們提出了判定擬合有效性的機制,這就是擬合優度。擬合優度也藉助檢驗概率的概念來評價數據擬合的質量。

目前,對於低測度數據序列的處理最常見的分析方法是卡方檢驗。特別是基於交叉表的卡方檢驗在數據分析中具有重要的地位,它們都建立在擬合概念的基礎上。另外,二項分布、遊程檢驗等單樣本檢驗也可以看做是數據擬合的重要應用。與此同時,對定距或定序變數的分布形態判定,也是數據擬合的應用之一,在分布形態判定過程中所獲得的檢驗概率就是該序列與標準分布形態的擬合優度。

卡方檢驗

卡方檢驗的目標就是檢查觀測值的頻數與期望頻數之間的差異顯著性。由於卡方檢驗要求便於對個案進行分類並計算頻數,因此卡方檢驗通常基於定類數據或低測度定序數據,並基於它們分類計算個案的實際頻數,然後通過實際頻數與期望頻數的距離,來判定實際頻數是否與預期目標存在差異。

卡方距離

由於卡方檢驗的目標是檢查觀測頻數與期望頻數之間的差異性水平,因此卡方檢驗的核心內容就是計算出觀測值的頻數與期望頻數總體差距的統計量,就是卡方距離。這個距離可以通過「觀測值頻數與期望頻數差值的平方與期望頻率之比的累積和」來體現:

卡方值越大,表示距離越大,差異性越強。可以根據卡方值查表推導出卡方檢驗的概率值,然後根據概率值判定卡方檢驗的判斷結論。

卡方檢驗的兩種應用

卡方檢驗有兩種基本應用。其一,檢驗期望分布與實際觀測值的差異性。其二,基於交叉表檢驗兩個低測度變數在各自不同的因素水平上的卡方距離,從而實現兩個低測度變數的關聯性(獨立性)檢驗。

面向期望分布的卡方檢驗

對於低測度變數,如果從總體中抽取若干樣本,構成k個互不相交的子集。這k個子集的觀測頻數應該服從一個多項分布。當k趨向於無窮時,這個分布應該接近於總體的分布規律。

因此,對於變數X的總體分布,可以從觀察樣本在各個頻段的頻數入手。通過觀察樣本在各個頻段的頻數分布,可以掌握樣本的分布形態。另外,對比它們與預期值的差距,可以掌握變數X是否與預期分布存在顯著性差異。

對於檢驗觀測值與期望值在頻數上擬合程度的檢驗,也常常被稱為卡方擬合優度檢驗。例如,現在已經統計出了2013年的招生情況,掌握了2013年學校在各個省份的招生人數。在2015年的招生工作剛剛完成,拿到了全體新生的基本信息後,現在需要分析2015年招生情況是否與2013年的各省招生情況有顯著性差異。為此,需要由計算機自動計算出2015年分省招生個案數,並藉助卡方公式計算出2015年的分省學生數與2013年分省學生數的卡方值,從而判定二者是否存在顯著性差異。

基於K-S檢驗的分布形態判斷就是這樣一種用法。在SPSS中,通常使用K-S演算法進行單樣本的分布形態判斷,可以對序列進行正態分布(即常規分布)、均勻分布(即相等分布)、泊松分布、指數分布等分布形態的判定。

基於交叉表的卡方檢驗

對交叉表中的行變數和列變數之間的關係進行分析是交叉分組下頻數分析的重要任務,對低測度的定序變數(或定類變數)交叉分組並計算頻數後,可以分析行變數與列變數之間是否存在關係,或者說基於某個變數的不同水平,在另一個變數的不同水平上其頻數是否有顯著性的差異。基於這一思路,可以獲取兩個變數之間是否存在一定關聯性,關聯的緊密程度等更深層次的信息。例如,某公司統計旗下零食產品在超市不同位置的銷售量,構造交叉表:

從上表來看,沿著「左上-右下」的對角線方向,數據的量比較大,表示產品的不同種類銷量與展示位置之間還是有一定關聯性的。

大多數交叉表中的數據不會像上表一樣,能那麼容易看出其中內在關係,必須藉助數據分析的專業手段對交叉表中的頻數進行計算,獲取其卡方值和檢驗概率,然後以檢驗概率值為標準,做出檢驗結論。對交叉表的統計分析,卡方檢驗的統計量採用了Pearson卡方統計量標準,其數學定義式為:

在對交叉表的卡方檢驗中,當獲得了交叉表之後,可以根據卡方計算公式計算出整個交叉表的卡方值,然後依據卡方值查相應的統計表,得到此卡方值的檢驗概率值,進而判斷兩變數是否相互獨立,沒有任何關聯。

遊程檢驗與隨機分布

遊程是指在變數序列當中,連續出現相同的值的次數。對於序列「111222223331123333」可以認為有6個遊程,依次為「111」、「22222」、「333」、「11」、「2」和「3333」。

遊程檢驗的思路與用途

遊程檢驗是指依據某種規則對數據序列中的個案分組,並記錄每個個案的組好;然後,對數據序列按照升序排序,把得到的組號排列起來就構成一個遊程序列。對於一個數據序列,如果遊程個數達到一定的規模,就認為序列的分布是隨機分布。遊程檢驗的目標是檢驗兩種樣本的分布是否具有隨機性,遊程的價值就是判別分布規律的隨機程度。

單樣本變數值的隨機測驗中,利用遊程數構造檢驗統計量,分析這個統計量的分布情況,從而能夠反映樣本所代表的總體的分布是否滿足隨機性。單樣本變數值的隨機性檢驗中,SPSS將利用遊程構造Z統計量,並依據正態分布表給出對於的相伴概率值。如果相伴概率值大於顯著性水平,則不能拒絕零假設,認為變數值的出現是隨機的。

二項分布檢驗

在現實生活中,很多變數的取值只有兩種狀態,被稱之為二分變數或二項變數。比如,人類性別的取值是男或女,職位應聘結果為成功或失敗,投擲硬幣的實驗結果可以是正面或者反面。凡是只有兩種取值狀態的變數,都被稱為二值變數。對這種變數來說,如果隨機變數X的取值為1的概率為p,那麼X取值為0的概率為1-p。如果讓上述變數出現n次並把其取值記錄下來,就構成一個數據序列,這個序列所服從的分布被稱為二項分布。

二項分布檢驗正是通過檢查樣本數據的形態來驗證總體數據是否符合二項分布,其零假設是樣本來自的總體與預設的二項分布沒有顯著差異。二項分布檢驗,對於小樣本數據應該採用精確檢驗方法,而對大樣本數據則主要採用近似檢驗方法。

二項分布檢驗的應用

二項分布檢驗主要用於判斷某種觀點是否正確,通常用在基於樣品的產品總體合格率檢驗、或對基於部分學生成績估算出全體學生及格百分比實施判斷。比如,在高考中,總體樣本3百萬名,在評閱了10000名考生的試卷後,可以做出初步預測:600分以上的學生佔10%,那麼就可以藉助二項分布,檢驗600分以下的學生佔90%的可能性有多大。若這種可能性很大,就可以認為600分以上的學生佔10%,否則,則不可以做出此結論。

以產品合格率檢驗為例,如果需要通過抽樣判斷產品合格率是否達到90%,其基本思路是:可先假設產品的合格率在90%左右,然後以產品合格作為分割點,把所有樣品分為兩種狀態,判斷產品合格率在90%左右的可能性有多大。實施二項分布檢驗後,若檢驗合格率>0.05,則接受零假設,認為產品的總體合格率應在90%左右。

推薦閱讀:

TAG:大數據分析 | 統計學 |