在數據分析中,對於定類變數和低測度的定序變數,通常不能使用均值、T檢驗和方差分析等方法來處理。對於不符合正態分布的定類數據或低測度定序數據,其檢驗方法是利用交叉表技術分行分列計算交叉點的頻數,利用卡方距離實施卡方檢驗,基於頻數和數據分布形態分析不同類別的數據是否存在顯著性差異,對於定類數據的對比檢驗,也叫獨立性檢驗。
低測度數據
對於定類變數,其數值大小和順序並不代表什麼意義,對於定類變數和低測度的定序變數,均值和方差都不能描述變數特徵,故不能通過分析其平均值、方差等參數開展數據分析。在做統計分析時,對於這類變數通常需要藉助中位數、頻數、百分比以及不同分布情況,實現數據描述。對於低測度數據,比較典型的研究是關於結構成分的研究,實際上是一種藉助頻數來分析數據分布形態,並進而發現數據分布差異性的檢驗。擬合及擬合優度由於低測度數據的特點,直接進行基於均值的檢驗顯然是不行的,於是人們藉助數學模型,提出了擬合的概念。所謂擬合,就是分析現有觀測變數的分布形態,檢查其分布能夠與某一期望分布(或標準分布)很好地吻合起來。在數學上,擬合的過程就是尋找能很好地溫和當前數據序列的數學模型的過程。為了評價擬合的程度,人們提出了判定擬合有效性的機制,這就是擬合優度。擬合優度也藉助檢驗概率的概念來評價數據擬合的質量。
目前,對於低測度數據序列的處理最常見的分析方法是卡方檢驗。特別是基於交叉表的卡方檢驗在數據分析中具有重要的地位,它們都建立在擬合概念的基礎上。另外,二項分布、遊程檢驗等單樣本檢驗也可以看做是數據擬合的重要應用。與此同時,對定距或定序變數的分布形態判定,也是數據擬合的應用之一,在分布形態判定過程中所獲得的檢驗概率就是該序列與標準分布形態的擬合優度。卡方檢驗卡方檢驗的目標就是檢查觀測值的頻數與期望頻數之間的差異顯著性。由於卡方檢驗要求便於對個案進行分類並計算頻數,因此卡方檢驗通常基於定類數據或低測度定序數據,並基於它們分類計算個案的實際頻數,然後通過實際頻數與期望頻數的距離,來判定實際頻數是否與預期目標存在差異。卡方距離由於卡方檢驗的目標是檢查觀測頻數與期望頻數之間的差異性水平,因此卡方檢驗的核心內容就是計算出觀測值的頻數與期望頻數總體差距的統計量,就是卡方距離。這個距離可以通過「觀測值頻數與期望頻數差值的平方與期望頻率之比的累積和」來體現:
TAG:大數據分析 | 統計學 |