為什麼卡方檢驗能判斷兩個分布是否一致？

01-21

如果我沒記錯的話，卡方檢驗是observed value和expected value之間的比較。

然後看這兩者之間的差異是隨機性導致的，還是假設導致的。

然後這個思想被用來做這些一致性或獨立性檢驗。問題的提法、計算的方式可能有點不同，

反正就是符合程度的判斷嘛。

百科裡這麼說：

卡方檢驗是用途很廣的一種假設檢驗方法，它在分類資料統計推斷中的應用，包括：兩個率或兩個構成比比較的卡方檢驗；多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

更多看這裡 http://www.cnblogs.com/downmoon/archive/2012/03/06/2382042.html

假設兩個分布完全一致，那麼其卡方值 $sum_{a}^{b}$ (observed value—expected value） $^2$ /expected value=0，DF=(r-1)(c-1)。

如果兩個分布不完全一致，則和observed value和expected value的差越大，卡方也越大，當卡方值大到超過統計顯著性所規定的臨界值時，則證明這個兩個分布在統計上具有顯著性。

因此卡方檢驗經常用來檢驗某一種觀測分布是不是符合某一類典型的理論分布（如二項分布，正態分布等)。

一般這種情況用K-S檢驗吧

1. 定義：

它是檢驗單一樣本是不是服從某一預先假設的特定分布的方法。

2. 檢驗方法：

它的檢驗方法是以樣本數據的累計頻數分布與特定理論分布比較，若兩者間的差距很小，則推論該樣本取自某特定分布族。

假設檢驗問題：

H0:樣本所來自的總體分布服從某特定分布
H1:樣本所來自的總體分布不服從某特定分布

令F0(x)表示預先假設的理論分布，Fn(x)表示隨機樣本的累計概率(頻率)函數，設 D=max|F0(x) - Fn(x)|

結論：當D &> D(n, a), 則拒絕H0, 反之則接受H0假設。其中D(n,a) 是顯著水平為a且樣本容量為n時的拒絕臨界值（查表可得）

兩個分布是否一致更多是用K-S來吧…卡方分布是檢驗某一樣本是否服從某已經分布的，因為檢驗時候的統計量服從卡方分布，所以就開成這種說法了…

我的理解是，卡方檢驗是通過對兩個分布是否一致的判斷來進行獨立性檢驗，也就是看列聯表的行和列是否獨立！！

請問，你後來用了哪個方法，如果是比較離散分布是不是有差異，該用什麼方法