標籤:

檢驗:卡方、T檢驗,

檢驗:卡方、T檢驗,

5 人贊了文章

一、卡方檢驗:

1.無關性假設:假設變數x與y值是獨立的,算出結果的概率

例子如下:

假設:信用卡逾期2+與貸款逾期與否是無關的,隨機抽取一條記錄,屬於逾期的概率為60.9%。

2.理論值:根據不同結果出現的概率生成理論值

如果這2個變數時獨立無關的,那麼實際值將會與理論值的差異會較小,也就是隨機分布。

3.計算 x^{2} :計算實際值與理論值的差距

x^{2}=Sigma{frac{(A-T)^{2}}{T}} (A為實際值,T為理論值)=10.01

4.確定自由度:

自由度:V=(行數 - 1) * (列數 - 1)

5.卡方分布臨界值表:

根據自由度,找到> x^{2} 的值,找到對應的概率P,表示原假設成立的概率<p。

所以卡方檢驗的值越大越好,越大表示拒絕原假設的概率越大。

例子中,信用卡逾期與貸款逾期的 x^{2} >7.88,所以無關性的概率要<0.005,相關性的概率要>99.5%,拒絕原假設。

6.卡方檢驗的應用:

1.判斷特定客戶與理論客戶的差異是否很大,通過臨界概率判斷客戶的異常分布

2.判斷X與Y的相關程度, x^{2} 越大,代表相關程度越高,根據此,篩選出相關程度較大的,用於降維。

參考網址:

卡方檢驗原理及應用 - 碼農咖啡館 - SegmentFault


二、T檢驗:

(1)單個樣本的T檢驗:此種用樣本量較少的正態檢驗,一般n在30左右。

1.統計公式

t=frac{ar{x}-mu_{0}}{s/sqrt{n}}ar{x} :總體均數, mu_{0} :樣本均數,s:樣本標準差,n:總數)

自由度V=n-1

2.假設總體均數和樣本均數相近,或者無差別。設定檢驗水平 alpha =0.05(一般用0.05)

3.查t界值表,根據自由度,檢驗水平,確定對應的t1值,若t1>t值,則在 alpha 水平下,不拒絕原假設。否則拒絕原假設。

(2)配對樣本T檢驗

1.確定假設理論: mu_{1} = mu_{0} 即2個總體平均數沒有差異

2.計算T值:

方式一:總體中小樣本的平均值 與 總體平均值的差異:

t=frac{ar{x}-mu_{0}}{sqrt{frac{S}{n-1}}}

方式二:判斷2組樣本之間平均數的差異程度:

t=frac{ar{X_{1}}-ar{X_{2}}}{sqrt{frac{Sigma x_{1}^{2}+Sigma x_{2}^{2}}{n_{1}+n_{2}-2}*frac{n_{1}+n_{2}}{n_{1}*n_{2}}}}

3.自由度V=n-1

4.查表看P值

參考網址:

T檢驗 - MBA智庫百科


三、T檢驗與卡方檢驗的差別

通俗理解T檢驗與F檢驗的區別_一抹新綠_新浪博客

推薦閱讀:

python分析信用卡反欺詐(下)——兩種採樣方法解決數據不平衡及效果分析、模型調參示例
紐約時報廣告數據分析(二)
數據結構從0到1——初級篇
大屏不等於數據可視化分析
數據分析入門之概率思維助我一臂之力

TAG:數據分析 |