檢驗:卡方、T檢驗,
5 人贊了文章
一、卡方檢驗:
1.無關性假設:假設變數x與y值是獨立的,算出結果的概率
例子如下:
假設:信用卡逾期2+與貸款逾期與否是無關的,隨機抽取一條記錄,屬於逾期的概率為60.9%。
2.理論值:根據不同結果出現的概率生成理論值
如果這2個變數時獨立無關的,那麼實際值將會與理論值的差異會較小,也就是隨機分布。
3.計算 :計算實際值與理論值的差距
(A為實際值,T為理論值)=10.01
4.確定自由度:
自由度:V=(行數 - 1) * (列數 - 1)
5.卡方分布臨界值表:
根據自由度,找到> 的值,找到對應的概率P,表示原假設成立的概率<p。
所以卡方檢驗的值越大越好,越大表示拒絕原假設的概率越大。
例子中,信用卡逾期與貸款逾期的 >7.88,所以無關性的概率要<0.005,相關性的概率要>99.5%,拒絕原假設。
6.卡方檢驗的應用:
1.判斷特定客戶與理論客戶的差異是否很大,通過臨界概率判斷客戶的異常分布
2.判斷X與Y的相關程度, 越大,代表相關程度越高,根據此,篩選出相關程度較大的,用於降維。
參考網址:
卡方檢驗原理及應用 - 碼農咖啡館 - SegmentFault
二、T檢驗:
(1)單個樣本的T檢驗:此種用樣本量較少的正態檢驗,一般n在30左右。
1.統計公式
( :總體均數, :樣本均數,s:樣本標準差,n:總數)
自由度V=n-1
2.假設總體均數和樣本均數相近,或者無差別。設定檢驗水平 =0.05(一般用0.05)
3.查t界值表,根據自由度,檢驗水平,確定對應的t1值,若t1>t值,則在 水平下,不拒絕原假設。否則拒絕原假設。
(2)配對樣本T檢驗:
1.確定假設理論: = 即2個總體平均數沒有差異
2.計算T值:
方式一:總體中小樣本的平均值 與 總體平均值的差異:
方式二:判斷2組樣本之間平均數的差異程度:
3.自由度V=n-1
4.查表看P值參考網址:
T檢驗 - MBA智庫百科
三、T檢驗與卡方檢驗的差別
通俗理解T檢驗與F檢驗的區別_一抹新綠_新浪博客
推薦閱讀:
※python分析信用卡反欺詐(下)——兩種採樣方法解決數據不平衡及效果分析、模型調參示例
※紐約時報廣告數據分析(二)
※數據結構從0到1——初級篇
※大屏不等於數據可視化分析
※數據分析入門之概率思維助我一臂之力
TAG:數據分析 |