圖解SMOTE方法
04-24
在二元分類問題中,經常遇到不均衡分類情形,比如信用卡欺詐判斷、點擊預測。為了提高預測精度,我們常常需要使用一些手段使得正負樣本數量均衡。
除了最簡單的欠採樣(down sampling)和過採樣(over sampling)之外,最常用的就是SMOTE方法。
SMOTE方法乍一聽複雜,可其實很好理解。
1.先選定一個陽性樣本(假設陽性為少數類)
2.找出這個陽性樣本的k近鄰(假設k=5)。5個近鄰已經被圈出。
3.隨機從這k個近鄰中選出一個樣本(用綠色圈出來了)。
4.在陽性樣本和被選出的這個近鄰之間的連線上,隨機找一點。這個點就是人工合成的新的陽性樣本(綠色正號標出)。
重複步驟1到4,就生成多個陽性樣本。
具體細節歡迎閱讀以下鏈接
什麼是SMOTE sampling方法?祝大家新年愉快!
推薦閱讀: