圖解SMOTE方法

在二元分類問題中,經常遇到不均衡分類情形,比如信用卡欺詐判斷、點擊預測。為了提高預測精度,我們常常需要使用一些手段使得正負樣本數量均衡。

除了最簡單的欠採樣(down sampling)和過採樣(over sampling)之外,最常用的就是SMOTE方法。

SMOTE方法乍一聽複雜,可其實很好理解。

1.先選定一個陽性樣本(假設陽性為少數類)

2.找出這個陽性樣本的k近鄰(假設k=5)。5個近鄰已經被圈出。

3.隨機從這k個近鄰中選出一個樣本(用綠色圈出來了)。

4.在陽性樣本和被選出的這個近鄰之間的連線上,隨機找一點。這個點就是人工合成的新的陽性樣本(綠色正號標出)。

重複步驟1到4,就生成多個陽性樣本。

具體細節歡迎閱讀以下鏈接

什麼是SMOTE sampling方法??

sofasofa.io圖標

祝大家新年愉快!

推薦閱讀:

4eva is a Mighty Long Time

TAG:機器學習 | 數據科學 | 採樣 |