圖解SMOTE方法

04-24

在二元分類問題中，經常遇到不均衡分類情形，比如信用卡欺詐判斷、點擊預測。為了提高預測精度，我們常常需要使用一些手段使得正負樣本數量均衡。

除了最簡單的欠採樣(down sampling)和過採樣(over sampling)之外，最常用的就是SMOTE方法。

SMOTE方法乍一聽複雜，可其實很好理解。

1.先選定一個陽性樣本（假設陽性為少數類）

2.找出這個陽性樣本的k近鄰（假設k=5)。5個近鄰已經被圈出。

3.隨機從這k個近鄰中選出一個樣本（用綠色圈出來了）。

4.在陽性樣本和被選出的這個近鄰之間的連線上，隨機找一點。這個點就是人工合成的新的陽性樣本（綠色正號標出）。

重複步驟1到4，就生成多個陽性樣本。

具體細節歡迎閱讀以下鏈接

什麼是SMOTE sampling方法？?

sofasofa.io

祝大家新年愉快！