分類問題中如何解決正負樣本不平衡問題?

分類問題中如何解決正負樣本不平衡問題?

1. 隨機欠採樣(RandomUnder-Sampling)

2.隨機過採樣(RandomOver-Sampling)

3.基於聚類的過採樣(Cluster-BasedOver Sampling)

在這種情況下,K-均值聚類演算法獨立地被用於少數和多數類實例。這是為了識別數據集中的聚類。隨後,每一個聚類都被過採樣以至於相同類的所有聚類有著同樣的實例數量,且所有的類有著相同的大小。

4.信息性過採樣:合成少數類過採樣技術(SMOTE)

這一技術可用來避免過擬合——當直接複製少數類實例並將其添加到主數據集時。從少數類中把一個數據子集作為一個實例取走,接著創建相似的新合成的實例。這些合成的實例接著被添加進原來的數據集。新數據集被用作樣本以訓練分類模型。

5.改進的合成少數類過採樣技術(MSMOTE)

6.演算法集成技術(AlgorithmicEnsemble Techniques)如 Bagging boosting

在機器學習中,如果正例和負例的數量偏差較大,應該怎樣處理?

不均勻正負樣本分布下的機器學習 - 合唱團abc - 博客園

機器學習中,正負樣本比例差距大,導致分類效果差的理論依據是什麼?怎麼解決正負樣本不均衡問題?

筆者只是一些問題的搬運工,具體需要對問題進行深入的小夥伴還望自己閱讀相關文獻,這裡只是提出一些問題,以便於面試時問到,如果內容有一些錯誤,還望批評指正!

推薦閱讀:

【博客存檔】Machine Learing With Spark Note 4: 構建回歸模型
Datalab來了:Google Cloud NEXT 17
為什麼有些 Kaggle competition 用 Root Mean Squared Logarithmic Error (RMSLE) 評估演算法?
深度學習會不會淘汰掉其他所有機器學習演算法?

TAG:机器学习 | 深度学习DeepLearning | 推荐系统 |