《Machine Learning:Classification》課程第4章Decision Trees: Handling Missing Data問題集

1.missing data對機器學習演算法有什麼影響?

對training和predicting都有影響。

2.如何處理missing data?

最簡單的方式就是不要它!

第一種就是把不完整的那些數據丟掉,但是如果缺失的數據比較多,那麼這種方法是不可行的。

第二種是把缺失數據的feature去掉:

這兩種方式最大的缺點就是1.丟失信息 2.對predicting時候的數據缺失無用

所以這種方式一般只在有很少的數據缺失時候採用。

3.有沒有更好的方式來處理missing data?

叫做imputing,就是把缺失的數據填補上。

最簡單的imputing方法就是對於categorical value,添上最常見的值。對於numerical value,填上均值。

當然也有更高級的方法,比如EM。

但是它最大的缺點就是它引入了bias!

4.有沒有第三種方式來處理missing data?

adapt learning algorithm to be robust to missing values.修改機器學習演算法

以決策樹為例:

5.那麼如何修改決策樹演算法來支持missing data呢?

在選擇feature時候,不僅要選擇feature,還要選擇如果該feature missing的話,進入哪個branch classification error最小。


推薦閱讀:

行人檢測&再識別&搜索
通過譜聚類方法聚類時得出拉普拉斯矩陣之後如何繼續處理數據?
數字串識別:基於位置的硬性注意力機制
10分鐘快速入門PyTorch (6)
Naive的貝葉斯說紅樓夢後40回不是曹雪芹寫的

TAG:机器学习 | 决策树 |