《Machine Learning:Classification》課程第4章Decision Trees: Handling Missing Data問題集
02-01
1.missing data對機器學習演算法有什麼影響?
5.那麼如何修改決策樹演算法來支持missing data呢?
推薦閱讀:
對training和predicting都有影響。
2.如何處理missing data?最簡單的方式就是不要它!
第一種就是把不完整的那些數據丟掉,但是如果缺失的數據比較多,那麼這種方法是不可行的。
第二種是把缺失數據的feature去掉:這兩種方式最大的缺點就是1.丟失信息 2.對predicting時候的數據缺失無用
所以這種方式一般只在有很少的數據缺失時候採用。3.有沒有更好的方式來處理missing data?
叫做imputing,就是把缺失的數據填補上。
最簡單的imputing方法就是對於categorical value,添上最常見的值。對於numerical value,填上均值。
當然也有更高級的方法,比如EM。但是它最大的缺點就是它引入了bias!
4.有沒有第三種方式來處理missing data?
adapt learning algorithm to be robust to missing values.修改機器學習演算法
以決策樹為例:
在選擇feature時候,不僅要選擇feature,還要選擇如果該feature missing的話,進入哪個branch classification error最小。
推薦閱讀:
※行人檢測&再識別&搜索
※通過譜聚類方法聚類時得出拉普拉斯矩陣之後如何繼續處理數據?
※數字串識別:基於位置的硬性注意力機制
※10分鐘快速入門PyTorch (6)
※Naive的貝葉斯說紅樓夢後40回不是曹雪芹寫的