標籤:

為什麼要做特徵離散化?

這個知乎回答說:

邏輯回歸屬於廣義線性模型,表達能力受限;單變數離散化為N個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提升模型表達能力,加大擬合;

李沐曾經說過:模型是使用離散特徵還是連續特徵,其實是一個「海量離散特徵+簡單模型」 同 「少量連續特徵+複雜模型」的權衡。既可以離散化用線性模型,也可以用連續特徵加深度學習。就看是喜歡折騰特徵還是折騰模型了。通常來說,前者容易,而且可以n個人一起並行做,有成功經驗;後者目前看很贊,能走多遠還須拭目以待。

但是還是不直觀,這裡有個直觀的解釋:

特徵離散化解決非線性特徵問題 - CSDN博客

推薦閱讀:

(一)大數據和機器學習練習環境搭建
EM演算法簡單總結
李宏毅機器學習2016 第十五講 無監督學習 生成模型之 VAE
大白話解釋模型產生過擬合的原因!

TAG:机器学习 |