從理解XGBoost到實現TGBoost
02-08
今年似乎在生活上學術上都沒有什麼大的進步,唯一欣慰的是打的幾個比賽拿了獎,認識了一些牛人。如果需要發表獲獎感言,那麼最需要感謝的是機器學習圈裡各種方便的開源工具,尤其是 XGBoost 。幾個月前看了XGBoost的論文,在知乎上回答了這個問題: 機器學習演算法中GBDT和XGBOOST的區別有哪些? - 數據挖掘 - 知乎 , 算是對XGBoost有一定的了解,清楚地知道每個參數的含義,調起參來(機器學習搬磚)一點不費力。前兩天稍微有空,一時興起,參考XGBoost原理碼了一個TGBoost,Tiny implement of Gradient Boosting tree,在一個40000樣本的資料庫上做了實驗,精度上接近XGBoost,但是由於沒有做太多工程上的優化,內存消耗較高,速度較慢。 當然TGBoost不是為了超過XGBoost(不可能也沒必要), 只是為了幫助大家更好地理解GBM特別是XGBoost,過一陣子有空了再寫詳細的文檔(計劃寫GBDT原理,XGBoost原理,TGBoost實現)。
個人感覺TGBoost代碼寫得應該還是比較容易看懂的,特別是在理解了XGBoost原理之後。
TGBoost代碼在這:wepe/tgboost
推薦閱讀:
※絕對收藏!民生銀行用戶畫像建設分享30頁PPT放送
※怎麼學慣用 R 語言進行數據挖掘?
※如何評價文章《為什麼用蘋果手機的人去莆田系醫院治不好病》?
※用R語言的公司多嗎?
※為數據賦能 打造「智能化」+「自動化」的數據應用平台