標籤:

《DART:Dropouts meet Multiple Additive Regression Trees》

一句話簡述

(將dropouts思想引入MART中,在每棵樹的迭代過程中不再單單去擬合前一棵樹的殘差,而是從前面已有的樹中sample一部分樹,ensemble一個新model,然後去擬合這部分的殘差,從而使得後面的樹的貢獻變大一些,防止over-specialization。)

背景知識介紹:

"over-specialization, wherein trees added at later iterations tend to impact the prediction of only a few instances, and make negligible contribution towards the remaining instances."

"In neural networks, dropouts are used to mute a random fraction of the neural connections during the learning process."

dropouts是DNN中一種方法,即使得某個(或某些)節點失效,但後續還是正常使用,並非遺棄。本文就是將dropouts方法和MART進行融合。dropouts可以說是種方法,不光能用在DNN,MART中,甚至連logistic回歸中也可以使用:

"in logistic regression,dropouts are used to mute a random fraction of the input features during the training phase."

融合了dropouts的MART稱為DART,作者認為它主要的提升在兩點,一點是避免上述的over-specialization,另一點是使得整體中各個樹的貢獻更加平均一些。

"in a sense,the First tree learns the bias of the problem while the rest of the trees in the ensemble learn the deviation from this bias."

(MART的初始第一棵樹對整體方向其中關鍵的作用 ,後續的樹一直處於為前人背鍋填坑的狀態,並且隻影響一小部分樣本,這樣後面的樹對整體的貢獻也在逐漸的弱化。)

文中給了舉了一個例子,將訓練數據中所有數據label都添加一個常數,那麼只有第一棵樹有改變,即這些常數會添加到第一棵樹的所有葉子節點上,但是後續的其他樹幾乎不改變。

為了降低第一棵樹或是前幾棵樹的貢獻權重,引入shrinkage是個常見的方式。

為此比較三者的每棵樹的平均貢獻值:

(MART樹的權重迅速下降,MART with shrinkage平緩下降,DART幾乎持平。

問題:為什麼DART中每棵樹的權重,即便後面的樹權重也幾乎都不降,普遍都在一個範圍?

DART又不是像RF,它還是基於前人的缺陷來進行優化,但是它評估前人缺陷的方式不是像MART那樣僅看前一棵樹,而是看前面一部分樹的效果來評估。)

"MART creates an intermediate dataset in which a new label,-L (M(x)),is associated with every point x in the training data."

DART每次迭代時從之前的樹選擇一部分子集,用這個子集創建一個新的model M*,與MART的思想一樣,只是此時它的label為 -L(M*(x))。

(若是這個子集(假設k個)選擇的越大,ensemble結果也相應的擴大約k倍,所以需要normalization,乘以一個1/(k+1),同時由於這個new tree是基於子集生成的,也相當於放大了子集中樹的影響,所以要乘以一個k/(k+1))

極端情形下,若是一棵樹都沒有dropouts,此時DART即為MART;若全部樹都dropouts,此時即為random forest。

演算法流程:

後續作者在公共數據集上測試ranking,regression,classification場景下DART,MART和RF的表現,數據顯示DART表現最佳。同時看出RF若是想達到low loss,需要大量的樹,在一般的場景下,RF指標無法和MART,DART媲美。

問題:不同模型都有自己的參數空間,怎樣保證比較時雙方都是使用不錯的參數配置呢?

下期paper預告:《Yahoo! Learning to Rank Challenge Overview》

未經允許,嚴禁轉載。


推薦閱讀:

即時配送的ETA問題之億級樣本特徵構造實踐
N問GBDT

TAG:机器学习 | gbdt |