xgboost參數調優指南

xgboost參數調優指南

2 人贊了文章

xgboost入門非常經典的材料,雖然讀起來比較吃力,但是會有很大的幫助:

英文原文鏈接:analyticsvidhya.com/blo

原文地址:Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

譯註:文內提供的代碼和運行結果有一定差異,可以從這裡下載完整代碼對照參考。另外,我自己跟著教程做的時候,發現我的庫無法解析字元串類型的特徵,所以只用其中一部分特徵做的,具體數值跟文章中不一樣,反而可以幫助理解文章。所以大家其實也可以小小修改一下代碼,不一定要完全跟著教程做~ ^0^

需要提前安裝好的庫:numpy,matplotlib,pandas,xgboost,scikit-learn

簡介

如果你的預測模型表現得有些不盡如人意,那就用XGBoost吧。XGBoost演算法現在已經成為很多數據工程師的重要武器。它是一種十分精緻的演算法,可以處理各種不規則的數據。

構造一個使用XGBoost的模型十分簡單。但是,提高這個模型的表現就有些困難(至少我覺得十分糾結)。這個演算法使用了好幾個參數。所以為了提高模型的表現,參數的調整十分必要。在解決實際問題的時候,有些問題是很難回答的——你需要調整哪些參數?這些參數要調到什麼值,才能達到理想的輸出?

這篇文章最適合剛剛接觸XGBoost的人閱讀。在這篇文章中,我們會學到參數調優的技巧,以及XGboost相關的一些有用的知識。以及,我們會用Python在一個數據集上實踐一下這個演算法。

你需要知道的

XGBoost(eXtreme Gradient Boosting)是Gradient Boosting演算法的一個優化的版本。因為我在前一篇文章,基於Python的Gradient Boosting演算法參數調整完全指南,裡面已經涵蓋了Gradient Boosting演算法的很多細節了。我強烈建議大家在讀本篇文章之前,把那篇文章好好讀一遍。它會幫助你對Boosting演算法有一個宏觀的理解,同時也會對GBM的參數調整有更好的體會。

特別鳴謝:我個人十分感謝Mr Sudalai Rajkumar (aka SRK)大神的支持,目前他在AV Rank中位列第二。如果沒有他的幫助,就沒有這篇文章。在他的幫助下,我們才能給無數的數據科學家指點迷津。給他一個大大的贊!

內容列表

1、XGBoost的優勢

2、理解XGBoost的參數

3、調整參數(含示例)

1、XGBoost的優勢

XGBoost演算法可以給預測模型帶來能力的提升。當我對它的表現有更多了解的時候,當我對它的高準確率背後的原理有更多了解的時候,我發現它具有很多優勢:

1、正則化

  • 標準GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。
  • 實際上,XGBoost以「正則化提升(regularized boosting)」技術而聞名。

2、並行處理

  • XGBoost可以實現並行處理,相比GBM有了速度的飛躍。
  • 不過,眾所周知,Boosting演算法是順序處理的,它怎麼可能並行呢?每一課樹的構造都依賴於前一棵樹,那具體是什麼讓我們能用多核處理器去構造一個樹呢?我希望你理解了這句話的意思。如果你希望了解更多,點擊這個鏈接。
  • XGBoost 也支持Hadoop實現。

3、高度的靈活性

  • XGBoost 允許用戶定義自定義優化目標和評價標準
  • 它對模型增加了一個全新的維度,所以我們的處理不會受到任何限制。

4、缺失值處理

  • XGBoost內置處理缺失值的規則。
  • 用戶需要提供一個和其它樣本不同的值,然後把它作為一個參數傳進去,以此來作為缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法,並且會學習未來遇到缺失值時的處理方法。

5、剪枝

  • 當分裂時遇到一個負損失時,GBM會停止分裂。因此GBM實際上是一個貪心演算法
  • XGBoost會一直分裂到指定的最大深度(max_depth),然後回過頭來剪枝。如果某個節點之後不再有正值,它會去除這個分裂。
  • 這種做法的優點,當一個負損失(如-2)後面有個正損失(如+10)的時候,就顯現出來了。GBM會在-2處停下來,因為它遇到了一個負值。但是XGBoost會繼續分裂,然後發現這兩個分裂綜合起來會得到+8,因此會保留這兩個分裂。

6、內置交叉驗證

  • XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此,可以方便地獲得最優boosting迭代次數。
  • 而GBM使用網格搜索,只能檢測有限個值。

7、在已有的模型基礎上繼續

  • XGBoost可以在上一輪的結果上繼續訓練。這個特性在某些特定的應用上是一個巨大的優勢。
  • sklearn中的GBM的實現也有這個功能,兩種演算法在這一點上是一致的。

相信你已經對XGBoost強大的功能有了點概念。注意這是我自己總結出來的幾點,你如果有更多的想法,儘管在下面評論指出,我會更新這個列表的!

你的胃口被我吊起來了嗎?棒棒噠!如果你想更深入了解相關信息,可以參考下面這些文章:

XGBoost Guide - Introduce to Boosted Trees

Words from the Auther of XGBoost [Viedo]

2、XGBoost的參數

XGBoost的作者把所有的參數分成了三類:

1、通用參數:宏觀函數控制。

2、Booster參數:控制每一步的booster(tree/regression)。

3、學習目標參數:控制訓練目標的表現。

在這裡我會類比GBM來講解,所以作為一種基礎知識,強烈推薦先閱讀這篇文章。

通用參數

這些參數用來控制XGBoost的宏觀功能。

1、booster[默認gbtree]

  • 選擇每次迭代的模型,有兩種選擇:

    gbtree:基於樹的模型

    gbliner:線性模型

2、silent[默認0]

  • 當這個參數值為1時,靜默模式開啟,不會輸出任何信息。
  • 一般這個參數就保持默認的0,因為這樣能幫我們更好地理解模型。

3、nthread[默認值為最大可能的線程數]

  • 這個參數用來進行多線程式控制制,應當輸入系統的核數。
  • 如果你希望使用CPU全部的核,那就不要輸入這個參數,演算法會自動檢測它。

    還有兩個參數,XGBoost會自動設置,目前你不用管它。接下來咱們一起看booster參數。

booster參數

儘管有兩種booster可供選擇,我這裡只介紹tree booster,因為它的表現遠遠勝過linear booster,所以linear booster很少用到。

1、eta[默認0.3]

  • 和GBM中的 learning rate 參數類似。
  • 通過減少每一步的權重,可以提高模型的魯棒性。
  • 典型值為0.01-0.2。

2、min_child_weight[默認1]

  • 決定最小葉子節點樣本權重和。
  • 和GBM的 min_child_leaf 參數類似,但不完全一樣。XGBoost的這個參數是最小樣本權重的和,而GBM參數是最小樣本總數。
  • 這個參數用於避免過擬合。當它的值較大時,可以避免模型學習到局部的特殊樣本。
  • 但是如果這個值過高,會導致欠擬合。這個參數需要使用CV來調整。

3、max_depth[默認6]

  • 和GBM中的參數相同,這個值為樹的最大深度。
  • 這個值也是用來避免過擬合的。max_depth越大,模型會學到更具體更局部的樣本。
  • 需要使用CV函數來進行調優。
  • 典型值:3-10

4、max_leaf_nodes

  • 樹上最大的節點或葉子的數量。
  • 可以替代max_depth的作用。因為如果生成的是二叉樹,一個深度為n的樹最多生成n2個葉子。
  • 如果定義了這個參數,GBM會忽略max_depth參數。

5、gamma[默認0]

  • 在節點分裂時,只有分裂後損失函數的值下降了,才會分裂這個節點。Gamma指定了節點分裂所需的最小損失函數下降值。
  • 這個參數的值越大,演算法越保守。這個參數的值和損失函數息息相關,所以是需要調整的。

6、max_delta_step[默認0]

  • 這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0,那就意味著沒有約束。如果它被賦予了某個正值,那麼它會讓這個演算法更加保守。
  • 通常,這個參數不需要設置。但是當各類別的樣本十分不平衡時,它對邏輯回歸是很有幫助的。
  • 這個參數一般用不到,但是你可以挖掘出來它更多的用處。

7、subsample[默認1]

  • 和GBM中的subsample參數一模一樣。這個參數控制對於每棵樹,隨機採樣的比例。
  • 減小這個參數的值,演算法會更加保守,避免過擬合。但是,如果這個值設置得過小,它可能會導致欠擬合。
  • 典型值:0.5-1

8、colsample_bytree[默認1]

  • 和GBM裡面的max_features參數類似。用來控制每棵隨機採樣的列數的佔比(每一列是一個特徵)。
  • 典型值:0.5-1

9、colsample_bylevel[默認1]

  • 用來控制樹的每一級的每一次分裂,對列數的採樣的佔比。
  • 我個人一般不太用這個參數,因為subsample參數和colsample_bytree參數可以起到相同的作用。但是如果感興趣,可以挖掘這個參數更多的用處。

10、lambda[默認1]

  • 權重的L2正則化項。(和Ridge regression類似)。
  • 這個參數是用來控制XGBoost的正則化部分的。雖然大部分數據科學家很少用到這個參數,但是這個參數在減少過擬合上還是可以挖掘出更多用處的。

11、alpha[默認1]

  • 權重的L1正則化項。(和Lasso regression類似)。
  • 可以應用在很高維度的情況下,使得演算法的速度更快。

12、scale_pos_weight[默認1]

  • 在各類別樣本十分不平衡時,把這個參數設定為一個正值,可以使演算法更快收斂。

學習目標參數

這個參數用來控制理想的優化目標和每一步結果的度量方法。

1、objective[默認reg:linear]

  • 這個參數定義需要被最小化的損失函數。最常用的值有:

    • binary:logistic 二分類的邏輯回歸,返回預測的概率(不是類別)。
    • multi:softmax 使用softmax的多分類器,返回預測的類別(不是概率)。

      • 在這種情況下,你還需要多設一個參數:num_class(類別數目)。
    • multi:softprob 和multi:softmax參數一樣,但是返回的是每個數據屬於各個類別的概率。

2、eval_metric[默認值取決於objective參數的取值]

  • 對於有效數據的度量方法。
  • 對於回歸問題,默認值是rmse,對於分類問題,默認值是error。
  • 典型值有:

    • rmse 均方根誤差(∑Ni=1?2N??????√)
    • mae 平均絕對誤差(∑Ni=1|?|N)
    • logloss 負對數似然函數值
    • error 二分類錯誤率(閾值為0.5)
    • merror 多分類錯誤率
    • mlogloss 多分類logloss損失函數
    • auc 曲線下面積

3、seed(默認0)

  • 隨機數的種子
  • 設置它可以復現隨機數據的結果,也可以用於調整參數

如果你之前用的是Scikit-learn,你可能不太熟悉這些參數。但是有個好消息,python的XGBoost模塊有一個sklearn包,XGBClassifier。這個包中的參數是按sklearn風格命名的。會改變的函數名是:

1、eta ->learning_rate

2、lambda->reg_lambda

3、alpha->reg_alpha

你肯定在疑惑為啥咱們沒有介紹和GBM中的』n_estimators』類似的參數。XGBClassifier中確實有一個類似的參數,但是,是在標準XGBoost實現中調用擬合函數時,把它作為』num_boosting_rounds』參數傳入。

XGBoost Guide 的一些部分是我強烈推薦大家閱讀的,通過它可以對代碼和參數有一個更好的了解:

XGBoost Parameters (official guide)

XGBoost Demo Codes (xgboost GitHub repository)

Python API Reference (official guide)

調整參數(含示例)

我們從Data Hackathon 3.x AV版的hackathon中獲得數據集,和GBM 介紹文章中是一樣的。更多的細節可以參考competition page

數據集可以從這裡下載。我已經對這些數據進行了一些處理:

  1. City變數,因為類別太多,所以刪掉了一些類別。
  2. DOB變數換算成年齡,並刪除了一些數據。
  3. 增加了 EMI_Loan_Submitted_Missing 變數。如果EMI_Loan_Submitted變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的EMI_Loan_Submitted變數。
  4. EmployerName變數,因為類別太多,所以刪掉了一些類別。
  5. 因為Existing_EMI變數只有111個值缺失,所以缺失值補充為中位數0。
  6. 增加了 Interest_Rate_Missing 變數。如果Interest_Rate變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的Interest_Rate變數。
  7. 刪除了Lead_Creation_Date,從直覺上這個特徵就對最終結果沒什麼幫助。
  8. Loan_Amount_Applied, Loan_Tenure_Applied 兩個變數的缺項用中位數補足。
  9. 增加了 Loan_Amount_Submitted_Missing 變數。如果Loan_Amount_Submitted變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的Loan_Amount_Submitted變數。
  10. 增加了 Loan_Tenure_Submitted_Missing 變數。如果 Loan_Tenure_Submitted 變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的 Loan_Tenure_Submitted 變數。
  11. 刪除了LoggedIn, Salary_Account 兩個變數
  12. 增加了 Processing_Fee_Missing 變數。如果 Processing_Fee 變數的數據缺失,則這個參數的值為1。否則為0。刪除了原先的 Processing_Fee 變數。
  13. Source前兩位不變,其它分成不同的類別。
  14. 進行了量化和獨熱編碼(一位有效編碼)。

如果你有原始數據,可以從資源庫裡面下載data_preparation的Ipython notebook 文件,然後自己過一遍這些步驟。

首先,import必要的庫,然後載入數據。

#Import libraries:import pandas as pdimport numpy as npimport xgboost as xgbfrom xgboost.sklearn import XGBClassifierfrom sklearn import cross_validation, metrics #Additional scklearn functionsfrom sklearn.grid_search import GridSearchCV #Perforing grid searchimport matplotlib.pylab as plt%matplotlib inlinefrom matplotlib.pylab import rcParamsrcParams[figure.figsize] = 12, 4train = pd.read_csv(train_modified.csv)target = DisbursedIDcol = ID

注意我import了兩種XGBoost:

  1. xgb - 直接引用xgboost。接下來會用到其中的「cv」函數。
  2. XGBClassifier - 是xgboost的sklearn包。這個包允許我們像GBM一樣使用Grid Search 和並行處理。

在向下進行之前,我們先定義一個函數,它可以幫助我們建立XGBoost models 並進行交叉驗證。好消息是你可以直接用下面的函數,以後再自己的models中也可以使用它。

def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):if useTrainCV: xgb_param = alg.get_xgb_params() xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values) cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()[n_estimators], nfold=cv_folds, metrics=auc, early_stopping_rounds=early_stopping_rounds, show_progress=False) alg.set_params(n_estimators=cvresult.shape[0])#Fit the algorithm on the dataalg.fit(dtrain[predictors], dtrain[Disbursed],eval_metric=auc)#Predict training set:dtrain_predictions = alg.predict(dtrain[predictors])dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]#Print model report:print "/nModel Report"print "Accuracy : %.4g" % metrics.accuracy_score(dtrain[Disbursed].values, dtrain_predictions)print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain[Disbursed], dtrain_predprob)feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)feat_imp.plot(kind=bar, title=Feature Importances)plt.ylabel(Feature Importance Score)

這個函數和GBM中使用的有些許不同。不過本文章的重點是講解重要的概念,而不是寫代碼。如果哪裡有不理解的地方,請在下面評論,不要有壓力。注意xgboost的sklearn包沒有「feature_importance」這個量度,但是get_fscore()函數有相同的功能。

參數調優的一般方法。

我們會使用和GBM中相似的方法。需要進行如下步驟:

1. 選擇較高的學習速率(learning rate)。一般情況下,學習速率的值為0.1。但是,對於不同的問題,理想的學習速率有時候會在0.05到0.3之間波動。選擇對應於此學習速率的理想決策樹數量。XGBoost有一個很有用的函數「cv」,這個函數可以在每一次迭代中使用交叉驗證,並返回理想的決策樹數量。

2. 對於給定的學習速率和決策樹數量,進行決策樹特定參數調優(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過程中,我們可以選擇不同的參數,待會兒我會舉例說明。

3. xgboost的正則化參數的調優。(lambda, alpha)。這些參數可以降低模型的複雜度,從而提高模型的表現。

4. 降低學習速率,確定理想參數。

咱們一起詳細地一步步進行這些操作。

第一步:確定學習速率和tree_based 參數調優的估計器數目。

為了確定boosting 參數,我們要先給其它參數一個初始值。咱們先按如下方法取值:

1、max_depth = 5 :這個參數的取值最好在3-10之間。我選的起始值為5,但是你也可以選擇其它的值。起始值在4-6之間都是不錯的選擇。

2、min_child_weight = 1:在這裡選了一個比較小的值,因為這是一個極不平衡的分類問題。因此,某些葉子節點下的值會比較小。

3、gamma = 0: 起始值也可以選其它比較小的值,在0.1到0.2之間就可以。這個參數後繼也是要調整的。

4、subsample,colsample_bytree = 0.8: 這個是最常見的初始值了。典型值的範圍在0.5-0.9之間。

5、scale_pos_weight = 1: 這個值是因為類別十分不平衡。

注意哦,上面這些參數的值只是一個初始的估計值,後繼需要調優。這裡把學習速率就設成默認的0.1。然後用xgboost中的cv函數來確定最佳的決策樹數量。前文中的函數可以完成這個工作。

#Choose all predictors except target & IDcolspredictors = [x for x in train.columns if x not in [target,IDcol]]xgb1 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1, seed=27)modelfit(xgb1, train, predictors)

從輸出結果可以看出,在學習速率為0.1時,理想的決策樹數目是140。這個數字對你而言可能比較高,當然這也取決於你的系統的性能。

注意:在AUC(test)這裡你可以看到測試集的AUC值。但是如果你在自己的系統上運行這些命令,並不會出現這個值。因為數據並不公開。這裡提供的值僅供參考。生成這個值的代碼部分已經被刪掉了。

第二步: max_depth 和 min_weight 參數調優

我們先對這兩個參數調優,是因為它們對最終結果有很大的影響。首先,我們先大範圍地粗調參數,然後再小範圍地微調。

注意:在這一節我會進行高負荷的柵格搜索(grid search),這個過程大約需要15-30分鐘甚至更久,具體取決於你系統的性能。你也可以根據自己系統的性能選擇不同的值。

param_test1 = { max_depth:range(3,10,2), min_child_weight:range(1,6,2)}gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1, seed=27), param_grid = param_test1, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch1.fit(train[predictors],train[target])gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

至此,我們對於數值進行了較大跨度的12中不同的排列組合,可以看出理想的max_depth值為5,理想的min_child_weight值為5。在這個值附近我們可以再進一步調整,來找出理想值。我們把上下範圍各拓展1,因為之前我們進行組合的時候,參數調整的步長是2。

param_test2 = { max_depth:[4,5,6], min_child_weight:[4,5,6]}gsearch2 = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=5, min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test2, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch2.fit(train[predictors],train[target])gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_

至此,我們得到max_depth的理想取值為4,min_child_weight的理想取值為6。同時,我們還能看到cv的得分有了小小一點提高。需要注意的一點是,隨著模型表現的提升,進一步提升的難度是指數級上升的,尤其是你的表現已經接近完美的時候。當然啦,你會發現,雖然min_child_weight的理想取值是6,但是我們還沒嘗試過大於6的取值。像下面這樣,就可以嘗試其它值。

param_test2b = { min_child_weight:[6,8,10,12] }gsearch2b = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=4, min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test2b, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch2b.fit(train[predictors],train[target])modelfit(gsearch3.best_estimator_, train, predictors)gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_

我們可以看出,6確確實實是理想的取值了。

第三步:gamma參數調優

在已經調整好其它參數的基礎上,我們可以進行gamma參數的調優了。Gamma參數取值範圍可以很大,我這裡把取值範圍設置為5了。你其實也可以取更精確的gamma值。

param_test3 = { gamma:[i/10.0 for i in range(0,5)]}gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test3, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch3.fit(train[predictors],train[target])gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

從這裡可以看出來,我們在第一步調參時設置的初始gamma值就是比較合適的。也就是說,理想的gamma值為0。在這個過程開始之前,最好重新調整boosting回合,因為參數都有變化。

從這裡可以看出,得分提高了。所以,最終得到的參數是:

xgb2 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4,scale_pos_weight=1,seed=27)modelfit(xgb2, train, predictors)

第四步:調整subsample 和 colsample_bytree 參數

下一步是嘗試不同的subsample 和 colsample_bytree 參數。我們分兩個階段來進行這個步驟。這兩個步驟都取0.6,0.7,0.8,0.9作為起始值。

param_test4 = { subsample:[i/10.0 for i in range(6,10)], colsample_bytree:[i/10.0 for i in range(6,10)]}gsearch4 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=3, min_child_weight=4, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test4, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch4.fit(train[predictors],train[target])gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

從這裡可以看出來,subsample 和 colsample_bytree 參數的理想取值都是0.8。現在,我們以0.05為步長,在這個值附近嘗試取值。

param_test5 = { subsample:[i/100.0 for i in range(75,90,5)], colsample_bytree:[i/100.0 for i in range(75,90,5)]}gsearch5 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test5, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch5.fit(train[predictors],train[target])

我們得到的理想取值還是原來的值。因此,最終的理想取值是:

  • subsample: 0.8
  • colsample_bytree: 0.8

第五步:正則化參數調優。

下一步是應用正則化來降低過擬合。由於gamma函數提供了一種更加有效地降低過擬合的方法,大部分人很少會用到這個參數。但是我們在這裡也可以嘗試用一下這個參數。我會在這裡調整』reg_alpha』參數,然後』reg_lambda』參數留給你來完成。

param_test6 = { reg_alpha:[1e-5, 1e-2, 0.1, 1, 100]}gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test6, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch6.fit(train[predictors],train[target])gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

我們可以看到,相比之前的結果,CV的得分甚至還降低了。但是我們之前使用的取值是十分粗糙的,我們在這裡選取一個比較靠近理想值(0.01)的取值,來看看是否有更好的表現。

param_test7 = { reg_alpha:[0, 0.001, 0.005, 0.01, 0.05]}gsearch7 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= binary:logistic, nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test7, scoring=roc_auc,n_jobs=4,iid=False, cv=5)gsearch7.fit(train[predictors],train[target])gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_

可以看到,CV的得分提高了。現在,我們在模型中來使用正則化參數,來看看這個參數的影響。

xgb3 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= binary:logistic, nthread=4, scale_pos_weight=1, seed=27)modelfit(xgb3, train, predictors)

然後我們發現性能有了小幅度提高。

第6步:降低學習速率

最後,我們使用較低的學習速率,以及使用更多的決策樹。我們可以用XGBoost中的CV函數來進行這一步工作。

xgb4 = XGBClassifier( learning_rate =0.01, n_estimators=5000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= binary:logistic, nthread=4, scale_pos_weight=1, seed=27)modelfit(xgb4, train, predictors)

至此,你可以看到模型的表現有了大幅提升,調整每個參數帶來的影響也更加清楚了。

在文章的末尾,我想分享兩個重要的思想:

1、僅僅靠參數的調整和模型的小幅優化,想要讓模型的表現有個大幅度提升是不可能的。GBM的最高得分是0.8487,XGBoost的最高得分是0.8494。確實是有一定的提升,但是沒有達到質的飛躍。

2、要想讓模型的表現有一個質的飛躍,需要依靠其他的手段,諸如,特徵工程(feature egineering) ,模型組合(ensemble of model),以及堆疊(stacking)等。

你可以從 這裡 下載iPython notebook文件,裡面包含了文章中提到的所有代碼。如果你使用R語言,請閱讀這篇文章。

結束語

這篇文章主要講了如何提升XGBoost模型的表現。首先,我們介紹了相比於GBM,為何XGBoost可以取得這麼好的表現。緊接著,我們介紹了每個參數的細節。我們定義了一個可以重複使用的構造模型的函數。

最後,我們討論了使用XGBoost解決問題的一般方法,在AV Data Hackathon 3.x problem數據上實踐了這些方法。

希望看過這篇文章之後,你能有所收穫,下次使用XGBoost解決問題的時候可以更有信心哦~


推薦閱讀:

【5】如何理解CNN中的池化?
《機器學習》筆記-強化學習(16)
深度學習之Hopfield神經網路(五)
2018.5.7論文推薦

TAG:機器學習 | 參數 | xgboost |