如何優化邏輯回歸(logistic regression)?


工作剛好積累些,希望有幫助。

第二步,變數準備。對模型效果提升非常非常重要!我指的是對變數的選擇和形式的變換。動態地根據模型的反饋來構造變數,可以貫穿整個建模過程。某名人說過花80%的時間不為過。

第三步,除了chi-square test和IV值還有變數相關性。相關性太嚴重會違背獨立假設,當然做預測的話違背可以原諒。但變數太多的時候共線性嚴重可能導致軟體報錯進行不下去(猜題主用的SAS)。此外business sense常常起決定性作用。比如客戶關係管理中,如果模型顯示年齡貢獻度很低,一般還是會把它放進去。

第四步,檢驗的參數。

1) c統計量,ROC曲線以下的面積,也叫AUC(area under curve)。在應用較成熟的領域比如信用卡評分行業有稍微形成共識——大於或等於0.75——認為行為評分模型是可靠的。但針對marketing等其他領域的數據,這個閾值可以商榷。

2) Gini係數,可以同c統計量轉化,G=2c-1。

3) 提升圖(lift chart/gain table),其他名詞累積提升圖/洛侖茲曲線/收益曲線說的幾乎同一種東西。通過和隨機選擇的效果比較模型好壞,隨機就是不用模型。如果對目標數據已經建好了一小撮模型,可以畫不同模型的提升效果來比較選最佳。

4) ks,響應變數0-1的曲線對比,二者之差畫條線就是ks曲線。它的意義是模型把0和1區分開的能力。又比如marketing,前25%的人是預測的響應客戶群,對這一群體進行精準營銷既有效果又省成本。20~40參考一下就行。

最後,模型和參數實際意義還是要想想吧。很多人覺得logistic regression太簡單,卻連解釋都不做,只一味看參數。看看出來的odds ratio和probability,既能給大眾解釋又不忘建模初衷。

感覺有圖更清楚,幾個不錯的中文博客,其他資料不一而足

HuJiangtang: 分類模型的性能評估——以SAS Logistic回歸為例(1): 混淆矩陣

AUC與ROC - 衡量分類器的好壞

二分類模型性能評價(R語言,logistic回歸,ROC曲線,lift曲線,lorenz曲線)


離散化試試


確定如何衡量模型的效果。即要優化的目標。根據具體的應用場景,比如說AUC。測試集上的AUC提高,說明模型有優化。

問題中已經限定為LR, 優化模型的思路:

  • 想辦法獲得或構造更多的數據,無論評估模型還是訓練,都會更加可靠。

  • 根據業務知識,挖掘更多有價值的Feature,即特徵工程。
  • 加入正則化項,L1/L2。Cross validation 確定最優的alpha。這會加快模型開發速度,會自動化篩選變數。

如果不需要可解釋性或對計算複雜度要求不高,建議直接上xgboost. kaggle上冠軍常用的神器。如果還想再優化, xgboost+neural network足夠。


題主第三步具體怎麼做的,是用軟體實現的嗎?就是下面這裡。。是用SAS之類實現的,還是用R自己編出來的?

那從第三步開始:

我會用幾種辦法去看我樣本的變數和Response Rate的關係,比如:

a.) Proc Freq (看頻率),然後利用chi-square 來看這個category的變數和response的相關性。

b.) IV/WOE, 我也會一次性看下所有變數的IV,結合第一個方法選IV值在0.1~0.2以上的變數為下一步建模做準備。


最重要還是看測試集的召回率recall, 不過特徵工程很重要,還可以考慮決策樹,邏輯回歸太簡單,無法捕捉數據中的非線性特徵


申請評分做出來KS很高是因為模型過度擬合么?怎麼降低擬合度呢?


前輩您好,我最近用workbench做優化設計,模型如下,輸入變數取筒體壁厚以及內徑,輸出參數為最大應力,容器的總質量,wb計算出錯,我想請教用logistic ,可以做此模型的優化設計嗎、、


推薦閱讀:

如何評價airbnb的data scientist實習項目水平?
「人民日報:我國殺人案低於世界公認治安最好國家偵破率的94.5% 」是否屬實?
如果只學 3 個 Excel 函數,你會推薦哪 3 個?
如何利用一批去年的數據,來預測未來三年的數據?
如何評價舒伯樂耳機的做工和質量?

TAG:統計 | Logistic回歸 |