如何優化邏輯回歸(logistic regression)？

01-14

工作剛好積累些，希望有幫助。
第二步，變數準備。對模型效果提升非常非常重要！我指的是對變數的選擇和形式的變換。動態地根據模型的反饋來構造變數，可以貫穿整個建模過程。某名人說過花80%的時間不為過。

第三步，除了chi-square test和IV值還有變數相關性。相關性太嚴重會違背獨立假設，當然做預測的話違背可以原諒。但變數太多的時候共線性嚴重可能導致軟體報錯進行不下去（猜題主用的SAS）。此外business sense常常起決定性作用。比如客戶關係管理中，如果模型顯示年齡貢獻度很低，一般還是會把它放進去。
第四步，檢驗的參數。
1) c統計量，ROC曲線以下的面積，也叫AUC（area under curve）。在應用較成熟的領域比如信用卡評分行業有稍微形成共識——大於或等於0.75——認為行為評分模型是可靠的。但針對marketing等其他領域的數據，這個閾值可以商榷。
2) Gini係數，可以同c統計量轉化，G=2c-1。

3) 提升圖（lift chart/gain table），其他名詞累積提升圖/洛侖茲曲線/收益曲線說的幾乎同一種東西。通過和隨機選擇的效果比較模型好壞，隨機就是不用模型。如果對目標數據已經建好了一小撮模型，可以畫不同模型的提升效果來比較選最佳。
4) ks，響應變數0-1的曲線對比，二者之差畫條線就是ks曲線。它的意義是模型把0和1區分開的能力。又比如marketing，前25%的人是預測的響應客戶群，對這一群體進行精準營銷既有效果又省成本。20～40參考一下就行。
最後，模型和參數實際意義還是要想想吧。很多人覺得logistic regression太簡單，卻連解釋都不做，只一味看參數。看看出來的odds ratio和probability，既能給大眾解釋又不忘建模初衷。
感覺有圖更清楚，幾個不錯的中文博客，其他資料不一而足
HuJiangtang: 分類模型的性能評估——以SAS Logistic回歸為例(1): 混淆矩陣

AUC與ROC - 衡量分類器的好壞
二分類模型性能評價（R語言，logistic回歸，ROC曲線，lift曲線，lorenz曲線）

離散化試試

確定如何衡量模型的效果。即要優化的目標。根據具體的應用場景，比如說AUC。測試集上的AUC提高，說明模型有優化。
問題中已經限定為LR，優化模型的思路:

想辦法獲得或構造更多的數據，無論評估模型還是訓練，都會更加可靠。

根據業務知識，挖掘更多有價值的Feature，即特徵工程。

加入正則化項，L1/L2。Cross validation 確定最優的alpha。這會加快模型開發速度，會自動化篩選變數。

如果不需要可解釋性或對計算複雜度要求不高，建議直接上xgboost. kaggle上冠軍常用的神器。如果還想再優化， xgboost+neural network足夠。

題主第三步具體怎麼做的，是用軟體實現的嗎？就是下面這裡。。是用SAS之類實現的，還是用R自己編出來的？

那從第三步開始：
我會用幾種辦法去看我樣本的變數和Response Rate的關係，比如:
a.) Proc Freq （看頻率），然後利用chi-square 來看這個category的變數和response的相關性。
b.) IV/WOE, 我也會一次性看下所有變數的IV，結合第一個方法選IV值在0.1~0.2以上的變數為下一步建模做準備。

最重要還是看測試集的召回率recall, 不過特徵工程很重要，還可以考慮決策樹，邏輯回歸太簡單，無法捕捉數據中的非線性特徵

申請評分做出來KS很高是因為模型過度擬合么？怎麼降低擬合度呢？

前輩您好，我最近用workbench做優化設計，模型如下，輸入變數取筒體壁厚以及內徑，輸出參數為最大應力，容器的總質量，wb計算出錯，我想請教用logistic ,可以做此模型的優化設計嗎、、

推薦閱讀：

※如何評價airbnb的data scientist實習項目水平？
※「人民日報：我國殺人案低於世界公認治安最好國家偵破率的94.5% 」是否屬實？
※如果只學 3 個 Excel 函數，你會推薦哪 3 個？
※如何利用一批去年的數據，來預測未來三年的數據？
※如何評價舒伯樂耳機的做工和質量？

TAG:統計 | Logistic回歸 |