數據挖掘進階:kaggle競賽top代碼分享
上一篇文章 JDATA京東演算法大賽入門(score0.07+時間滑動窗口特徵+xgboost模型) - 知乎專欄
有些朋友問我代碼的問題,代碼沒有注釋也有些bug,但是有心的同學如果理解了思路,稍加優化應該也可以得到一個還不錯的成績了。
我準備整理一些kaggle比賽top選手分享的代碼,學習別人如何解決問題同時提升自己這方面的能力。
該專欄會長期更新,後續會詳細的分析每個問題的解決方法:
更新:
老司機坐穩了,Kaggle競賽-深度學習檢測疲勞駕駛簡要回顧 - 知乎專欄
Click-Through Rate Prediction
很經典的點擊率預估問題,這個比賽很值得大家好好研究,冠軍主要使用LibFFM方法,除了該方法之外還可以學的點擊率預估中很實用的FTRL(google發表的論文)方法。
- 第一名: LibFFM
- FTRL: Beat the benchmark with less than 1MB of memory.
Rossmann Store Sales
銷量預測問題,這個比賽中第三名的方法很值得參考,選手結合了entity-embedding和神經網路,後續在JDATA京東演算法大賽中會嘗試實用該方法。
- 第三名:entity-embedding + NN
State Farm Distracted Driver Detection
疲勞駕駛檢測,該比賽是我入門深度學習的比賽,選手們分享了很多有趣的方法,包括基本的深度學習模型訓練,如何應用模型遷移、數據加強、模型微調等技巧
- 第一名
- 第三名: 融合 8個 CNN model
- 第十名
Outbrain Click Prediction
預測哪塊內容用戶會點擊,點擊率預測問題,值得參考
- 第二名:
- 第三名:
- 第四名:
更新:
Facebook V: Predicting Check Ins
評論區出現大神, @李力 第五名大神,大家可以評論區找他~
- 第五名: github , 論壇
更新 :
感謝 @Grant Liu @Eliot Andres 整理的kaggle比賽詳細的解決方案列表,非常齊全 , 趕緊去star了好好看看
Kaggle Past Competitions
待補充,後續會整理更多比賽的代碼和解決方法。
推薦閱讀:
※模型匯總22 機器學習相關基礎數學理論、概念、模型思維導圖分享
※《TOP20: Multi-Label Learning Algorithms(一)<簡述>》
※支持向量機SMO演算法內循環的一個問題?
※MPI 在大規模機器學習領域的前景如何?