數據挖掘進階:kaggle競賽top代碼分享

上一篇文章 JDATA京東演算法大賽入門(score0.07+時間滑動窗口特徵+xgboost模型) - 知乎專欄

有些朋友問我代碼的問題,代碼沒有注釋也有些bug,但是有心的同學如果理解了思路,稍加優化應該也可以得到一個還不錯的成績了。

我準備整理一些kaggle比賽top選手分享的代碼,學習別人如何解決問題同時提升自己這方面的能力。

該專欄會長期更新,後續會詳細的分析每個問題的解決方法:

更新:

老司機坐穩了,Kaggle競賽-深度學習檢測疲勞駕駛簡要回顧 - 知乎專欄

Click-Through Rate Prediction

很經典的點擊率預估問題,這個比賽很值得大家好好研究,冠軍主要使用LibFFM方法,除了該方法之外還可以學的點擊率預估中很實用的FTRL(google發表的論文)方法。

  • 第一名: LibFFM
  • FTRL: Beat the benchmark with less than 1MB of memory.

Rossmann Store Sales

銷量預測問題,這個比賽中第三名的方法很值得參考,選手結合了entity-embedding和神經網路,後續在JDATA京東演算法大賽中會嘗試實用該方法。

  • 第三名:entity-embedding + NN

State Farm Distracted Driver Detection

疲勞駕駛檢測,該比賽是我入門深度學習的比賽,選手們分享了很多有趣的方法,包括基本的深度學習模型訓練,如何應用模型遷移、數據加強、模型微調等技巧

  • 第一名
  • 第三名: 融合 8個 CNN model
  • 第十名

Outbrain Click Prediction

預測哪塊內容用戶會點擊,點擊率預測問題,值得參考

  • 第二名:
  • 第三名:
  • 第四名:

更新:

Facebook V: Predicting Check Ins

評論區出現大神, @李力 第五名大神,大家可以評論區找他~

  • 第五名: github , 論壇

更新 :

感謝 @Grant Liu @Eliot Andres 整理的kaggle比賽詳細的解決方案列表,非常齊全 , 趕緊去star了好好看看

Kaggle Past Competitions

待補充,後續會整理更多比賽的代碼和解決方法。

推薦閱讀:

模型匯總22 機器學習相關基礎數學理論、概念、模型思維導圖分享
《TOP20: Multi-Label Learning Algorithms(一)<簡述>》
支持向量機SMO演算法內循環的一個問題?
MPI 在大規模機器學習領域的前景如何?

TAG:数据挖掘 | 机器学习 | Python |